VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	2 ГБ	Максимальное	Для продакшена
INT8	1 ГБ	Хорошее

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8

Арендовать

Характеристики модели

Технические параметры

Разработчик: OpenAI
Год выпуска: 2022
Архитектура: Transformer
Лицензия: MIT
Формат вывода: text
Realtime factor: 100×

Применение

Speech recognition Real-time transcription Edge ASR

Whisper Small — самый лёгкий практичный вариант Whisper для сценариев, где важны низкая задержка и малый след на GPU: стриминг, предпросмотр субтитров, массовая обработка дешёвых инстансов. Точность на шумных записях и редких словах ниже, чем у medium/large, зато стоимость инференса и время отклика обычно лучше.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Часто достаточно 2–4 ГБ VRAM с запасом под контейнер; подойдёт RTX 3090 или более новая карта с запасом по PCIe/CPU для декодирования. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=small"

Оптимизация

Для real-time уменьшайте размер батча и используйте VAD, чтобы не гонять модель по пустому аудио.
Если язык известен заранее, зафиксируйте его в запросе (если ваш сервер/API это поддерживает) — это снижает ошибки и латентность.

Whisper Small