Речь / ASR MIT

Whisper Small

Transformer · OpenAI · 2022

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 2 ГБ Максимальное Для продакшена
INT8 1 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
OpenAI
Год выпуска
2022
Архитектура
Transformer
Лицензия
MIT
Формат вывода
text
Realtime factor
100×

Применение

Speech recognition Real-time transcription Edge ASR

Whisper Small — самый лёгкий практичный вариант Whisper для сценариев, где важны низкая задержка и малый след на GPU: стриминг, предпросмотр субтитров, массовая обработка дешёвых инстансов. Точность на шумных записях и редких словах ниже, чем у medium/large, зато стоимость инференса и время отклика обычно лучше.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Часто достаточно 2–4 ГБ VRAM с запасом под контейнер; подойдёт RTX 3090 или более новая карта с запасом по PCIe/CPU для декодирования. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=small"

Оптимизация

  • Для real-time уменьшайте размер батча и используйте VAD, чтобы не гонять модель по пустому аудио.
  • Если язык известен заранее, зафиксируйте его в запросе (если ваш сервер/API это поддерживает) — это снижает ошибки и латентность.