Речь / ASR MIT

Whisper Medium

Transformer · OpenAI · 2022

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 5 ГБ Максимальное Для продакшена
INT8 3 ГБ Хорошее
INT4/Q4 2 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
OpenAI
Год выпуска
2022
Архитектура
Transformer
Лицензия
MIT
Формат вывода
text
Realtime factor
60×

Применение

Speech recognition Transcription Multilingual ASR

Whisper Medium — «золотая середина» в семействе Whisper: заметно быстрее Large, но заметно точнее Small на сложной лексике и неидеальной записи. Хорошо подходит для регулярной транскрипции в продакшне, когда Large избыточен, а Small уже даёт слышимые ошибки на именах и терминах. Поддержка десятков языков остаётся сильной стороной всей линейки.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — около 5 ГБ VRAM и выше для комфортного запаса; часто достаточно RTX 3090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=medium"

Оптимизация

  • Нормализуйте громкость и моно/стерео до отправки: лишняя динамика и клиппинг бьют по WER сильнее, чем «ещё один шаг» декодера.
  • Если домен узкий (медицина, юридический), рассмотрите hotwords/постобработку на уровне приложения — быстрее, чем гнаться за следующим размером модели.