Речь / ASR
MIT
Whisper Medium
Transformer · OpenAI · 2022
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 5 ГБ | Максимальное | Для продакшена |
| INT8 | 3 ГБ | Хорошее | |
| INT4/Q4 | 2 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- OpenAI
- Год выпуска
- 2022
- Архитектура
- Transformer
- Лицензия
- MIT
- Формат вывода
- text
- Realtime factor
- 60×
Применение
Speech recognition
Transcription
Multilingual ASR
Whisper Medium — «золотая середина» в семействе Whisper: заметно быстрее Large, но заметно точнее Small на сложной лексике и неидеальной записи. Хорошо подходит для регулярной транскрипции в продакшне, когда Large избыточен, а Small уже даёт слышимые ошибки на именах и терминах. Поддержка десятков языков остаётся сильной стороной всей линейки.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — около 5 ГБ VRAM и выше для комфортного запаса; часто достаточно RTX 3090. Перейдите в каталог GPU.
Шаг 2 — Запустите Faster-Whisper Server
docker run --gpus all -p 8000:8000 \
fedirz/faster-whisper-server:latest-cuda
Шаг 3 — Транскрибируйте аудио
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@audio.wav" \
-F "model=medium"
Оптимизация
- Нормализуйте громкость и моно/стерео до отправки: лишняя динамика и клиппинг бьют по WER сильнее, чем «ещё один шаг» декодера.
- Если домен узкий (медицина, юридический), рассмотрите hotwords/постобработку на уровне приложения — быстрее, чем гнаться за следующим размером модели.