Речь / ASR
MIT
Whisper Large v3
Transformer · OpenAI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 10 ГБ | Максимальное | Для продакшена |
| INT8 | 5 ГБ | Хорошее | |
| INT4/Q4 | 3 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- OpenAI
- Год выпуска
- 2023
- Архитектура
- Transformer
- Лицензия
- MIT
- Формат вывода
- text
- Realtime factor
- 30×
Применение
Speech recognition
Transcription
Translation
Multilingual ASR
Whisper Large v3 — самый тяжёлый и точный чекпоинт линейки Whisper: лучше держит акценты, шум и редкие слова, удобен для мультиязычной транскрипции и сценариев, где важна максимальная полнота (подкасты, интервью, звонки). MIT-лицензия и широкая поддержка в tooling делают его естественным выбором для «эталонного» качества, ценой более высокой нагрузки на GPU, чем у medium/small.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир по VRAM — около 10 ГБ и выше в классическом fp16; для сервиса на Faster-Whisper часто хватает RTX 3090 или RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Запустите Faster-Whisper Server
docker run --gpus all -p 8000:8000 \
fedirz/faster-whisper-server:latest-cuda
Шаг 3 — Транскрибируйте аудио
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@audio.wav" \
-F "model=large-v3"
Оптимизация
- Для длинных файлов используйте сегментацию по тишине или фиксированным чанкам, чтобы не упираться в RAM и таймауты HTTP.
- Экспериментируйте с
beam_size/vad_filterна стороне клиента библиотеки faster-whisper, если переходите с HTTP API на прямой вызов.