Речь / ASR MIT

Whisper Large v3

Transformer · OpenAI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 10 ГБ Максимальное Для продакшена
INT8 5 ГБ Хорошее
INT4/Q4 3 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать
80 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
OpenAI
Год выпуска
2023
Архитектура
Transformer
Лицензия
MIT
Формат вывода
text
Realtime factor
30×

Применение

Speech recognition Transcription Translation Multilingual ASR

Whisper Large v3 — самый тяжёлый и точный чекпоинт линейки Whisper: лучше держит акценты, шум и редкие слова, удобен для мультиязычной транскрипции и сценариев, где важна максимальная полнота (подкасты, интервью, звонки). MIT-лицензия и широкая поддержка в tooling делают его естественным выбором для «эталонного» качества, ценой более высокой нагрузки на GPU, чем у medium/small.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир по VRAMоколо 10 ГБ и выше в классическом fp16; для сервиса на Faster-Whisper часто хватает RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=large-v3"

Оптимизация

  • Для длинных файлов используйте сегментацию по тишине или фиксированным чанкам, чтобы не упираться в RAM и таймауты HTTP.
  • Экспериментируйте с beam_size / vad_filter на стороне клиента библиотеки faster-whisper, если переходите с HTTP API на прямой вызов.