VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	5 ГБ	Максимальное	Для продакшена
INT8	3 ГБ	Хорошее
INT4/Q4	2 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: OpenAI
Год выпуска: 2022
Архитектура: Transformer
Лицензия: MIT
Формат вывода: text
Realtime factor: 60×

Применение

Speech recognition Transcription Multilingual ASR

Whisper Medium — «золотая середина» в семействе Whisper: заметно быстрее Large, но заметно точнее Small на сложной лексике и неидеальной записи. Хорошо подходит для регулярной транскрипции в продакшне, когда Large избыточен, а Small уже даёт слышимые ошибки на именах и терминах. Поддержка десятков языков остаётся сильной стороной всей линейки.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — около 5 ГБ VRAM и выше для комфортного запаса; часто достаточно RTX 3090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=medium"

Оптимизация

Нормализуйте громкость и моно/стерео до отправки: лишняя динамика и клиппинг бьют по WER сильнее, чем «ещё один шаг» декодера.
Если домен узкий (медицина, юридический), рассмотрите hotwords/постобработку на уровне приложения — быстрее, чем гнаться за следующим размером модели.

Whisper Medium