VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	10 ГБ	Максимальное	Для продакшена
INT8	5 ГБ	Хорошее
INT4/Q4	3 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: OpenAI
Год выпуска: 2023
Архитектура: Transformer
Лицензия: MIT
Формат вывода: text
Realtime factor: 30×

Применение

Speech recognition Transcription Translation Multilingual ASR

Whisper Large v3 — самый тяжёлый и точный чекпоинт линейки Whisper: лучше держит акценты, шум и редкие слова, удобен для мультиязычной транскрипции и сценариев, где важна максимальная полнота (подкасты, интервью, звонки). MIT-лицензия и широкая поддержка в tooling делают его естественным выбором для «эталонного» качества, ценой более высокой нагрузки на GPU, чем у medium/small.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир по VRAM — около 10 ГБ и выше в классическом fp16; для сервиса на Faster-Whisper часто хватает RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=large-v3"

Оптимизация

Для длинных файлов используйте сегментацию по тишине или фиксированным чанкам, чтобы не упираться в RAM и таймауты HTTP.
Экспериментируйте с beam_size / vad_filter на стороне клиента библиотеки faster-whisper, если переходите с HTTP API на прямой вызов.

Whisper Large v3

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите Faster-Whisper Server

Шаг 3 — Транскрибируйте аудио

Оптимизация