VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	6 ГБ	Максимальное	Для продакшена
INT8	3 ГБ	Хорошее

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8

Арендовать

Характеристики модели

Технические параметры

Разработчик: SYSTRAN
Год выпуска: 2023
Архитектура: Transformer
Лицензия: MIT
Формат вывода: text
Realtime factor: 60×

Применение

High-throughput transcription Real-time ASR Batch processing

Faster-Whisper Large v3 — CTranslate2-сборка весов Large v3 (Systran): та же семантика качества, что у большого Whisper, но с заметно более быстрым декодированием и часто более скромным потреблением VRAM, чем «наивный» PyTorch-путь. Оптимален для высокой пропускной способности: очереди файлов, медиа-пайплайны, сервисы с пиковой нагрузкой, где важны рубль/час GPU.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — около 6–10 ГБ VRAM в зависимости от precision и длины чанков; разумный минимум — RTX 3090, для очередей — RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=large-v3"

Если ваш сервер позволяет указывать репозиторий весов, используйте чекпоинт Systran/faster-whisper-large-v3 на стороне клиента faster-whisper (см. документацию образа).

Оптимизация

Масштабируйте горизонтально: несколько воркеров с меньшим batch часто выгоднее одного «жирного» процесса.
Для длинных записей комбинируйте сегментацию с overlap, чтобы не резать слова на стыках.

Faster-Whisper Large v3