Речь / ASR MIT

Faster-Whisper Large v3

Transformer · SYSTRAN · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 6 ГБ Максимальное Для продакшена
INT8 3 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
SYSTRAN
Год выпуска
2023
Архитектура
Transformer
Лицензия
MIT
Формат вывода
text
Realtime factor
60×

Применение

High-throughput transcription Real-time ASR Batch processing

Faster-Whisper Large v3 — CTranslate2-сборка весов Large v3 (Systran): та же семантика качества, что у большого Whisper, но с заметно более быстрым декодированием и часто более скромным потреблением VRAM, чем «наивный» PyTorch-путь. Оптимален для высокой пропускной способности: очереди файлов, медиа-пайплайны, сервисы с пиковой нагрузкой, где важны рубль/час GPU.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — около 6–10 ГБ VRAM в зависимости от precision и длины чанков; разумный минимум — RTX 3090, для очередей — RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите Faster-Whisper Server

docker run --gpus all -p 8000:8000 \
  fedirz/faster-whisper-server:latest-cuda

Шаг 3 — Транскрибируйте аудио

curl -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@audio.wav" \
  -F "model=large-v3"

Если ваш сервер позволяет указывать репозиторий весов, используйте чекпоинт Systran/faster-whisper-large-v3 на стороне клиента faster-whisper (см. документацию образа).

Оптимизация

  • Масштабируйте горизонтально: несколько воркеров с меньшим batch часто выгоднее одного «жирного» процесса.
  • Для длинных записей комбинируйте сегментацию с overlap, чтобы не резать слова на стыках.