Faster-Whisper Large v3
Transformer · SYSTRAN · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 6 ГБ | Максимальное | Для продакшена |
| INT8 | 3 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 24 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- SYSTRAN
- Год выпуска
- 2023
- Архитектура
- Transformer
- Лицензия
- MIT
- Формат вывода
- text
- Realtime factor
- 60×
Применение
Faster-Whisper Large v3 — CTranslate2-сборка весов Large v3 (Systran): та же семантика качества, что у большого Whisper, но с заметно более быстрым декодированием и часто более скромным потреблением VRAM, чем «наивный» PyTorch-путь. Оптимален для высокой пропускной способности: очереди файлов, медиа-пайплайны, сервисы с пиковой нагрузкой, где важны рубль/час GPU.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — около 6–10 ГБ VRAM в зависимости от precision и длины чанков; разумный минимум — RTX 3090, для очередей — RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Запустите Faster-Whisper Server
docker run --gpus all -p 8000:8000 \
fedirz/faster-whisper-server:latest-cuda
Шаг 3 — Транскрибируйте аудио
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@audio.wav" \
-F "model=large-v3"
Если ваш сервер позволяет указывать репозиторий весов, используйте чекпоинт Systran/faster-whisper-large-v3 на стороне клиента faster-whisper (см. документацию образа).
Оптимизация
- Масштабируйте горизонтально: несколько воркеров с меньшим batch часто выгоднее одного «жирного» процесса.
- Для длинных записей комбинируйте сегментацию с overlap, чтобы не резать слова на стыках.