Speech
faster-whisper
Оптимизированная реализация Whisper на CTranslate2 — в 4× быстрее оригинала при меньшем потреблении памяти.
Что такое faster-whisper
faster-whisper — реализация Whisper на базе CTranslate2 (высокоэффективная библиотека для inference трансформеров). По сравнению с оригинальным Whisper от OpenAI:
- 4× быстрее на GPU с CUDA
- Меньше VRAM: модели в INT8 или FP16
- Batched inference: обработка нескольких аудиофайлов параллельно
- Python API, совместимый с оригинальным Whisper
Установка и использование
pip install faster-whisper
from faster_whisper import WhisperModel
# INT8 — максимально быстрый режим
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
print(f"Detected language: {info.language} (prob: {info.language_probability:.2f})")
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")
Batched inference
from faster_whisper import BatchedInferencePipeline
pipeline = BatchedInferencePipeline(model=model)
segments, info = pipeline.transcribe("audio.mp3", batch_size=16)
Сравнение производительности
| Модель | Реализация | A100 80GB | RTX 4090 |
|---|---|---|---|
| large-v3 | openai/whisper | ~30× | ~20× |
| large-v3 | faster-whisper FP16 | ~80× | ~60× |
| large-v3 | faster-whisper INT8 | ~120× | ~90× |
(× — скорость относительно реального времени аудио)
Whisper.cpp
Альтернативная реализация на C++ — работает на CPU и Apple Silicon. Менее удобна для production, но хороша для edge-устройств.
Связанные термины
- Whisper — оригинальная модель
- ASR — задача распознавания речи
- транскрипция — основной output
- VAD — встроен в faster-whisper pipeline
Готовы запустить GPU-задачу?
Запустить GPU-сервер