Speech

faster-whisper

Оптимизированная реализация Whisper на CTranslate2 — в 4× быстрее оригинала при меньшем потреблении памяти.

Что такое faster-whisper

faster-whisper — реализация Whisper на базе CTranslate2 (высокоэффективная библиотека для inference трансформеров). По сравнению с оригинальным Whisper от OpenAI:

4× быстрее на GPU с CUDA
Меньше VRAM: модели в INT8 или FP16
Batched inference: обработка нескольких аудиофайлов параллельно
Python API, совместимый с оригинальным Whisper

Установка и использование

pip install faster-whisper

from faster_whisper import WhisperModel

# INT8 — максимально быстрый режим
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print(f"Detected language: {info.language} (prob: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")

Batched inference

from faster_whisper import BatchedInferencePipeline

pipeline = BatchedInferencePipeline(model=model)
segments, info = pipeline.transcribe("audio.mp3", batch_size=16)

Сравнение производительности

Модель	Реализация	A100 80GB	RTX 4090
large-v3	openai/whisper	~30×	~20×
large-v3	faster-whisper FP16	~80×	~60×
large-v3	faster-whisper INT8	~120×	~90×

(× — скорость относительно реального времени аудио)

Whisper.cpp

Альтернативная реализация на C++ — работает на CPU и Apple Silicon. Менее удобна для production, но хороша для edge-устройств.

Связанные термины

Whisper — оригинальная модель
ASR — задача распознавания речи
транскрипция — основной output
VAD — встроен в faster-whisper pipeline

Готовы запустить GPU-задачу?

Запустить GPU-сервер