Speech

faster-whisper

Оптимизированная реализация Whisper на CTranslate2 — в 4× быстрее оригинала при меньшем потреблении памяти.

Что такое faster-whisper

faster-whisper — реализация Whisper на базе CTranslate2 (высокоэффективная библиотека для inference трансформеров). По сравнению с оригинальным Whisper от OpenAI:

  • 4× быстрее на GPU с CUDA
  • Меньше VRAM: модели в INT8 или FP16
  • Batched inference: обработка нескольких аудиофайлов параллельно
  • Python API, совместимый с оригинальным Whisper

Установка и использование

pip install faster-whisper
from faster_whisper import WhisperModel

# INT8 — максимально быстрый режим
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print(f"Detected language: {info.language} (prob: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")

Batched inference

from faster_whisper import BatchedInferencePipeline

pipeline = BatchedInferencePipeline(model=model)
segments, info = pipeline.transcribe("audio.mp3", batch_size=16)

Сравнение производительности

Модель Реализация A100 80GB RTX 4090
large-v3 openai/whisper ~30× ~20×
large-v3 faster-whisper FP16 ~80× ~60×
large-v3 faster-whisper INT8 ~120× ~90×

(× — скорость относительно реального времени аудио)

Whisper.cpp

Альтернативная реализация на C++ — работает на CPU и Apple Silicon. Менее удобна для production, но хороша для edge-устройств.

Связанные термины

  • Whisper — оригинальная модель
  • ASR — задача распознавания речи
  • транскрипция — основной output
  • VAD — встроен в faster-whisper pipeline

Готовы запустить GPU-задачу?

Запустить GPU-сервер