Speech

Whisper

Мультиязычная модель ASR от OpenAI, обученная на 680 000 часах размеченного аудио.

Что такое Whisper

Whisper — open-source модель автоматического распознавания речи (ASR) от OpenAI, выпущенная в 2022 году. Обучена на 680 000 часах разнообразного аудио из интернета, поддерживает транскрипцию на 99 языках и перевод на английский.

Архитектура: encoder-decoder трансформер. Аудио преобразуется в log-mel spectrogram, который кодируется в представление, а decoder генерирует текст.

Размеры моделей

Модель Параметры VRAM Скорость
tiny 39M ~1 GB очень быстро
base 74M ~1 GB быстро
small 244M ~2 GB хорошо
medium 769M ~5 GB медленно
large-v2 1550M ~10 GB медленно
large-v3 1550M ~10 GB лучшее качество
large-v3-turbo 809M ~6 GB fast + quality

Запуск Whisper

import whisper

model = whisper.load_model("large-v3")

# Простая транскрипция
result = model.transcribe("audio.mp3")
print(result["text"])

# С временными метками
result = model.transcribe("audio.mp3", word_timestamps=True)
for segment in result["segments"]:
    print(f"[{segment['start']:.2f}s] {segment['text']}")

Языки

Whisper хорошо работает с английским, а также большинством европейских языков. Качество русскоязычной транскрипции у large-v3 хорошее, но не идеальное. WER (Word Error Rate) на русском: ≈ 8–15% в зависимости от качества аудио.

GPU-ускорение

Whisper нативно поддерживает CUDA. На GPU RTX 4090 large-v3 транскрибирует примерно в 40–80× быстрее реального времени. Для production рекомендуется faster-whisper — оптимизированная версия на CTranslate2.

Связанные термины

  • faster-whisper — оптимизированная версия для production
  • ASR — задача, которую решает Whisper
  • WER — метрика качества Whisper
  • транскрипция — основной output Whisper
  • word timestamps — временные метки каждого слова

Готовы запустить GPU-задачу?

Запустить GPU-сервер