Speech

Whisper

Мультиязычная модель ASR от OpenAI, обученная на 680 000 часах размеченного аудио.

См. также — материалы

OpenAI Whisper на GPU: транскрипция и диаризация в облаке

Что такое Whisper

Whisper — open-source модель автоматического распознавания речи (ASR) от OpenAI, выпущенная в 2022 году. Обучена на 680 000 часах разнообразного аудио из интернета, поддерживает транскрипцию на 99 языках и перевод на английский.

Архитектура: encoder-decoder трансформер. Аудио преобразуется в log-mel spectrogram, который кодируется в представление, а decoder генерирует текст.

Размеры моделей

Модель	Параметры	VRAM	Скорость
tiny	39M	~1 GB	очень быстро
base	74M	~1 GB	быстро
small	244M	~2 GB	хорошо
medium	769M	~5 GB	медленно
large-v2	1550M	~10 GB	медленно
large-v3	1550M	~10 GB	лучшее качество
large-v3-turbo	809M	~6 GB	fast + quality

Запуск Whisper

import whisper

model = whisper.load_model("large-v3")

# Простая транскрипция
result = model.transcribe("audio.mp3")
print(result["text"])

# С временными метками
result = model.transcribe("audio.mp3", word_timestamps=True)
for segment in result["segments"]:
    print(f"[{segment['start']:.2f}s] {segment['text']}")

Языки

Whisper хорошо работает с английским, а также большинством европейских языков. Качество русскоязычной транскрипции у large-v3 хорошее, но не идеальное. WER (Word Error Rate) на русском: ≈ 8–15% в зависимости от качества аудио.

GPU-ускорение

Whisper нативно поддерживает CUDA. На GPU RTX 4090 large-v3 транскрибирует примерно в 40–80× быстрее реального времени. Для production рекомендуется faster-whisper — оптимизированная версия на CTranslate2.

Связанные термины

faster-whisper — оптимизированная версия для production
ASR — задача, которую решает Whisper
WER — метрика качества Whisper
транскрипция — основной output Whisper
word timestamps — временные метки каждого слова

Готовы запустить GPU-задачу?

Запустить GPU-сервер