Whisper
Мультиязычная модель ASR от OpenAI, обученная на 680 000 часах размеченного аудио.
См. также — материалы
Что такое Whisper
Whisper — open-source модель автоматического распознавания речи (ASR) от OpenAI, выпущенная в 2022 году. Обучена на 680 000 часах разнообразного аудио из интернета, поддерживает транскрипцию на 99 языках и перевод на английский.
Архитектура: encoder-decoder трансформер. Аудио преобразуется в log-mel spectrogram, который кодируется в представление, а decoder генерирует текст.
Размеры моделей
| Модель | Параметры | VRAM | Скорость |
|---|---|---|---|
| tiny | 39M | ~1 GB | очень быстро |
| base | 74M | ~1 GB | быстро |
| small | 244M | ~2 GB | хорошо |
| medium | 769M | ~5 GB | медленно |
| large-v2 | 1550M | ~10 GB | медленно |
| large-v3 | 1550M | ~10 GB | лучшее качество |
| large-v3-turbo | 809M | ~6 GB | fast + quality |
Запуск Whisper
import whisper
model = whisper.load_model("large-v3")
# Простая транскрипция
result = model.transcribe("audio.mp3")
print(result["text"])
# С временными метками
result = model.transcribe("audio.mp3", word_timestamps=True)
for segment in result["segments"]:
print(f"[{segment['start']:.2f}s] {segment['text']}")
Языки
Whisper хорошо работает с английским, а также большинством европейских языков. Качество русскоязычной транскрипции у large-v3 хорошее, но не идеальное. WER (Word Error Rate) на русском: ≈ 8–15% в зависимости от качества аудио.
GPU-ускорение
Whisper нативно поддерживает CUDA. На GPU RTX 4090 large-v3 транскрибирует примерно в 40–80× быстрее реального времени. Для production рекомендуется faster-whisper — оптимизированная версия на CTranslate2.
Связанные термины
- faster-whisper — оптимизированная версия для production
- ASR — задача, которую решает Whisper
- WER — метрика качества Whisper
- транскрипция — основной output Whisper
- word timestamps — временные метки каждого слова
Готовы запустить GPU-задачу?
Запустить GPU-сервер