ASR
Automatic Speech Recognition — автоматическое распознавание речи, преобразование аудио в текст.
Что такое ASR
ASR (Automatic Speech Recognition, автоматическое распознавание речи) — задача преобразования речевого аудиосигнала в текст. Современные ASR-системы используют deep learning и достигают качества, сравнимого с человеческим, на ряде условий записи.
Современные ASR-модели
Whisper (OpenAI): мультиязычная open-source модель. Обучена на 680k часов аудио, поддерживает 99 языков. Подходит для большинства задач.
Conformer/Wav2Vec 2.0 (Meta, Google): специализированные ASR-архитектуры с превосходным WER на определённых доменах при условии fine-tuning.
AssemblyAI, Deepgram, Google STT: облачные API — простая интеграция, высокая скорость, платная подписка.
Задачи и варианты применения
- Batch transcription: транскрибировать архив записей (звонки, подкасты, лекции)
- Real-time (streaming) ASR: субтитры в реальном времени, голосовые ассистенты
- Meeting diarization: кто что сказал — ASR + диаризация
- Audio search: сделать аудио/видео контент поисковым
Архитектура ASR pipeline
Audio File
↓
Preprocessing (resample to 16 kHz mono)
↓
VAD (Voice Activity Detection) ← [опционально]
↓
Feature Extraction (Log-Mel Spectrogram)
↓
Encoder (Conformer / Whisper encoder)
↓
Decoder (CTC / attention-based)
↓
Language Model Rescoring ← [опционально]
↓
Text Output
Метрики качества ASR
- WER (Word Error Rate): основная метрика — доля слов с ошибками
- CER (Character Error Rate): на уровне символов, для языков без пробелов (китайский)
- RTF (Real-Time Factor): время обработки / длина аудио (< 1 = быстрее реального времени)
GPU для ASR
Whisper large-v3 с faster-whisper на RTX 4090 обрабатывает аудио в 60–90× быстрее реального времени. 1 часовой файл транскрибируется за 40–60 секунд.
Связанные термины
- Whisper — лучшая open-source ASR-модель
- faster-whisper — production-оптимизация Whisper
- WER — метрика качества ASR
- транскрипция — результат ASR
- диаризация — дополняет ASR информацией о спикерах
Готовы запустить GPU-задачу?
Запустить GPU-сервер