Speech

ASR

Automatic Speech Recognition — автоматическое распознавание речи, преобразование аудио в текст.

Что такое ASR

ASR (Automatic Speech Recognition, автоматическое распознавание речи) — задача преобразования речевого аудиосигнала в текст. Современные ASR-системы используют deep learning и достигают качества, сравнимого с человеческим, на ряде условий записи.

Современные ASR-модели

Whisper (OpenAI): мультиязычная open-source модель. Обучена на 680k часов аудио, поддерживает 99 языков. Подходит для большинства задач.

Conformer/Wav2Vec 2.0 (Meta, Google): специализированные ASR-архитектуры с превосходным WER на определённых доменах при условии fine-tuning.

AssemblyAI, Deepgram, Google STT: облачные API — простая интеграция, высокая скорость, платная подписка.

Задачи и варианты применения

  • Batch transcription: транскрибировать архив записей (звонки, подкасты, лекции)
  • Real-time (streaming) ASR: субтитры в реальном времени, голосовые ассистенты
  • Meeting diarization: кто что сказал — ASR + диаризация
  • Audio search: сделать аудио/видео контент поисковым

Архитектура ASR pipeline

Audio File
    ↓
Preprocessing (resample to 16 kHz mono)
    ↓
VAD (Voice Activity Detection)   ← [опционально]
    ↓
Feature Extraction (Log-Mel Spectrogram)
    ↓
Encoder (Conformer / Whisper encoder)
    ↓
Decoder (CTC / attention-based)
    ↓
Language Model Rescoring         ← [опционально]
    ↓
Text Output

Метрики качества ASR

  • WER (Word Error Rate): основная метрика — доля слов с ошибками
  • CER (Character Error Rate): на уровне символов, для языков без пробелов (китайский)
  • RTF (Real-Time Factor): время обработки / длина аудио (< 1 = быстрее реального времени)

GPU для ASR

Whisper large-v3 с faster-whisper на RTX 4090 обрабатывает аудио в 60–90× быстрее реального времени. 1 часовой файл транскрибируется за 40–60 секунд.

Связанные термины

Готовы запустить GPU-задачу?

Запустить GPU-сервер