Speech
WER
Word Error Rate — доля неправильно распознанных слов, основная метрика качества ASR.
Что такое WER
WER (Word Error Rate, частота ошибок на уровне слов) — стандартная метрика оценки качества ASR-систем. Измеряет, какая доля слов в транскрипции содержит ошибки.
WER = (S + D + I) / N
S = substitutions (замены неправильным словом)
D = deletions (пропущенные слова)
I = insertions (лишние слова)
N = количество слов в эталонной транскрипции
WER = 0 означает идеальную транскрипцию. WER > 1 (100%) теоретически возможен при большом числе insertions.
Интерпретация WER
| WER | Уровень качества |
|---|---|
| < 5% | Отличное (студийное аудио, чистая речь) |
| 5–10% | Хорошее (запись в офисе, стандартная речь) |
| 10–20% | Приемлемое (телефония, незнакомый акцент) |
| > 20% | Плохое (шум, редкий язык, плохой микрофон) |
WER Whisper на русском языке
По открытым бенчмаркам (OpenASR Leaderboard):
- Студийное аудио: WER ≈ 4–8% (Whisper large-v3)
- Запись в офисе: WER ≈ 10–15%
- Телефония: WER ≈ 15–25%
Вычисление WER
from jiwer import wer
reference = "добро пожаловать на наш подкаст"
hypothesis = "добро пожаловать наш подкаст"
error = wer(reference, hypothesis)
print(f"WER: {error:.2%}") # WER: 20.00% (1 deletion из 5 слов)
Ограничения WER
- Не учитывает семантическую близость (ошибка в числительном vs предлоге)
- Чувствителен к нормализации текста (пунктуация, регистр)
- Нельзя сравнивать WER разных языков напрямую (разная сложность)
- Лучше дополнять CER (Character Error Rate) для агглютинативных языков
Связанные термины
- ASR — система, оцениваемая через WER
- Whisper — ASR-модель с измеримым WER
- транскрипция — hypothesis для вычисления WER
- alignment — техника выравнивания для точного WER
Готовы запустить GPU-задачу?
Запустить GPU-сервер