Speech

WER

Word Error Rate — доля неправильно распознанных слов, основная метрика качества ASR.

Что такое WER

WER (Word Error Rate, частота ошибок на уровне слов) — стандартная метрика оценки качества ASR-систем. Измеряет, какая доля слов в транскрипции содержит ошибки.

WER = (S + D + I) / N

S = substitutions (замены неправильным словом)
D = deletions (пропущенные слова)
I = insertions (лишние слова)
N = количество слов в эталонной транскрипции

WER = 0 означает идеальную транскрипцию. WER > 1 (100%) теоретически возможен при большом числе insertions.

Интерпретация WER

WER Уровень качества
< 5% Отличное (студийное аудио, чистая речь)
5–10% Хорошее (запись в офисе, стандартная речь)
10–20% Приемлемое (телефония, незнакомый акцент)
> 20% Плохое (шум, редкий язык, плохой микрофон)

WER Whisper на русском языке

По открытым бенчмаркам (OpenASR Leaderboard):

  • Студийное аудио: WER ≈ 4–8% (Whisper large-v3)
  • Запись в офисе: WER ≈ 10–15%
  • Телефония: WER ≈ 15–25%

Вычисление WER

from jiwer import wer

reference = "добро пожаловать на наш подкаст"
hypothesis = "добро пожаловать наш подкаст"

error = wer(reference, hypothesis)
print(f"WER: {error:.2%}")  # WER: 20.00% (1 deletion из 5 слов)

Ограничения WER

  • Не учитывает семантическую близость (ошибка в числительном vs предлоге)
  • Чувствителен к нормализации текста (пунктуация, регистр)
  • Нельзя сравнивать WER разных языков напрямую (разная сложность)
  • Лучше дополнять CER (Character Error Rate) для агглютинативных языков

Связанные термины

  • ASR — система, оцениваемая через WER
  • Whisper — ASR-модель с измеримым WER
  • транскрипция — hypothesis для вычисления WER
  • alignment — техника выравнивания для точного WER

Готовы запустить GPU-задачу?

Запустить GPU-сервер