Speech

WER

Word Error Rate — доля неправильно распознанных слов, основная метрика качества ASR.

Что такое WER

WER (Word Error Rate, частота ошибок на уровне слов) — стандартная метрика оценки качества ASR-систем. Измеряет, какая доля слов в транскрипции содержит ошибки.

WER = (S + D + I) / N

S = substitutions (замены неправильным словом)
D = deletions (пропущенные слова)
I = insertions (лишние слова)
N = количество слов в эталонной транскрипции

WER = 0 означает идеальную транскрипцию. WER > 1 (100%) теоретически возможен при большом числе insertions.

Интерпретация WER

WER	Уровень качества
< 5%	Отличное (студийное аудио, чистая речь)
5–10%	Хорошее (запись в офисе, стандартная речь)
10–20%	Приемлемое (телефония, незнакомый акцент)
> 20%	Плохое (шум, редкий язык, плохой микрофон)

WER Whisper на русском языке

По открытым бенчмаркам (OpenASR Leaderboard):

Студийное аудио: WER ≈ 4–8% (Whisper large-v3)
Запись в офисе: WER ≈ 10–15%
Телефония: WER ≈ 15–25%

Вычисление WER

from jiwer import wer

reference = "добро пожаловать на наш подкаст"
hypothesis = "добро пожаловать наш подкаст"

error = wer(reference, hypothesis)
print(f"WER: {error:.2%}")  # WER: 20.00% (1 deletion из 5 слов)

Ограничения WER

Не учитывает семантическую близость (ошибка в числительном vs предлоге)
Чувствителен к нормализации текста (пунктуация, регистр)
Нельзя сравнивать WER разных языков напрямую (разная сложность)
Лучше дополнять CER (Character Error Rate) для агглютинативных языков

Связанные термины

ASR — система, оцениваемая через WER
Whisper — ASR-модель с измеримым WER
транскрипция — hypothesis для вычисления WER
alignment — техника выравнивания для точного WER

Готовы запустить GPU-задачу?

Запустить GPU-сервер