Inference

TPOT (Time Per Output Token)

Среднее время генерации одного токена после первого; определяет воспринимаемую скорость стриминга.

Что такое TPOT

TPOT (Time Per Output Token) — среднее время между появлением соседних токенов в стриминге после первого. Если TTFT = «сколько ждать до начала», то TPOT = «насколько быстро идёт поток».

TPOT = 1 / [tokens per second] при одном запросе. При 100 токенах/с TPOT = 10 мс/токен — текст появляется быстрее, чем человек читает. При 20 токенах/с (50 мс/токен) — заметная «задумчивость» в стриминге.

Что влияет на TPOT

TPOT определяется скоростью decode-фазы:

  • Пропускная способность GPU-памяти (HBM) — decode memory-bound, GPU читает веса модели на каждом токене
  • Размер модели — больше параметров → больше памяти читать
  • Batch size — при батчинге TPOT немного растёт, но суммарный TPS растёт линейно
  • Квантизация — INT4 vs BF16 ускоряет TPOT в ~1.5–2× за счёт меньшего объёма чтения

Типичные значения

GPU Модель Формат TPOT TPS
RTX 4090 7B BF16 ~10 мс ~100
RTX 4090 7B INT4 AWQ ~5 мс ~200
A100 80GB 70B BF16 ~20 мс ~50
H100 80GB 70B BF16 ~8 мс ~120

TPOT vs TTFT

Для пользователя комфортный стриминг: TTFT < 500 мс, TPOT < 50 мс. При TPOT > 100 мс текст «едет» заметно медленно.

Связанные термины

  • TTFT — время до первого токена
  • tokens per second — обратная величина TPOT
  • decode — фаза, определяющая TPOT
  • HBM — пропускная способность памяти GPU, ключевая для TPOT

Готовы запустить GPU-задачу?

Запустить GPU-сервер