Inference

TPOT (Time Per Output Token)

Среднее время генерации одного токена после первого; определяет воспринимаемую скорость стриминга.

Что такое TPOT

TPOT (Time Per Output Token) — среднее время между появлением соседних токенов в стриминге после первого. Если TTFT = «сколько ждать до начала», то TPOT = «насколько быстро идёт поток».

TPOT = 1 / [tokens per second] при одном запросе. При 100 токенах/с TPOT = 10 мс/токен — текст появляется быстрее, чем человек читает. При 20 токенах/с (50 мс/токен) — заметная «задумчивость» в стриминге.

Что влияет на TPOT

TPOT определяется скоростью decode-фазы:

Пропускная способность GPU-памяти (HBM) — decode memory-bound, GPU читает веса модели на каждом токене
Размер модели — больше параметров → больше памяти читать
Batch size — при батчинге TPOT немного растёт, но суммарный TPS растёт линейно
Квантизация — INT4 vs BF16 ускоряет TPOT в ~1.5–2× за счёт меньшего объёма чтения

Типичные значения

GPU	Модель	Формат	TPOT	TPS
RTX 4090	7B	BF16	~10 мс	~100
RTX 4090	7B	INT4 AWQ	~5 мс	~200
A100 80GB	70B	BF16	~20 мс	~50
H100 80GB	70B	BF16	~8 мс	~120

TPOT vs TTFT

Для пользователя комфортный стриминг: TTFT < 500 мс, TPOT < 50 мс. При TPOT > 100 мс текст «едет» заметно медленно.

Связанные термины

TTFT — время до первого токена
tokens per second — обратная величина TPOT
decode — фаза, определяющая TPOT
HBM — пропускная способность памяти GPU, ключевая для TPOT

Готовы запустить GPU-задачу?

Запустить GPU-сервер