Inference
TPOT (Time Per Output Token)
Среднее время генерации одного токена после первого; определяет воспринимаемую скорость стриминга.
Что такое TPOT
TPOT (Time Per Output Token) — среднее время между появлением соседних токенов в стриминге после первого. Если TTFT = «сколько ждать до начала», то TPOT = «насколько быстро идёт поток».
TPOT = 1 / [tokens per second] при одном запросе. При 100 токенах/с TPOT = 10 мс/токен — текст появляется быстрее, чем человек читает. При 20 токенах/с (50 мс/токен) — заметная «задумчивость» в стриминге.
Что влияет на TPOT
TPOT определяется скоростью decode-фазы:
- Пропускная способность GPU-памяти (HBM) — decode memory-bound, GPU читает веса модели на каждом токене
- Размер модели — больше параметров → больше памяти читать
- Batch size — при батчинге TPOT немного растёт, но суммарный TPS растёт линейно
- Квантизация — INT4 vs BF16 ускоряет TPOT в ~1.5–2× за счёт меньшего объёма чтения
Типичные значения
| GPU | Модель | Формат | TPOT | TPS |
|---|---|---|---|---|
| RTX 4090 | 7B | BF16 | ~10 мс | ~100 |
| RTX 4090 | 7B | INT4 AWQ | ~5 мс | ~200 |
| A100 80GB | 70B | BF16 | ~20 мс | ~50 |
| H100 80GB | 70B | BF16 | ~8 мс | ~120 |
TPOT vs TTFT
Для пользователя комфортный стриминг: TTFT < 500 мс, TPOT < 50 мс. При TPOT > 100 мс текст «едет» заметно медленно.
Связанные термины
- TTFT — время до первого токена
- tokens per second — обратная величина TPOT
- decode — фаза, определяющая TPOT
- HBM — пропускная способность памяти GPU, ключевая для TPOT
Готовы запустить GPU-задачу?
Запустить GPU-сервер