Inference

tokens per second

Основная метрика скорости инференса: количество генерируемых токенов за секунду.

Что такое tokens per second

Tokens per second (TPS, токенов/с) — главная метрика производительности inference-сервера. Различают два значения:

Одиночный TPS (single-stream) — скорость генерации при одном запросе. Равна 1/[TPOT]. Отражает субъективную скорость стриминга для одного пользователя.
Суммарный TPS (throughput) — суммарное число токенов, генерируемых сервером в секунду при параллельных запросах. Определяет стоимость обслуживания нагрузки.

В production-сценариях важен именно суммарный TPS — он определяет, сколько пользователей может обслуживать один GPU.

GPU	Модель	Формат	Одиночный TPS	Суммарный TPS (bs=32)
RTX 4090	7B	BF16	80–120	400–600
RTX 4090	7B	INT4 AWQ	150–200	800–1000
A100 80GB	70B	BF16	40–60	200–300
H100 80GB	70B	BF16	100–150	600–900
H100 80GB	70B	FP8	180–250	1000–1500

1 токен ≈ 3–4 символа русского текста.

Стоимость за 1M токенов = (Цена GPU-часа) / (TPS × 3600 / 1_000_000)

При TPS=500 и цене GPU 100₽/час: 100 / (500 × 3600 / 1_000_000) = 100 / 1.8 ≈ 56₽ за 1M токенов.

Готовы запустить GPU-задачу?