Inference

tokens per second

Основная метрика скорости инференса: количество генерируемых токенов за секунду.

Что такое tokens per second

Tokens per second (TPS, токенов/с) — главная метрика производительности inference-сервера. Различают два значения:

  • Одиночный TPS (single-stream) — скорость генерации при одном запросе. Равна 1/[TPOT]. Отражает субъективную скорость стриминга для одного пользователя.
  • Суммарный TPS (throughput) — суммарное число токенов, генерируемых сервером в секунду при параллельных запросах. Определяет стоимость обслуживания нагрузки.

В production-сценариях важен именно суммарный TPS — он определяет, сколько пользователей может обслуживать один GPU.

Ориентиры по GPU

GPU Модель Формат Одиночный TPS Суммарный TPS (bs=32)
RTX 4090 7B BF16 80–120 400–600
RTX 4090 7B INT4 AWQ 150–200 800–1000
A100 80GB 70B BF16 40–60 200–300
H100 80GB 70B BF16 100–150 600–900
H100 80GB 70B FP8 180–250 1000–1500

1 токен ≈ 3–4 символа русского текста.

Связь с экономикой

Стоимость за 1M токенов = (Цена GPU-часа) / (TPS × 3600 / 1_000_000)

При TPS=500 и цене GPU 100₽/час: 100 / (500 × 3600 / 1_000_000) = 100 / 1.8 ≈ 56₽ за 1M токенов.

Связанные термины

  • TPOT — обратная величина одиночного TPS
  • batching — техника увеличения суммарного TPS
  • квантизация — ускоряет TPS в 1.5–2× для INT4
  • H100 и A100 — GPU с наивысшим суммарным TPS

Готовы запустить GPU-задачу?

Запустить GPU-сервер