Inference

tokens per second

Основная метрика скорости инференса: количество генерируемых токенов за секунду.

Что такое tokens per second

Tokens per second (TPS, токенов/с) — главная метрика производительности inference-сервера. Различают два значения:

  • Одиночный TPS (single-stream) — скорость генерации при одном запросе. Равна 1/[TPOT]. Отражает субъективную скорость стриминга для одного пользователя.
  • Суммарный TPS (throughput) — суммарное число токенов, генерируемых сервером в секунду при параллельных запросах. Определяет стоимость обслуживания нагрузки.

В production-сценариях важен именно суммарный TPS — он определяет, сколько пользователей может обслуживать один GPU.

Ориентиры по GPU

GPU Модель Формат Одиночный TPS Суммарный TPS (bs=32)
RTX 4090 7B BF1680–120 400–600
RTX 4090 7B INT4 AWQ150–200 800–1000
A100 80GB 70B BF16 40–60 200–300
H100 80GB 70B BF16 100–150 600–900
H100 80GB 70B FP8180–250 1000–1500

1 токен ≈ 3–4 символа русского текста.

Связь с экономикой

Стоимость за 1M токенов = (Цена GPU-часа) / (TPS × 3600 / 1_000_000)

При TPS=500 и цене GPU 100₽/час: 100 / (500 × 3600 / 1_000_000) = 100 / 1.8 ≈ 56₽ за 1M токенов.

Связанные термины

  • TPOT — обратная величина одиночного TPS
  • batching — техника увеличения суммарного TPS
  • квантизация — ускоряет TPS в 1.5–2× для INT4
  • H100 и A100 — GPU с наивысшим суммарным TPS

Готовы запустить GPU-задачу?

Запустить GPU-сервер