Inference
tokens per second
Основная метрика скорости инференса: количество генерируемых токенов за секунду.
Что такое tokens per second
Tokens per second (TPS, токенов/с) — главная метрика производительности inference-сервера. Различают два значения:
- Одиночный TPS (single-stream) — скорость генерации при одном запросе. Равна 1/[TPOT]. Отражает субъективную скорость стриминга для одного пользователя.
- Суммарный TPS (throughput) — суммарное число токенов, генерируемых сервером в секунду при параллельных запросах. Определяет стоимость обслуживания нагрузки.
В production-сценариях важен именно суммарный TPS — он определяет, сколько пользователей может обслуживать один GPU.
Ориентиры по GPU
| GPU | Модель | Формат | Одиночный TPS | Суммарный TPS (bs=32) |
|---|---|---|---|---|
| RTX 4090 | 7B | BF16 | 80–120 | 400–600 |
| RTX 4090 | 7B | INT4 AWQ | 150–200 | 800–1000 |
| A100 80GB | 70B | BF16 | 40–60 | 200–300 |
| H100 80GB | 70B | BF16 | 100–150 | 600–900 |
| H100 80GB | 70B | FP8 | 180–250 | 1000–1500 |
1 токен ≈ 3–4 символа русского текста.
Связь с экономикой
Стоимость за 1M токенов = (Цена GPU-часа) / (TPS × 3600 / 1_000_000)
При TPS=500 и цене GPU 100₽/час: 100 / (500 × 3600 / 1_000_000) = 100 / 1.8 ≈ 56₽ за 1M токенов.
Связанные термины
- TPOT — обратная величина одиночного TPS
- batching — техника увеличения суммарного TPS
- квантизация — ускоряет TPS в 1.5–2× для INT4
- H100 и A100 — GPU с наивысшим суммарным TPS
Готовы запустить GPU-задачу?
Запустить GPU-сервер