Infrastructure

throughput

Пропускная способность сервиса: число запросов или токенов, обрабатываемых за единицу времени.

Что такое throughput

Throughput (пропускная способность) — суммарный объём работы, выполняемой сервисом за единицу времени. Для LLM-сервисов:

  • Token throughput — токенов/с суммарно по всем параллельным запросам
  • Request throughput — запросов/с (зависит от длины ответов)

Throughput — главная метрика для batch-задач и оценки TCO (стоимость на 1M токенов).

Throughput vs latency

Throughput и latency — обратный компромисс:

Сценарий Батч Суммарный TPS TTFT
1 запрос 1 80 200 мс
8 запросов одновременно 8 400–500 400 мс
32 запроса 32 800–1000 1–2 с

Для чат-сервисов важен баланс: пользователь ждёт не более 500 мс TTFT.
Для batch-обработки максимизируем throughput: TTFT не важен.

Инструменты бенчмарка

# vLLM бенчмарк
python benchmarks/benchmark_throughput.py \
  --backend vllm \
  --model meta-llama/Llama-3.1-8B-Instruct \
  --num-prompts 1000 \
  --input-len 512 \
  --output-len 128

# locust для нагрузочного тестирования API
pip install locust
locust -f benchmark.py --headless -u 50 -r 5 --host http://localhost:8000

TCO через throughput

Стоимость инференса (₽/1M токенов) = (GPU ₽/час) / (Throughput TPS × 3600 / 1_000_000)

При 500 TPS и 100 ₽/час: 100 / (500 × 3.6) ≈ 56 ₽/1M токенов.

Связанные термины

  • tokens per second — основная метрика throughput
  • latency — обратный компромисс
  • batching — ключевая техника увеличения throughput
  • continuous batching — максимизирует throughput

Готовы запустить GPU-задачу?

Запустить GPU-сервер