Infrastructure
throughput
Пропускная способность сервиса: число запросов или токенов, обрабатываемых за единицу времени.
Что такое throughput
Throughput (пропускная способность) — суммарный объём работы, выполняемой сервисом за единицу времени. Для LLM-сервисов:
- Token throughput — токенов/с суммарно по всем параллельным запросам
- Request throughput — запросов/с (зависит от длины ответов)
Throughput — главная метрика для batch-задач и оценки TCO (стоимость на 1M токенов).
Throughput vs latency
Throughput и latency — обратный компромисс:
| Сценарий | Батч | Суммарный TPS | TTFT |
|---|---|---|---|
| 1 запрос | 1 | 80 | 200 мс |
| 8 запросов одновременно | 8 | 400–500 | 400 мс |
| 32 запроса | 32 | 800–1000 | 1–2 с |
Для чат-сервисов важен баланс: пользователь ждёт не более 500 мс TTFT.
Для batch-обработки максимизируем throughput: TTFT не важен.
Инструменты бенчмарка
# vLLM бенчмарк
python benchmarks/benchmark_throughput.py \
--backend vllm \
--model meta-llama/Llama-3.1-8B-Instruct \
--num-prompts 1000 \
--input-len 512 \
--output-len 128
# locust для нагрузочного тестирования API
pip install locust
locust -f benchmark.py --headless -u 50 -r 5 --host http://localhost:8000
TCO через throughput
Стоимость инференса (₽/1M токенов) = (GPU ₽/час) / (Throughput TPS × 3600 / 1_000_000)
При 500 TPS и 100 ₽/час: 100 / (500 × 3.6) ≈ 56 ₽/1M токенов.
Связанные термины
- tokens per second — основная метрика throughput
- latency — обратный компромисс
- batching — ключевая техника увеличения throughput
- continuous batching — максимизирует throughput
Готовы запустить GPU-задачу?
Запустить GPU-сервер