Inference

serving

Эксплуатация модели как сетевого сервиса, принимающего внешние запросы через API.

Что такое model serving

Model serving — перевод обученной ML-модели из «скрипта для исследований» в надёжный сетевой сервис, принимающий запросы в реальном времени. Включает HTTP/gRPC API, управление моделью в памяти, батчинг, масштабирование и мониторинг.

Serving существенно сложнее простого model.generate() в Jupyter: нужно обрабатывать параллельные запросы, контролировать потребление памяти, обеспечивать отказоустойчивость и соответствие SLA.

Компоненты production serving

  • Inference server — vLLM, TGI, Triton, TorchServe: управляет моделью и HTTP
  • Balancer — nginx/HAProxy/Envoy для распределения трафика между репликами
  • Autoscaling — поднятие/снятие реплик по метрикам (GPU utilization, queue depth)
  • Monitoring — latency p50/p95/p99, tokens per second, error rate, GPU memory
  • Health checks — периодические GET /health для удаления нездоровых реплик

Ключевые метрики SLA

Метрика Что измеряет Типичные цели
TTFT До первого токена <500 мс (чат), <2с (batch)
TPOT Скорость генерации <50 мс/токен
Throughput Токенов/с суммарно Максимум под нагрузку
Availability % uptime >99.9%

Быстрый старт с vLLM

# Минимальный production-деплой
docker run -d --gpus all \
  -p 8000:8000 \
  --restart unless-stopped \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.1-8B-Instruct \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90

Связанные термины

Готовы запустить GPU-задачу?

Запустить GPU-сервер