Infrastructure
health check
Периодический запрос к сервису для проверки его доступности и готовности обрабатывать запросы.
Что такое health check
Health check — периодический запрос к сервису, позволяющий балансировщику, оркестратору или мониторинговой системе определить, готов ли сервис обрабатывать трафик. Нездоровые сервисы исключаются из ротации.
Различают два типа:
- Liveness check — жив ли сервис (не завис, нет ли deadlock)
- Readiness check — готов ли принимать трафик (модель загружена)
Health check в vLLM и TGI
vLLM предоставляет эндпоинт /health:
# Проверить готовность vLLM
curl http://localhost:8000/health
# → 200 OK (модель загружена и готова)
# → 503 Service Unavailable (загрузка ещё идёт)
TGI предоставляет /health и /info:
curl http://localhost:8080/health # → 200 OK
curl http://localhost:8080/info # → {"model_id": "...", ...}
Docker healthcheck
HEALTHCHECK --interval=30s --timeout=10s --retries=3 --start-period=120s \
CMD curl -f http://localhost:8000/health || exit 1
Kubernetes readiness probe
readinessProbe:
httpGet:
path: /health
port: 8000
initialDelaySeconds: 120 # дать время загрузить модель
periodSeconds: 10
failureThreshold: 3
livenessProbe:
httpGet:
path: /health
port: 8000
initialDelaySeconds: 300
periodSeconds: 30
Связанные термины
- load balancer — использует health check для исключения нездоровых реплик
- autoscaling — ждёт readiness check перед добавлением реплики в ротацию
- serving — контекст применения health check
Готовы запустить GPU-задачу?
Запустить GPU-сервер