Infrastructure

health check

Периодический запрос к сервису для проверки его доступности и готовности обрабатывать запросы.

Что такое health check

Health check — периодический запрос к сервису, позволяющий балансировщику, оркестратору или мониторинговой системе определить, готов ли сервис обрабатывать трафик. Нездоровые сервисы исключаются из ротации.

Различают два типа:

  • Liveness check — жив ли сервис (не завис, нет ли deadlock)
  • Readiness check — готов ли принимать трафик (модель загружена)

Health check в vLLM и TGI

vLLM предоставляет эндпоинт /health:

# Проверить готовность vLLM
curl http://localhost:8000/health
# → 200 OK (модель загружена и готова)
# → 503 Service Unavailable (загрузка ещё идёт)

TGI предоставляет /health и /info:

curl http://localhost:8080/health   # → 200 OK
curl http://localhost:8080/info     # → {"model_id": "...", ...}

Docker healthcheck

HEALTHCHECK --interval=30s --timeout=10s --retries=3 --start-period=120s \
  CMD curl -f http://localhost:8000/health || exit 1

Kubernetes readiness probe

readinessProbe:
  httpGet:
    path: /health
    port: 8000
  initialDelaySeconds: 120  # дать время загрузить модель
  periodSeconds: 10
  failureThreshold: 3
livenessProbe:
  httpGet:
    path: /health
    port: 8000
  initialDelaySeconds: 300
  periodSeconds: 30

Связанные термины

  • load balancer — использует health check для исключения нездоровых реплик
  • autoscaling — ждёт readiness check перед добавлением реплики в ротацию
  • serving — контекст применения health check

Готовы запустить GPU-задачу?

Запустить GPU-сервер