HuggingFace TGI

Production-ready инференс от HuggingFace — оптимизирован для высокой пропускной способности.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики, которым нужен production-инференс от HuggingFace с TLS, аутентификацией и оптимизацией под высокие нагрузки.

Что внутри

  • Text Generation Inference (TGI) — инференс-сервер от HuggingFace
  • Continuous batching и flash attention
  • Встроенный TLS через Caddy
  • Поддержка HuggingFace Token для гейтированных моделей

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Укажите модель через MODEL_ARGS (по умолчанию — Llama-3-8B-Instruct)
  3. Укажите HF_TOKEN для доступа к гейтированным моделям
  4. API доступен на порту 5001

Рекомендации по GPU

  • 24 ГБ VRAM — модели до 13B
  • 40 ГБ VRAM (A100 40GB) — 13B–34B модели
  • 80 ГБ VRAM (A100 80GB / H100) — 70B+ модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x Text Generation Inference 2.0 Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить HuggingFace TGI?

Запустить GPU-сервер