HuggingFace TGI
Production-ready инференс от HuggingFace — оптимизирован для высокой пропускной способности.
LLM-инференс
Linux
от 16 ГБ VRAM
Для кого
Разработчики, которым нужен production-инференс от HuggingFace с TLS, аутентификацией и оптимизацией под высокие нагрузки.
Что внутри
- Text Generation Inference (TGI) — инференс-сервер от HuggingFace
- Continuous batching и flash attention
- Встроенный TLS через Caddy
- Поддержка HuggingFace Token для гейтированных моделей
Как начать
- Запустите инстанс с этим шаблоном
- Укажите модель через
MODEL_ARGS(по умолчанию — Llama-3-8B-Instruct) - Укажите
HF_TOKENдля доступа к гейтированным моделям - API доступен на порту 5001
Рекомендации по GPU
- 24 ГБ VRAM — модели до 13B
- 40 ГБ VRAM (A100 40GB) — 13B–34B модели
- 80 ГБ VRAM (A100 80GB / H100) — 70B+ модели
Предустановленное ПО
Ubuntu 22.04
CUDA 12.x
Text Generation Inference 2.0
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить HuggingFace TGI?
Запустить GPU-сервер