HuggingFace TGI

Production-ready инференс от HuggingFace — оптимизирован для высокой пропускной способности.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики, которым нужен production-инференс от HuggingFace с TLS, аутентификацией и оптимизацией под высокие нагрузки.

Что внутри

Text Generation Inference (TGI) — инференс-сервер от HuggingFace
Continuous batching и flash attention
Встроенный TLS через Caddy
Поддержка HuggingFace Token для гейтированных моделей

Как начать

Запустите инстанс с этим шаблоном
Укажите модель через MODEL_ARGS (по умолчанию — Llama-3-8B-Instruct)
Укажите HF_TOKEN для доступа к гейтированным моделям
API доступен на порту 5001

Рекомендации по GPU

24 ГБ VRAM — модели до 13B
40 ГБ VRAM (A100 40GB) — 13B–34B модели
80 ГБ VRAM (A100 80GB / H100) — 70B+ модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x Text Generation Inference 2.0 Python 3.11

Рекомендуемые GPU

A100 80GB A100 40GB H100

Подробное руководство: читать в разделе «Решения» →

Готовы запустить HuggingFace TGI?

Запустить GPU-сервер