SGLang
Быстрый инференс LLM с FlashInfer — оптимизирован для structured generation и multi-turn.
LLM-инференс
Linux
от 24 ГБ VRAM
Для кого
Разработчики, которым нужен быстрый инференс с поддержкой structured output, JSON mode и сложных multi-turn взаимодействий.
Что внутри
- SGLang — инференс-сервер с RadixAttention и FlashInfer
- OpenAI-совместимый API
- Автоматический tensor parallelism для multi-GPU
- Web UI для тестирования
Как начать
- Запустите инстанс с этим шаблоном
- Укажите модель через переменную
SGLANG_MODEL(по умолчанию — Qwen3-8B) - API доступен на порту 8000
Рекомендации по GPU
- 24+ ГБ VRAM (RTX 4090) — модели до 13B
- 80 ГБ VRAM (A100 80GB / H100) — модели 70B+, multi-GPU
Предустановленное ПО
Ubuntu 22.04
CUDA 12.9
SGLang 0.5
FlashInfer
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить SGLang?
Запустить GPU-сервер