SGLang

Быстрый инференс LLM с FlashInfer — оптимизирован для structured generation и multi-turn.

LLM-инференс Linux от 24 ГБ VRAM

Для кого

Разработчики, которым нужен быстрый инференс с поддержкой structured output, JSON mode и сложных multi-turn взаимодействий.

Что внутри

SGLang — инференс-сервер с RadixAttention и FlashInfer
OpenAI-совместимый API
Автоматический tensor parallelism для multi-GPU
Web UI для тестирования

Как начать

Запустите инстанс с этим шаблоном
Укажите модель через переменную SGLANG_MODEL (по умолчанию — Qwen3-8B)
API доступен на порту 8000

Рекомендации по GPU

24+ ГБ VRAM (RTX 4090) — модели до 13B
80 ГБ VRAM (A100 80GB / H100) — модели 70B+, multi-GPU

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 SGLang 0.5 FlashInfer Python 3.11

Рекомендуемые GPU

A100 80GB H100 RTX 4090

Подробное руководство: читать в разделе «Решения» →

Готовы запустить SGLang?

Запустить GPU-сервер