SGLang

Быстрый инференс LLM с FlashInfer — оптимизирован для structured generation и multi-turn.

LLM-инференс Linux от 24 ГБ VRAM

Для кого

Разработчики, которым нужен быстрый инференс с поддержкой structured output, JSON mode и сложных multi-turn взаимодействий.

Что внутри

  • SGLang — инференс-сервер с RadixAttention и FlashInfer
  • OpenAI-совместимый API
  • Автоматический tensor parallelism для multi-GPU
  • Web UI для тестирования

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Укажите модель через переменную SGLANG_MODEL (по умолчанию — Qwen3-8B)
  3. API доступен на порту 8000

Рекомендации по GPU

  • 24+ ГБ VRAM (RTX 4090) — модели до 13B
  • 80 ГБ VRAM (A100 80GB / H100) — модели 70B+, multi-GPU

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 SGLang 0.5 FlashInfer Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить SGLang?

Запустить GPU-сервер