vLLM

Высокопроизводительный сервер инференса LLM с OpenAI-совместимым API.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики, которым нужен быстрый API-сервер для языковых моделей: чат-боты, RAG-системы, агенты.

Что внутри

  • vLLM — инференс-движок с PagedAttention для эффективного использования VRAM
  • OpenAI-совместимый API-эндпоинт (/v1/completions, /v1/chat/completions)
  • Поддержка квантизированных моделей (AWQ, GPTQ)

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Укажите модель через переменную окружения MODEL_NAME (или скачайте вручную)
  3. API доступен на порту 8000

Рекомендации по GPU

  • 24 ГБ VRAM (RTX 4090) — модели до 13B параметров (квантизованные)
  • 40 ГБ VRAM (A100 40GB) — 13B–34B модели
  • 80 ГБ VRAM (A100 80GB) — 70B+ модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x vLLM Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить vLLM?

Запустить GPU-сервер