vLLM

Высокопроизводительный сервер инференса LLM с OpenAI-совместимым API.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики, которым нужен быстрый API-сервер для языковых моделей: чат-боты, RAG-системы, агенты.

Что внутри

vLLM — инференс-движок с PagedAttention для эффективного использования VRAM
OpenAI-совместимый API-эндпоинт (/v1/completions, /v1/chat/completions)
Поддержка квантизированных моделей (AWQ, GPTQ)

Как начать

Запустите инстанс с этим шаблоном
Укажите модель через переменную окружения MODEL_NAME (или скачайте вручную)
API доступен на порту 8000

Рекомендации по GPU

24 ГБ VRAM (RTX 4090) — модели до 13B параметров (квантизованные)
40 ГБ VRAM (A100 40GB) — 13B–34B модели
80 ГБ VRAM (A100 80GB) — 70B+ модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x vLLM Python 3.11

Рекомендуемые GPU

A100 80GB A100 40GB RTX 4090

Подробное руководство: читать в разделе «Решения» →

Готовы запустить vLLM?

Запустить GPU-сервер