vLLM
Высокопроизводительный сервер инференса LLM с OpenAI-совместимым API.
LLM-инференс
Linux
от 16 ГБ VRAM
Для кого
Разработчики, которым нужен быстрый API-сервер для языковых моделей: чат-боты, RAG-системы, агенты.
Что внутри
- vLLM — инференс-движок с PagedAttention для эффективного использования VRAM
- OpenAI-совместимый API-эндпоинт (
/v1/completions,/v1/chat/completions) - Поддержка квантизированных моделей (AWQ, GPTQ)
Как начать
- Запустите инстанс с этим шаблоном
- Укажите модель через переменную окружения
MODEL_NAME(или скачайте вручную) - API доступен на порту 8000
Рекомендации по GPU
- 24 ГБ VRAM (RTX 4090) — модели до 13B параметров (квантизованные)
- 40 ГБ VRAM (A100 40GB) — 13B–34B модели
- 80 ГБ VRAM (A100 80GB) — 70B+ модели
Предустановленное ПО
Ubuntu 22.04
CUDA 12.x
vLLM
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить vLLM?
Запустить GPU-сервер