vLLM Omni

Мультимодальный инференс LLM — текст, изображения и другие модальности через единый API.

LLM-инференс Linux от 48 ГБ VRAM

Для кого

Разработчики мультимодальных AI-приложений — обработка текста и изображений через единый API-эндпоинт.

Что внутри

vLLM Omni — расширенная версия vLLM с поддержкой мультимодальных моделей
OpenAI-совместимый API с поддержкой vision-моделей
Автоматический tensor parallelism через Ray
Web UI для интерактивного тестирования

Как начать

Запустите инстанс с этим шаблоном
Укажите модель через переменную VLLM_MODEL (по умолчанию — Qwen/Qwen-Image)
API доступен на порту 8000, UI — на порту 7860

Рекомендации по GPU

80 ГБ VRAM (A100 80GB) — мультимодальные модели среднего размера
80+ ГБ VRAM (H100 / H200) — крупные vision-language модели, multi-GPU

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 vLLM Omni 0.18 Ray Python 3.11

Рекомендуемые GPU

A100 80GB H100 H200

Подробное руководство: читать в разделе «Решения» →

Готовы запустить vLLM Omni?

Запустить GPU-сервер