vLLM Omni

Мультимодальный инференс LLM — текст, изображения и другие модальности через единый API.

LLM-инференс Linux от 48 ГБ VRAM

Для кого

Разработчики мультимодальных AI-приложений — обработка текста и изображений через единый API-эндпоинт.

Что внутри

  • vLLM Omni — расширенная версия vLLM с поддержкой мультимодальных моделей
  • OpenAI-совместимый API с поддержкой vision-моделей
  • Автоматический tensor parallelism через Ray
  • Web UI для интерактивного тестирования

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Укажите модель через переменную VLLM_MODEL (по умолчанию — Qwen/Qwen-Image)
  3. API доступен на порту 8000, UI — на порту 7860

Рекомендации по GPU

  • 80 ГБ VRAM (A100 80GB) — мультимодальные модели среднего размера
  • 80+ ГБ VRAM (H100 / H200) — крупные vision-language модели, multi-GPU

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 vLLM Omni 0.18 Ray Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить vLLM Omni?

Запустить GPU-сервер