vLLM Omni
Мультимодальный инференс LLM — текст, изображения и другие модальности через единый API.
LLM-инференс
Linux
от 48 ГБ VRAM
Для кого
Разработчики мультимодальных AI-приложений — обработка текста и изображений через единый API-эндпоинт.
Что внутри
- vLLM Omni — расширенная версия vLLM с поддержкой мультимодальных моделей
- OpenAI-совместимый API с поддержкой vision-моделей
- Автоматический tensor parallelism через Ray
- Web UI для интерактивного тестирования
Как начать
- Запустите инстанс с этим шаблоном
- Укажите модель через переменную
VLLM_MODEL(по умолчанию — Qwen/Qwen-Image) - API доступен на порту 8000, UI — на порту 7860
Рекомендации по GPU
- 80 ГБ VRAM (A100 80GB) — мультимодальные модели среднего размера
- 80+ ГБ VRAM (H100 / H200) — крупные vision-language модели, multi-GPU
Предустановленное ПО
Ubuntu 22.04
CUDA 12.9
vLLM Omni 0.18
Ray
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить vLLM Omni?
Запустить GPU-сервер