VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
FP8	7 ГБ	Отличное	Оптимально
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2024
Параметры: 7B
Архитектура: Transformer
Контекстное окно: 32,768 токенов
Лицензия: Apache-2.0

Применение

Visual question answering Image captioning Document understanding Video understanding

Qwen2-VL 7B — компактная VLM от Alibaba с редким для класса сочетанием картинка + видео, гибкой работой с произвольными разрешениями и сильным базовым reasoning по визуальному вводу. В сегменте до ~10B это часто «первая модель, которую ставят в прод» для поддержки пользователей, разбора скриншотов и чернового video-QA без гигантского кластера. Лицензия Apache-2.0.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; хороший старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Поднимите vLLM (multimodal)

docker run --gpus all --shm-size=8g -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2-VL-7B-Instruct \
  --trust-remote-code \
  --max-model-len 8192 \
  --limit-mm-per-prompt image=1

Для видео используйте поддерживаемый в вашей версии vLLM путь (часто это предобработка в кадры/клипы на стороне клиента).

Шаг 3 — Отправьте запрос

Через OpenAI-compatible API добавьте image_url и текст; для видео сначала извлеките ключевые кадры или короткий клип, если сервер не принимает raw video напрямую.

Оптимизация

Не отправляйте огромные ролики целиком: сэмплируйте кадры с фиксированным шагом и явным таймкодом в тексте вопроса.
Уменьшайте max-model-len, если основная нагрузка — короткие вопросы к одному скрину.

Qwen2-VL 7B