Мультимодальные Apache-2.0

Qwen2-VL 7B

7B параметров · Transformer · Контекст 33k · Alibaba · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
FP8 7 ГБ Отличное Оптимально
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen2-VL-7B-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2024
Параметры
7B
Архитектура
Transformer
Контекстное окно
32,768 токенов
Лицензия
Apache-2.0

Применение

Visual question answering Image captioning Document understanding Video understanding

Qwen2-VL 7B — компактная VLM от Alibaba с редким для класса сочетанием картинка + видео, гибкой работой с произвольными разрешениями и сильным базовым reasoning по визуальному вводу. В сегменте до ~10B это часто «первая модель, которую ставят в прод» для поддержки пользователей, разбора скриншотов и чернового video-QA без гигантского кластера. Лицензия Apache-2.0.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; хороший старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Поднимите vLLM (multimodal)

docker run --gpus all --shm-size=8g -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2-VL-7B-Instruct \
  --trust-remote-code \
  --max-model-len 8192 \
  --limit-mm-per-prompt image=1

Для видео используйте поддерживаемый в вашей версии vLLM путь (часто это предобработка в кадры/клипы на стороне клиента).

Шаг 3 — Отправьте запрос

Через OpenAI-compatible API добавьте image_url и текст; для видео сначала извлеките ключевые кадры или короткий клип, если сервер не принимает raw video напрямую.

Оптимизация

  • Не отправляйте огромные ролики целиком: сэмплируйте кадры с фиксированным шагом и явным таймкодом в тексте вопроса.
  • Уменьшайте max-model-len, если основная нагрузка — короткие вопросы к одному скрину.