Qwen2-VL 7B
7B параметров · Transformer · Контекст 33k · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 14 ГБ | Максимальное | Для продакшена |
| FP8 | 7 ГБ | Отличное | Оптимально |
| INT8 | 7 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen2-VL-7B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 7B
- Архитектура
- Transformer
- Контекстное окно
- 32,768 токенов
- Лицензия
- Apache-2.0
Применение
Qwen2-VL 7B — компактная VLM от Alibaba с редким для класса сочетанием картинка + видео, гибкой работой с произвольными разрешениями и сильным базовым reasoning по визуальному вводу. В сегменте до ~10B это часто «первая модель, которую ставят в прод» для поддержки пользователей, разбора скриншотов и чернового video-QA без гигантского кластера. Лицензия Apache-2.0.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — от ~14 ГБ VRAM в fp16; хороший старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Поднимите vLLM (multimodal)
docker run --gpus all --shm-size=8g -p 8000:8000 \
vllm/vllm-openai:latest \
--model Qwen/Qwen2-VL-7B-Instruct \
--trust-remote-code \
--max-model-len 8192 \
--limit-mm-per-prompt image=1
Для видео используйте поддерживаемый в вашей версии vLLM путь (часто это предобработка в кадры/клипы на стороне клиента).
Шаг 3 — Отправьте запрос
Через OpenAI-compatible API добавьте image_url и текст; для видео сначала извлеките ключевые кадры или короткий клип, если сервер не принимает raw video напрямую.
Оптимизация
- Не отправляйте огромные ролики целиком: сэмплируйте кадры с фиксированным шагом и явным таймкодом в тексте вопроса.
- Уменьшайте
max-model-len, если основная нагрузка — короткие вопросы к одному скрину.