Qwen2-VL 72B
72B параметров · Transformer · Контекст 33k · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 144 ГБ | Максимальное | Для продакшена |
| FP8 | 72 ГБ | Отличное | Оптимально |
| INT8 | 72 ГБ | Хорошее | |
| INT4/Q4 | 36 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen2-VL-72B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 72B
- Архитектура
- Transformer
- Контекстное окно
- 32,768 токенов
- Лицензия
- Apache-2.0
Применение
Qwen2-VL 72B — флагман линейки Qwen2-VL: уровень визуального понимания и рассуждений, сопоставимый с топовыми закрытыми VLM, при сохранении открытых весов и Apache-2.0. Модель заточена под сложные сцены, документы, multi-image диалоги и video-style сценарии, но это уже инфраструктура уровня много GPU и продуманного батчинга.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Планируйте несколько H100/A100 или эквивалент по суммарной памяти: в fp16 это порядка сотен гигабайт VRAM без шардирования. Ориентиры — H100, H200, A100 с tensor parallelism (и при необходимости pipeline parallelism) в vLLM. Перейдите в каталог GPU.
Шаг 2 — Поднимите vLLM (multimodal, multi-GPU)
Пример (число GPU подставьте под фактическую конфигурацию):
docker run --gpus all --shm-size=32g -p 8000:8000 \
vllm/vllm-openai:latest \
--model Qwen/Qwen2-VL-72B-Instruct \
--trust-remote-code \
--tensor-parallel-size 4 \
--max-model-len 8192 \
--limit-mm-per-prompt image=2
На двух картах меньшего объёма чаще нужна квантизация или другой serving-стек (см. документацию Qwen2-VL и vLLM для вашей версии).
Шаг 3 — Отправьте запрос
Используйте тот же OpenAI-compatible интерфейс: несколько изображений в одном сообщении, плюс явные инструкции, что сравнить или что извлечь из документа.
Оптимизация
- Дорогое зло — большие картинки и длинные истории чата; режьте визуальный ввод и суммаризируйте прошлые ответы.
- Выставляйте отдельные пулы воркеров для «лёгких» односкриновых запросов и для тяжёлых multi-page документов, чтобы изоляция нагрузки не забивала очередь.