VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	144 ГБ	Максимальное	Для продакшена
FP8	72 ГБ	Отличное	Оптимально
INT8	72 ГБ	Хорошее
INT4/Q4	36 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H200 SXM

141 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2024
Параметры: 72B
Архитектура: Transformer
Контекстное окно: 32,768 токенов
Лицензия: Apache-2.0

Применение

Visual question answering Document understanding Video understanding OCR

Qwen2-VL 72B — флагман линейки Qwen2-VL: уровень визуального понимания и рассуждений, сопоставимый с топовыми закрытыми VLM, при сохранении открытых весов и Apache-2.0. Модель заточена под сложные сцены, документы, multi-image диалоги и video-style сценарии, но это уже инфраструктура уровня много GPU и продуманного батчинга.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Планируйте несколько H100/A100 или эквивалент по суммарной памяти: в fp16 это порядка сотен гигабайт VRAM без шардирования. Ориентиры — H100, H200, A100 с tensor parallelism (и при необходимости pipeline parallelism) в vLLM. Перейдите в каталог GPU.

Шаг 2 — Поднимите vLLM (multimodal, multi-GPU)

Пример (число GPU подставьте под фактическую конфигурацию):

docker run --gpus all --shm-size=32g -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2-VL-72B-Instruct \
  --trust-remote-code \
  --tensor-parallel-size 4 \
  --max-model-len 8192 \
  --limit-mm-per-prompt image=2

На двух картах меньшего объёма чаще нужна квантизация или другой serving-стек (см. документацию Qwen2-VL и vLLM для вашей версии).

Шаг 3 — Отправьте запрос

Используйте тот же OpenAI-compatible интерфейс: несколько изображений в одном сообщении, плюс явные инструкции, что сравнить или что извлечь из документа.

Оптимизация

Дорогое зло — большие картинки и длинные истории чата; режьте визуальный ввод и суммаризируйте прошлые ответы.
Выставляйте отдельные пулы воркеров для «лёгких» односкриновых запросов и для тяжёлых multi-page документов, чтобы изоляция нагрузки не забивала очередь.

Qwen2-VL 72B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Поднимите vLLM (multimodal, multi-GPU)

Шаг 3 — Отправьте запрос

Оптимизация