VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	68 ГБ	Максимальное	Для продакшена
FP8	34 ГБ	Отличное	Оптимально
INT8	34 ГБ	Хорошее
INT4/Q4	17 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Haotian Liu
Год выпуска: 2024
Параметры: 34B
Архитектура: Transformer
Контекстное окно: 4,096 токенов
Лицензия: Llama

Применение

Visual question answering Image captioning Document understanding Multimodal chat

LLaVA 1.6 34B — тяжёлая LLaVA-NeXT на базе Yi-34B: сильная детализация сцен, устойчивость к мелкому тексту и удобная схема high-res через тайлинг (несколько кропов одного изображения). Это уже уровень «серьёзный VLM для аналитики», а не демо на одной картинке: качество растёт вместе с требованиями к VRAM и настройке тайлов. Лицензия базовой LLM — проверьте ограничения для вашего кейса.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

В fp16 это десятки гигабайт VRAM; реалистичные варианты — несколько мощных карт или одна H100 / A100 80GB с tensor parallel, либо квантизация в поддерживаемом стеке. Перейдите в каталог GPU.

Шаг 2 — Поднимите vLLM (multimodal)

Пример с tensor parallelism (подставьте фактическое число GPU):

docker run --gpus all --shm-size=16g -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model liuhaotian/llava-v1.6-34b \
  --trust-remote-code \
  --tensor-parallel-size 2 \
  --max-model-len 4096 \
  --limit-mm-per-prompt image=1

Если ваш тег образа vLLM не содержит нужной поддержки, возьмите свежий релиз и сверьтесь с матрицей multimodal-моделей в документации vLLM.

Шаг 3 — Отправьте запрос с изображением

Через /v1/chat/completions передайте изображение (image_url) и вопрос текстом; для документов часто выигрывает предварительный crop страницы и отдельный промпт на каждую страницу.

Оптимизация

Не включайте лишние тайлы: каждый дополнительный кроп — почти отдельная «картинка» по стоимости inference.
Кэшируйте vision-фичи на уровне приложения, если вы многократно задаёте вопросы к одному и тому же скану (если ваш стек это позволяет).

LLaVA 1.6 34B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Поднимите vLLM (multimodal)

Шаг 3 — Отправьте запрос с изображением

Оптимизация