LLaVA 1.6 34B
34B параметров · Transformer · Контекст 4k · Haotian Liu · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 68 ГБ | Максимальное | Для продакшена |
| FP8 | 34 ГБ | Отличное | Оптимально |
| INT8 | 34 ГБ | Хорошее | |
| INT4/Q4 | 17 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model llava-v1.6-34b \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Haotian Liu
- Год выпуска
- 2024
- Параметры
- 34B
- Архитектура
- Transformer
- Контекстное окно
- 4,096 токенов
- Лицензия
- Llama
Применение
LLaVA 1.6 34B — тяжёлая LLaVA-NeXT на базе Yi-34B: сильная детализация сцен, устойчивость к мелкому тексту и удобная схема high-res через тайлинг (несколько кропов одного изображения). Это уже уровень «серьёзный VLM для аналитики», а не демо на одной картинке: качество растёт вместе с требованиями к VRAM и настройке тайлов. Лицензия базовой LLM — проверьте ограничения для вашего кейса.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
В fp16 это десятки гигабайт VRAM; реалистичные варианты — несколько мощных карт или одна H100 / A100 80GB с tensor parallel, либо квантизация в поддерживаемом стеке. Перейдите в каталог GPU.
Шаг 2 — Поднимите vLLM (multimodal)
Пример с tensor parallelism (подставьте фактическое число GPU):
docker run --gpus all --shm-size=16g -p 8000:8000 \
vllm/vllm-openai:latest \
--model liuhaotian/llava-v1.6-34b \
--trust-remote-code \
--tensor-parallel-size 2 \
--max-model-len 4096 \
--limit-mm-per-prompt image=1
Если ваш тег образа vLLM не содержит нужной поддержки, возьмите свежий релиз и сверьтесь с матрицей multimodal-моделей в документации vLLM.
Шаг 3 — Отправьте запрос с изображением
Через /v1/chat/completions передайте изображение (image_url) и вопрос текстом; для документов часто выигрывает предварительный crop страницы и отдельный промпт на каждую страницу.
Оптимизация
- Не включайте лишние тайлы: каждый дополнительный кроп — почти отдельная «картинка» по стоимости inference.
- Кэшируйте vision-фичи на уровне приложения, если вы многократно задаёте вопросы к одному и тому же скану (если ваш стек это позволяет).