VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	800 ГБ	Максимальное	Для продакшена
FP8	400 ГБ	Отличное	Оптимально
INT4/Q4	100 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT4

Арендовать

NVIDIA H200 SXM

141 ГБ

FP16, FP8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Meta
Год выпуска: 2025
Параметры: 400B
Архитектура: MoE
Контекстное окно: 1,000,000 токенов
Лицензия: Llama

Применение

Code generation Reasoning Multimodal understanding Complex tasks

Llama 4 Maverick — флагман Meta в линейке Llama 4 (апрель 2025): 400 млрд параметров всего, ~17 млрд активных на токен, 128 экспертов. Контекст до 1M токенов и нативная multimodal поддержка; на ряде бенчмарков модель сравнивают с GPT-4o-классом.

Локальный деплой полноразмерных весов — это multi-GPU узел уровня DGX / несколько H100/H200 с tensor parallelism; одной карты недостаточно для fp8 без экстремальных компромиссов.

Коммерчески модель также доступна через API Meta (~$0.19–$0.49 за 1M токенов в зависимости от тарифа и типа запроса — уточняйте актуальные цены у провайдера). На Hugging Face обычно лежат FP8-веса; в vLLM не смешивайте их с произвольным --quantization без проверки совместимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Соберите инстанс с несколькими H100 или H200 и низкой латентностью между GPU (NVLink/высокоскоростная шина). Одна карта для Maverick в типичном fp8-сценарии не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 65536

--tensor-parallel-size N должен совпадать с числом GPU в узле (часто 8×80GB для крупных MoE; при другой конфигурации пересчитайте запас памяти).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-4-Maverick-17B-128E-Instruct",
    "messages": [{"role": "user", "content": "Напиши на Rust модуль с unit-тестами: LRU-cache с O(1) get/put"}]
  }'

Оптимизация

Сначала стабилизируйте память через --max-model-len; 1M контекст «в лоб» на кластере всё равно редко бывает дешёвым
Увеличьте --shm-size и следите за OOM при высоком concurrent load на MoE
Для vision-запросов убедитесь, что связка модель+vLLM поддерживает нужный multimodal endpoint в вашей версии

Llama 4 Maverick