Llama 4 Maverick
400B параметров · MoE · Контекст 1,000k · Meta · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 800 ГБ | Максимальное | Для продакшена |
| FP8 | 400 ГБ | Отличное | Оптимально |
| INT4/Q4 | 100 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Llama-4-Maverick-17B-128E-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Meta
- Год выпуска
- 2025
- Параметры
- 400B
- Архитектура
- MoE
- Контекстное окно
- 1,000,000 токенов
- Лицензия
- Llama
Применение
Llama 4 Maverick — флагман Meta в линейке Llama 4 (апрель 2025): 400 млрд параметров всего, ~17 млрд активных на токен, 128 экспертов. Контекст до 1M токенов и нативная multimodal поддержка; на ряде бенчмарков модель сравнивают с GPT-4o-классом.
Локальный деплой полноразмерных весов — это multi-GPU узел уровня DGX / несколько H100/H200 с tensor parallelism; одной карты недостаточно для fp8 без экстремальных компромиссов.
Коммерчески модель также доступна через API Meta (~$0.19–$0.49 за 1M токенов в зависимости от тарифа и типа запроса — уточняйте актуальные цены у провайдера). На Hugging Face обычно лежат FP8-веса; в vLLM не смешивайте их с произвольным --quantization без проверки совместимости.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Соберите инстанс с несколькими H100 или H200 и низкой латентностью между GPU (NVLink/высокоскоростная шина). Одна карта для Maverick в типичном fp8-сценарии не подходит.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
--model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 65536
--tensor-parallel-size N должен совпадать с числом GPU в узле (часто 8×80GB для крупных MoE; при другой конфигурации пересчитайте запас памяти).
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-4-Maverick-17B-128E-Instruct",
"messages": [{"role": "user", "content": "Напиши на Rust модуль с unit-тестами: LRU-cache с O(1) get/put"}]
}'
Оптимизация
- Сначала стабилизируйте память через
--max-model-len; 1M контекст «в лоб» на кластере всё равно редко бывает дешёвым - Увеличьте
--shm-sizeи следите за OOM при высоком concurrent load на MoE - Для vision-запросов убедитесь, что связка модель+vLLM поддерживает нужный multimodal endpoint в вашей версии