LLM Llama

Llama 4 Maverick

400B параметров · MoE · Контекст 1,000k · Meta · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 800 ГБ Максимальное Для продакшена
FP8 400 ГБ Отличное Оптимально
INT4/Q4 100 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT4 Арендовать
141 ГБ FP16, FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Llama-4-Maverick-17B-128E-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Meta
Год выпуска
2025
Параметры
400B
Архитектура
MoE
Контекстное окно
1,000,000 токенов
Лицензия
Llama

Применение

Code generation Reasoning Multimodal understanding Complex tasks

Llama 4 Maverick — флагман Meta в линейке Llama 4 (апрель 2025): 400 млрд параметров всего, ~17 млрд активных на токен, 128 экспертов. Контекст до 1M токенов и нативная multimodal поддержка; на ряде бенчмарков модель сравнивают с GPT-4o-классом.

Локальный деплой полноразмерных весов — это multi-GPU узел уровня DGX / несколько H100/H200 с tensor parallelism; одной карты недостаточно для fp8 без экстремальных компромиссов.

Коммерчески модель также доступна через API Meta (~$0.19–$0.49 за 1M токенов в зависимости от тарифа и типа запроса — уточняйте актуальные цены у провайдера). На Hugging Face обычно лежат FP8-веса; в vLLM не смешивайте их с произвольным --quantization без проверки совместимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Соберите инстанс с несколькими H100 или H200 и низкой латентностью между GPU (NVLink/высокоскоростная шина). Одна карта для Maverick в типичном fp8-сценарии не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 65536

--tensor-parallel-size N должен совпадать с числом GPU в узле (часто 8×80GB для крупных MoE; при другой конфигурации пересчитайте запас памяти).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-4-Maverick-17B-128E-Instruct",
    "messages": [{"role": "user", "content": "Напиши на Rust модуль с unit-тестами: LRU-cache с O(1) get/put"}]
  }'

Оптимизация

  • Сначала стабилизируйте память через --max-model-len; 1M контекст «в лоб» на кластере всё равно редко бывает дешёвым
  • Увеличьте --shm-size и следите за OOM при высоком concurrent load на MoE
  • Для vision-запросов убедитесь, что связка модель+vLLM поддерживает нужный multimodal endpoint в вашей версии