Llama 4 Scout — первая открытая MoE-линейка Meta (апрель 2025): 109 млрд параметров всего, ~17 млрд активных на токен, 16 экспертов. Предобучение на порядка 40T токенов; заявлено рекордное для практических сценариев окно до 10M токенов — удобно для глубокого анализа огромных документов и логов (с оговорками по реальной памяти и max-model-len).

Модель нативно multimodal (текст + изображения); для OpenAI-совместимого API в vLLM могут понадобиться дополнительные параметры/версия образа под vision — начните с текстового сценария и проверьте документацию vLLM для вашей сборки.

Благодаря MoE и доступным на HF FP8-весам Scout иногда запускают на RTX 4090 (24 ГБ) с очень агрессивным квантованием и урезанным контекстом — это ниже порога ~27 ГБ VRAM, который мы закладываем для строки INT4 в карточке модели. Для согласованного запаса под веса INT4 и KV ориентируйтесь на RTX 5090 (32 ГБ), A100/H100; для длинного контекста — H100/H200.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Минимальная конфигурация по метаданным карточки (INT4 ~27 ГБ): A100 или новее / с большим объёмом VRAM (например H100, H200, RTX 5090). На RTX 4090 возможны только более жёсткие квантизации и короткий max-model-len. Планируйте память под формат весов и фактический контекст.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype auto \
  --max-model-len 131072

Не добавляйте --quantization без необходимости: чекпойнт часто уже в FP8 на Hugging Face; лишние флаги могут конфликтовать с форматом.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    "messages": [{"role": "user", "content": "Кратко опиши архитектуру MoE и зачем ограничивать max-model-len при деплое long-context моделей"}]
  }'

Оптимизация

10M токенов в теории ≠ 10M в одном запросе на одном GPU: снижайте --max-model-len, пока не сойдётся память и latency
Для multimodal сценариев проверьте, что образ vLLM и версия поддерживают нужный vision pipeline; иначе используйте Ollama как fallback
Ограничьте concurrency: long context + MoE быстро исчерпывают VRAM из-за KV-cache

Точность	VRAM	Качество	Рекомендация
FP16	218 ГБ	Максимальное	Для продакшена
FP8	110 ГБ	Отличное	Оптимально
INT4/Q4	27 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA A100	80 ГБ	FP16, FP8, INT4	Арендовать
NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT4	Арендовать

Llama 4 Scout

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация