LLM Llama

Llama 4 Scout

109B параметров · MoE · Контекст 10,000k · Meta · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 218 ГБ Максимальное Для продакшена
FP8 110 ГБ Отличное Оптимально
INT4/Q4 27 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT4 Арендовать
80 ГБ FP16, FP8, INT4 Арендовать
141 ГБ FP16, FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Llama-4-Scout-17B-16E-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Meta
Год выпуска
2025
Параметры
109B
Архитектура
MoE
Контекстное окно
10,000,000 токенов
Лицензия
Llama

Применение

Long-context analysis Code generation Multimodal understanding Reasoning

Llama 4 Scout — первая открытая MoE-линейка Meta (апрель 2025): 109 млрд параметров всего, ~17 млрд активных на токен, 16 экспертов. Предобучение на порядка 40T токенов; заявлено рекордное для практических сценариев окно до 10M токенов — удобно для глубокого анализа огромных документов и логов (с оговорками по реальной памяти и max-model-len).

Модель нативно multimodal (текст + изображения); для OpenAI-совместимого API в vLLM могут понадобиться дополнительные параметры/версия образа под vision — начните с текстового сценария и проверьте документацию vLLM для вашей сборки.

Благодаря MoE и доступным на HF FP8-весам Scout иногда запускают на RTX 4090 (24 ГБ) с очень агрессивным квантованием и урезанным контекстом — это ниже порога ~27 ГБ VRAM, который мы закладываем для строки INT4 в карточке модели. Для согласованного запаса под веса INT4 и KV ориентируйтесь на RTX 5090 (32 ГБ), A100/H100; для длинного контекста — H100/H200.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Минимальная конфигурация по метаданным карточки (INT4 ~27 ГБ): A100 или новее / с большим объёмом VRAM (например H100, H200, RTX 5090). На RTX 4090 возможны только более жёсткие квантизации и короткий max-model-len. Планируйте память под формат весов и фактический контекст.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --dtype auto \
  --max-model-len 131072

Не добавляйте --quantization без необходимости: чекпойнт часто уже в FP8 на Hugging Face; лишние флаги могут конфликтовать с форматом.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    "messages": [{"role": "user", "content": "Кратко опиши архитектуру MoE и зачем ограничивать max-model-len при деплое long-context моделей"}]
  }'

Оптимизация

  • 10M токенов в теории ≠ 10M в одном запросе на одном GPU: снижайте --max-model-len, пока не сойдётся память и latency
  • Для multimodal сценариев проверьте, что образ vLLM и версия поддерживают нужный vision pipeline; иначе используйте Ollama как fallback
  • Ограничьте concurrency: long context + MoE быстро исчерпывают VRAM из-за KV-cache