Llama 4 Scout
109B параметров · MoE · Контекст 10,000k · Meta · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 218 ГБ | Максимальное | Для продакшена |
| FP8 | 110 ГБ | Отличное | Оптимально |
| INT4/Q4 | 27 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA A100
|
80 ГБ | FP16, FP8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT4 | Арендовать | |
| 141 ГБ | FP16, FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Llama-4-Scout-17B-16E-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Meta
- Год выпуска
- 2025
- Параметры
- 109B
- Архитектура
- MoE
- Контекстное окно
- 10,000,000 токенов
- Лицензия
- Llama
Применение
Llama 4 Scout — первая открытая MoE-линейка Meta (апрель 2025): 109 млрд параметров всего, ~17 млрд активных на токен, 16 экспертов. Предобучение на порядка 40T токенов; заявлено рекордное для практических сценариев окно до 10M токенов — удобно для глубокого анализа огромных документов и логов (с оговорками по реальной памяти и max-model-len).
Модель нативно multimodal (текст + изображения); для OpenAI-совместимого API в vLLM могут понадобиться дополнительные параметры/версия образа под vision — начните с текстового сценария и проверьте документацию vLLM для вашей сборки.
Благодаря MoE и доступным на HF FP8-весам Scout иногда запускают на RTX 4090 (24 ГБ) с очень агрессивным квантованием и урезанным контекстом — это ниже порога ~27 ГБ VRAM, который мы закладываем для строки INT4 в карточке модели. Для согласованного запаса под веса INT4 и KV ориентируйтесь на RTX 5090 (32 ГБ), A100/H100; для длинного контекста — H100/H200.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Минимальная конфигурация по метаданным карточки (INT4 ~27 ГБ): A100 или новее / с большим объёмом VRAM (например H100, H200, RTX 5090). На RTX 4090 возможны только более жёсткие квантизации и короткий max-model-len. Планируйте память под формат весов и фактический контекст.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
--dtype auto \
--max-model-len 131072
Не добавляйте --quantization без необходимости: чекпойнт часто уже в FP8 на Hugging Face; лишние флаги могут конфликтовать с форматом.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
"messages": [{"role": "user", "content": "Кратко опиши архитектуру MoE и зачем ограничивать max-model-len при деплое long-context моделей"}]
}'
Оптимизация
- 10M токенов в теории ≠ 10M в одном запросе на одном GPU: снижайте
--max-model-len, пока не сойдётся память и latency - Для multimodal сценариев проверьте, что образ vLLM и версия поддерживают нужный vision pipeline; иначе используйте Ollama как fallback
- Ограничьте concurrency: long context + MoE быстро исчерпывают VRAM из-за KV-cache