LLM Llama

Llama 3.1 405B

405B параметров · Transformer · Контекст 128k · Meta · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 810 ГБ Максимальное Для продакшена
FP8 405 ГБ Отличное Оптимально
INT8 405 ГБ Хорошее
INT4/Q4 203 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
141 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Meta-Llama-3.1-405B-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Meta
Год выпуска
2024
Параметры
405B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Llama

Применение

Reasoning Complex instruction following Code generation Research

Llama 3.1 405B Instruct — максимум открытой экосистемы Meta на момент релиза: dense 405B с окном 128k, уровень качества ближе к топовым closed-source моделям и пригоден для исследований, внутренних super-assistant’ов и задач, где ошибка дороже лишней GPU-недели.

fp8 веса ~405 ГБ — это обязательно многокарточный деплой на H100/H200 с tensor parallel и быстрым линком.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.1 405B в fp8 рекомендуем кластер из нескольких H100 80 ГБ или H200 (типично от восьми карт в зависимости от контекста и batch). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Meta-Llama-3.1-405B-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: когда имеет смысл поднимать 405B вместо 70B в продакшн?"}]
  }'

Оптимизация

  • Начинайте с умеренного --max-model-len; полный 128k на 405B — редкая и дорогая конфигурация.
  • Настраивайте batching и chunked prefill в vLLM под вашу нагрузку.
  • Планируйте горизонтальное масштабирование реплик, если нужен высокий QPS.