VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	810 ГБ	Максимальное	Для продакшена
FP8	405 ГБ	Отличное	Оптимально
INT8	405 ГБ	Хорошее
INT4/Q4	203 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Meta
Год выпуска: 2024
Параметры: 405B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Llama

Применение

Reasoning Complex instruction following Code generation Research

Llama 3.1 405B Instruct — максимум открытой экосистемы Meta на момент релиза: dense 405B с окном 128k, уровень качества ближе к топовым closed-source моделям и пригоден для исследований, внутренних super-assistant’ов и задач, где ошибка дороже лишней GPU-недели.

fp8 веса ~405 ГБ — это обязательно многокарточный деплой на H100/H200 с tensor parallel и быстрым линком.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.1 405B в fp8 рекомендуем кластер из нескольких H100 80 ГБ или H200 (типично от восьми карт в зависимости от контекста и batch). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Meta-Llama-3.1-405B-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: когда имеет смысл поднимать 405B вместо 70B в продакшн?"}]
  }'

Оптимизация

Начинайте с умеренного --max-model-len; полный 128k на 405B — редкая и дорогая конфигурация.
Настраивайте batching и chunked prefill в vLLM под вашу нагрузку.
Планируйте горизонтальное масштабирование реплик, если нужен высокий QPS.

Llama 3.1 405B