LLM
Llama
Llama 3.1 70B
70B параметров · Transformer · Контекст 128k · Meta · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 140 ГБ | Максимальное | Для продакшена |
| FP8 | 70 ГБ | Отличное | Оптимально |
| INT8 | 70 ГБ | Хорошее | |
| INT4/Q4 | 35 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Meta-Llama-3.1-70B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Meta
- Год выпуска
- 2024
- Параметры
- 70B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Llama
Применение
Reasoning
Instruction following
Code generation
Text analysis
Llama 3.1 70B Instruct — флагман Llama 3.1: dense 70B с окном 128k, сильный общий интеллект, код и рассуждения на уровне лучших открытых моделей своего поколения. Подходит для корпоративных ассистентов и продуктов, где качество важнее цены инференса.
fp16 веса ~140 ГБ VRAM — на практике ориентируйтесь на fp8 и две H100/H200 с tensor parallel или на квантизацию на одной карте.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Llama 3.1 70B в fp8 рекомендуем минимум две карты H100 или H200 80 ГБ. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model meta-llama/Meta-Llama-3.1-70B-Instruct \
--dtype auto \
--tensor-parallel-size 2 \
--max-model-len 65536
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе и назови три сильные стороны 70B Instruct для B2B-ассистента."}]
}'
Оптимизация
- Увеличивайте TP до 4× при необходимости большего throughput на длинном контексте.
- Следите за лицензией Llama и ограничениями для коммерческого использования.
- Для интерактивного UX снижайте
max_tokensи используйте streaming.