LLM
Llama
Llama 3.3 70B
70B параметров · Transformer · Контекст 128k · Meta · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 140 ГБ | Максимальное | Для продакшена |
| FP8 | 70 ГБ | Отличное | Оптимально |
| INT8 | 70 ГБ | Хорошее | |
| INT4/Q4 | 35 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Llama-3.3-70B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Meta
- Год выпуска
- 2024
- Параметры
- 70B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Llama
Применение
Reasoning
Instruction following
Code generation
Text analysis
Llama 3.3 70B Instruct — эволюция 70B-флагмана Meta: те же 70 миллиардов параметров, но лучше на математике, коде и ряде агентских сценариев; по некоторым отчётам близко к качеству 405B при доле стоимости inference. Логичный выбор, если вы уже на Llama 70B и хотите апгрейд без скачка к 405B.
Контекст 128k; fp16 ~140 ГБ — практичный путь fp8 на двух H100/H200 с tensor parallel.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Llama 3.3 70B в fp8 рекомендуем минимум две карты H100 или H200 80 ГБ. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model meta-llama/Llama-3.3-70B-Instruct \
--dtype auto \
--tensor-parallel-size 2 \
--max-model-len 65536
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-3.3-70B-Instruct",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе: чем Llama 3.3 70B отличается от 3.1 70B для разработчика?"}]
}'
Оптимизация
- Сравните на своих промптах против 3.1 70B — выигрыш не всегда равномерен по доменам.
- Для code-heavy нагрузок комбинируйте низкий temperature и жёсткие шаблоны ответа.
- Увеличивайте TP, если нужен больший batch на длинном контексте.