VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	6 ГБ	Максимальное	Для продакшена
FP8	3 ГБ	Отличное	Оптимально
INT8	3 ГБ	Хорошее
INT4/Q4	2 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Meta
Год выпуска: 2024
Параметры: 3B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Llama

Применение

Chatbots Text summarization Instruction following Low-latency applications

Llama 3.2 3B Instruct — следующий шаг после 1B в компактной линейке Meta: заметно лучше следует инструкциям и держит диалог, оставаясь настолько лёгкой, что её можно крутить почти везде. Хороший выбор для мобильных сценариев, высокого QPS и «второй линии» поддержки.

Контекст 128k; fp16 ~6 ГБ VRAM — комфортно на RTX 4090/RTX 3090.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.2 3B в fp16 рекомендуем RTX 4090 или RTX 3090. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.2-3B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: чем 3B лучше 1B в реальном чат-боте?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run llama3.2:3b

Оптимизация

Для интерактивных ботов держите умеренный --max-model-len и включайте streaming.
При необходимости мультиязычия проверяйте качество на целевых языках — 3B не универсальный «вездеход».
Масштабируйте репликами: одна карта выдержит очень много одновременных лёгких сессий.

Llama 3.2 3B