LLM Llama

Llama 3.2 3B

3B параметров · Transformer · Контекст 128k · Meta · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 6 ГБ Максимальное Для продакшена
FP8 3 ГБ Отличное Оптимально
INT8 3 ГБ Хорошее
INT4/Q4 2 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

ollama
ollama run llama-3.2-3b

Характеристики модели

Технические параметры

Разработчик
Meta
Год выпуска
2024
Параметры
3B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Llama

Применение

Chatbots Text summarization Instruction following Low-latency applications

Llama 3.2 3B Instruct — следующий шаг после 1B в компактной линейке Meta: заметно лучше следует инструкциям и держит диалог, оставаясь настолько лёгкой, что её можно крутить почти везде. Хороший выбор для мобильных сценариев, высокого QPS и «второй линии» поддержки.

Контекст 128k; fp16 ~6 ГБ VRAM — комфортно на RTX 4090/RTX 3090.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.2 3B в fp16 рекомендуем RTX 4090 или RTX 3090. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.2-3B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: чем 3B лучше 1B в реальном чат-боте?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run llama3.2:3b

Оптимизация

  • Для интерактивных ботов держите умеренный --max-model-len и включайте streaming.
  • При необходимости мультиязычия проверяйте качество на целевых языках — 3B не универсальный «вездеход».
  • Масштабируйте репликами: одна карта выдержит очень много одновременных лёгких сессий.