LLM Llama

Llama 3.2 1B

1B параметров · Transformer · Контекст 128k · Meta · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 2 ГБ Максимальное Для продакшена
FP8 1 ГБ Отличное Оптимально
INT8 1 ГБ Хорошее
INT4/Q4 1 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

ollama
ollama run llama-3.2-1b

Характеристики модели

Технические параметры

Разработчик
Meta
Год выпуска
2024
Параметры
1B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Llama

Применение

Edge inference Chatbots Text classification Low-latency applications

Llama 3.2 1B Instruct — линейка «маленьких» Llama для экстремально низкой задержки и дешёвого инференса: классификация, простые боты, маршрутизация запросов к более крупным моделям. Не ждите чудес на сложном reasoning, зато получите предсказуемую экономику и высокий RPS на слабом железе.

Контекст 128k; в fp16 хватает пары гигабайт VRAM — идеально для RTX 4090/RTX 3090 с огромным запасом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.2 1B достаточно RTX 4090 или RTX 3090 даже в fp16. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.2-1B-Instruct \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.2-1B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе одним абзацем: где 1B уместна, а где лучше взять 8B?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run llama3.2:1b

Оптимизация

  • Для классификации держите короткий контекст и низкий max_tokens.
  • Используйте как router/orchestrator перед тяжёлыми моделями — это резко снижает среднюю стоимость запроса.
  • Соблюдайте лицензию Llama для продакшн-использования.