VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	2 ГБ	Максимальное	Для продакшена
FP8	1 ГБ	Отличное	Оптимально
INT8	1 ГБ	Хорошее
INT4/Q4	1 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Meta
Год выпуска: 2024
Параметры: 1B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Llama

Применение

Edge inference Chatbots Text classification Low-latency applications

Llama 3.2 1B Instruct — линейка «маленьких» Llama для экстремально низкой задержки и дешёвого инференса: классификация, простые боты, маршрутизация запросов к более крупным моделям. Не ждите чудес на сложном reasoning, зато получите предсказуемую экономику и высокий RPS на слабом железе.

Контекст 128k; в fp16 хватает пары гигабайт VRAM — идеально для RTX 4090/RTX 3090 с огромным запасом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Llama 3.2 1B достаточно RTX 4090 или RTX 3090 даже в fp16. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.2-1B-Instruct \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.2-1B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе одним абзацем: где 1B уместна, а где лучше взять 8B?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run llama3.2:1b

Оптимизация

Для классификации держите короткий контекст и низкий max_tokens.
Используйте как router/orchestrator перед тяжёлыми моделями — это резко снижает среднюю стоимость запроса.
Соблюдайте лицензию Llama для продакшн-использования.

Llama 3.2 1B