Точность

VRAM

Качество

Рекомендация

FP16

4 ГБ

Максимальное

Для продакшена

FP8

2 ГБ

Отличное

Оптимально

INT8

2 ГБ

Хорошее

INT4/Q4

1 ГБ

Приемлемое

Для экспериментов

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Google
Год выпуска: 2024
Параметры: 2B
Архитектура: Transformer
Контекстное окно: 8,192 токенов
Лицензия: Gemma

Применение

Chatbots Text summarization Edge inference Mobile applications

Gemma 2 2B — это ответ Google на запрос «максимум качества на минимальном железе»: крошечный чекпоинт, который всё ещё годится для чата, суммаризации и лёгких ассистентов на edge. Внутри — приёмы вроде sliding window attention и logit softcapping, которые помогают стабилизировать обучение и inference на маленьких моделях. Для прототипов, мобильных сценариев и дешёвых GPU-часов это часто лучший старт, чем притягивать 7B «по привычке».

Окно контекста 8192 токенов; instruct-версия на HF: google/gemma-2-2b-it (лицензия Gemma — проверьте условия коммерческого использования).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Gemma 2 2B в fp16 достаточно RTX 3090 или RTX 4090 с большим запасом по VRAM. Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model google/gemma-2-2b-it \
  --dtype auto \
  --max-model-len 8192

Альтернативно, для быстрого старта используйте Ollama:

ollama run gemma2:2b

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-2-2b-it",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

На слабых GPU имеет смысл ограничить concurrency: маленькая модель быстро становится узким местом из-за очереди, а не вычислений.
Для низкой задержки уменьшайте --max-model-len, если реальные диалоги короче 8k.
Если используете Ollama для локальных экспериментов, а vLLM для API — унифицируйте system prompt и шаблон чата, чтобы не ловить расхождения в поведении.

Gemma 2 2B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт