Gemma 2 27B
27B параметров · Transformer · Контекст 8k · Google · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 54 ГБ | Максимальное | Для продакшена |
| FP8 | 27 ГБ | Отличное | Оптимально |
| INT8 | 27 ГБ | Хорошее | |
| INT4/Q4 | 14 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model gemma-2-27b-it \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Год выпуска
- 2024
- Параметры
- 27B
- Архитектура
- Transformer
- Контекстное окно
- 8,192 токенов
- Лицензия
- Gemma
Применение
Gemma 2 27B — флагман линейки Gemma 2 и один из сильнейших открытых dense-вариантов в коридоре 20–30B: хорошо держит reasoning, длинные формулировки инструкций и аккуратный стиль ответа без «болтовни ради объёма». Это рациональный выбор, когда 9B уже не хватает, а прыгать на 70B+ пока рано по бюджету. В продакшене чаще всего появляется в связке с аккуратным prompt engineering и RAG поверх корпоративных документов.
Контекст 8192; instruct: google/gemma-2-27b-it. В fp16 по памяти ближе к 54 ГБ VRAM — планируйте либо карту уровня A100 80GB, либо две 4090 / квантизацию.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Gemma 2 27B в fp16 ориентируйтесь на A100 / H100 или две RTX 4090. Перейдите в каталог GPU и арендуйте инстанс.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model google/gemma-2-27b-it \
--dtype auto \
--max-model-len 8192
При двух потребительских GPU добавьте --tensor-parallel-size 2.
Альтернативно, для быстрого старта используйте Ollama:
ollama run gemma2:27b
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemma-2-27b-it",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- На 24 ГБ-картах без TP почти всегда нужен FP8/BF16 mix или квантизация — начинайте с
--dtype auto. - Если качество «плывёт» на длинных диалогах, уменьшите число одновременных сессий: это часто дешевле, чем гонять max len.
- Для продакшн-SLO разделите интерактив и batch по разным пулах инстансов.