GLM-4 32B
32B параметров · Transformer · Контекст 128k · Zhipu AI · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 64 ГБ | Максимальное | Для продакшена |
| FP8 | 32 ГБ | Отличное | Оптимально |
| INT8 | 32 ГБ | Хорошее | |
| INT4/Q4 | 16 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA A100
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model GLM-4-32B-0414 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Zhipu AI
- Год выпуска
- 2025
- Параметры
- 32B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
GLM-4 32B — открытый 32B флагман Zhipu (апрель 2025, 0414) под MIT: предобучение на 15T токенов, сильные стороны — инженерный код, генерация артефактов (документы/разметка), function calling и агентные сценарии.
По заявлениям Zhipu, на ряде бенчмарков модель сопоставима с DeepSeek-R1 по reasoning при заметно большем throughput инференса; также приводятся сравнения с GPT-4o и DeepSeek-V3-0324 — всегда верифицируйте на своих задачах.
Для self-hosted деплоя: в fp16 ориентируйтесь на A100/H100, на RTX 4090 — с fp8/квантизацией и умеренным контекстом.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Универсальный вариант — RTX 4090 с fp8 и ограниченным max-model-len или A100/H100 для комфортного fp16 и запаса под batch.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model THUDM/GLM-4-32B-0414 \
--dtype auto \
--max-model-len 16384
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "THUDM/GLM-4-32B-0414",
"messages": [{"role": "user", "content": "Напиши OpenAPI-спеку для эндпоинта POST /inference: batch-тексты, temperature, max_tokens, optional tools[]"}]
}'
Оптимизация
- На 4090 начните с
--quantization fp8или AWQ/GPTQ при OOM — dense 32B без квантизации часто не влезает комфортно - Function calling: держите короткие системные промпты и валидируйте JSON на стороне приложения
- Если vLLM избыточен, проверьте Ollama для прототипов — но для SLA в проде чаще остаются vLLM + мониторинг latency