GLM-4 32B

VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	64 ГБ	Максимальное	Для продакшена
FP8	32 ГБ	Отличное	Оптимально
INT8	32 ГБ	Хорошее
INT4/Q4	16 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA A100	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

GPU

VRAM

Поддерживает

Рек. NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Zhipu AI
Год выпуска: 2025
Параметры: 32B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Code generation Reasoning Agents Function calling

GLM-4 32B — открытый 32B флагман Zhipu (апрель 2025, 0414) под MIT: предобучение на 15T токенов, сильные стороны — инженерный код, генерация артефактов (документы/разметка), function calling и агентные сценарии.

По заявлениям Zhipu, на ряде бенчмарков модель сопоставима с DeepSeek-R1 по reasoning при заметно большем throughput инференса; также приводятся сравнения с GPT-4o и DeepSeek-V3-0324 — всегда верифицируйте на своих задачах.

Для self-hosted деплоя: в fp16 ориентируйтесь на A100/H100, на RTX 4090 — с fp8/квантизацией и умеренным контекстом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Универсальный вариант — RTX 4090 с fp8 и ограниченным max-model-len или A100/H100 для комфортного fp16 и запаса под batch.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model THUDM/GLM-4-32B-0414 \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "THUDM/GLM-4-32B-0414",
    "messages": [{"role": "user", "content": "Напиши OpenAPI-спеку для эндпоинта POST /inference: batch-тексты, temperature, max_tokens, optional tools[]"}]
  }'

Оптимизация

На 4090 начните с --quantization fp8 или AWQ/GPTQ при OOM — dense 32B без квантизации часто не влезает комфортно
Function calling: держите короткие системные промпты и валидируйте JSON на стороне приложения
Если vLLM избыточен, проверьте Ollama для прототипов — но для SLA в проде чаще остаются vLLM + мониторинг latency

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация