LLM MIT

GLM-4 32B

32B параметров · Transformer · Контекст 128k · Zhipu AI · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 64 ГБ Максимальное Для продакшена
FP8 32 ГБ Отличное Оптимально
INT8 32 ГБ Хорошее
INT4/Q4 16 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model GLM-4-32B-0414 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Zhipu AI
Год выпуска
2025
Параметры
32B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Code generation Reasoning Agents Function calling

GLM-4 32B — открытый 32B флагман Zhipu (апрель 2025, 0414) под MIT: предобучение на 15T токенов, сильные стороны — инженерный код, генерация артефактов (документы/разметка), function calling и агентные сценарии.

По заявлениям Zhipu, на ряде бенчмарков модель сопоставима с DeepSeek-R1 по reasoning при заметно большем throughput инференса; также приводятся сравнения с GPT-4o и DeepSeek-V3-0324 — всегда верифицируйте на своих задачах.

Для self-hosted деплоя: в fp16 ориентируйтесь на A100/H100, на RTX 4090 — с fp8/квантизацией и умеренным контекстом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Универсальный вариант — RTX 4090 с fp8 и ограниченным max-model-len или A100/H100 для комфортного fp16 и запаса под batch.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model THUDM/GLM-4-32B-0414 \
  --dtype auto \
  --max-model-len 16384

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "THUDM/GLM-4-32B-0414",
    "messages": [{"role": "user", "content": "Напиши OpenAPI-спеку для эндпоинта POST /inference: batch-тексты, temperature, max_tokens, optional tools[]"}]
  }'

Оптимизация

  • На 4090 начните с --quantization fp8 или AWQ/GPTQ при OOM — dense 32B без квантизации часто не влезает комфортно
  • Function calling: держите короткие системные промпты и валидируйте JSON на стороне приложения
  • Если vLLM избыточен, проверьте Ollama для прототипов — но для SLA в проде чаще остаются vLLM + мониторинг latency