LLM MIT

GLM-4 9B

9B параметров · Transformer · Контекст 128k · Zhipu AI · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 18 ГБ Максимальное Для продакшена
FP8 9 ГБ Отличное Оптимально
INT8 9 ГБ Хорошее
INT4/Q4 5 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model GLM-4-9B-0414 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Zhipu AI
Год выпуска
2025
Параметры
9B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Instruction following Code generation Reasoning Chatbots

GLM-4 9B — компактная dense-модель Zhipu AI (апрель 2025, чекпойнт 0414) под MIT-лицензией: 9 млрд параметров, предобучение на 15T токенах. В классе ~9B сильна в математическом reasoning и аккуратном следовании инструкциям.

Контекст до 128k токенов делает её удобной для RAG и длинных диалогов при скромных требованиях к железу относительно 32B-класса.

Для стартапов и внутренних чат-ботов это практичный выбор: на потребительской карте в fp8 модель помещается с запасом, а качество на code/math часто приятно удивляет.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Достаточно RTX 3090 или RTX 4090 для fp8; 4090 даст больше запаса под контекст и batch. Выберите инстанс с Docker.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model THUDM/GLM-4-9B-0414 \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "THUDM/GLM-4-9B-0414",
    "messages": [{"role": "user", "content": "Докажи по индукции, что сумма первых n нечётных чисел равна n^2"}]
  }'

Оптимизация

  • --quantization fp8 помогает уложиться в ~9 ГБ VRAM, если auto выбирает тяжелее
  • Уменьшайте --max-model-len, если не используете полный 128k — память уйдёт в KV-cache
  • Для быстрого старта без Docker можно поднять модель через Ollama, если доступен совместимый тег в каталоге