VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	18 ГБ	Максимальное	Для продакшена
FP8	9 ГБ	Отличное	Оптимально
INT8	9 ГБ	Хорошее
INT4/Q4	5 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Zhipu AI
Год выпуска: 2025
Параметры: 9B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Instruction following Code generation Reasoning Chatbots

GLM-4 9B — компактная dense-модель Zhipu AI (апрель 2025, чекпойнт 0414) под MIT-лицензией: 9 млрд параметров, предобучение на 15T токенах. В классе ~9B сильна в математическом reasoning и аккуратном следовании инструкциям.

Контекст до 128k токенов делает её удобной для RAG и длинных диалогов при скромных требованиях к железу относительно 32B-класса.

Для стартапов и внутренних чат-ботов это практичный выбор: на потребительской карте в fp8 модель помещается с запасом, а качество на code/math часто приятно удивляет.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Достаточно RTX 3090 или RTX 4090 для fp8; 4090 даст больше запаса под контекст и batch. Выберите инстанс с Docker.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model THUDM/GLM-4-9B-0414 \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "THUDM/GLM-4-9B-0414",
    "messages": [{"role": "user", "content": "Докажи по индукции, что сумма первых n нечётных чисел равна n^2"}]
  }'

Оптимизация

--quantization fp8 помогает уложиться в ~9 ГБ VRAM, если auto выбирает тяжелее
Уменьшайте --max-model-len, если не используете полный 128k — память уйдёт в KV-cache
Для быстрого старта без Docker можно поднять модель через Ollama, если доступен совместимый тег в каталоге

GLM-4 9B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация