Kimi K2 — флагман Moonshot AI (июль 2025): ~1T параметров всего в MoE-конфигурации и ~32 млрд активных на токен (384 эксперта, 8 активных). Обучение на 15.5T токенах с Muon optimizer; внимание — в духе MLA (Multi-head Latent Attention) для более компактного KV.

Модель ориентирована на агентные и tool-use бенчмарки и часто фигурирует как state-of-the-art среди открытых весов в сценариях «LLM + инструменты». Локальный деплой — это большой multi-GPU узел (сотни гигабайт VRAM в fp8); без кластера H100/H200 realistic inference недоступен.

На Hugging Face ориентируйтесь на FP8-веса; в базовой Docker-команде не добавляйте --quantization, пока не убедитесь, что он нужен конкретному чекпойнту и версии vLLM.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Закажите инстанс с множеством H100 или H200 и низкой латентностью между картами. Одной GPU для полноразмерного fp8 обычно недостаточно.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model moonshotai/Kimi-K2-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Выставьте --tensor-parallel-size N по фактическому числу GPU (8 — пример для узла из восьми карт; при 4 GPU поставьте 4 и пересчитайте память).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2-Instruct",
    "messages": [{"role": "user", "content": "Смоделируй вызовы tools: сначала спланируй шаги, затем верни JSON с полями tool_name и arguments для поиска погоды и чтения URL"}]
  }'

Оптимизация

Агентные сценарии: ограничивайте длину истории и число параллельных сессий — KV-cache растёт быстро
Увеличьте --shm-size и мониторьте NCCL/IB при деградации скорости на multi-GPU
Обновляйте vLLM осторожно: поддержка крупных MoE и MLA меняется; фиксируйте версию образа в production

Точность	VRAM	Качество	Рекомендация
FP8	500 ГБ	Отличное	Оптимально
INT4/Q4	250 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP8, INT4	Арендовать

Kimi K2

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация