LLM MIT

Kimi K2

1000B параметров · MoE · Контекст 128k · Moonshot AI · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP8 500 ГБ Отличное Оптимально
INT4/Q4 250 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP8, INT4 Арендовать
141 ГБ FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Kimi-K2-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Moonshot AI
Год выпуска
2025
Параметры
1000B
Архитектура
MoE
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Code generation Reasoning Agents Tool use

Kimi K2 — флагман Moonshot AI (июль 2025): ~1T параметров всего в MoE-конфигурации и ~32 млрд активных на токен (384 эксперта, 8 активных). Обучение на 15.5T токенах с Muon optimizer; внимание — в духе MLA (Multi-head Latent Attention) для более компактного KV.

Модель ориентирована на агентные и tool-use бенчмарки и часто фигурирует как state-of-the-art среди открытых весов в сценариях «LLM + инструменты». Локальный деплой — это большой multi-GPU узел (сотни гигабайт VRAM в fp8); без кластера H100/H200 realistic inference недоступен.

На Hugging Face ориентируйтесь на FP8-веса; в базовой Docker-команде не добавляйте --quantization, пока не убедитесь, что он нужен конкретному чекпойнту и версии vLLM.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Закажите инстанс с множеством H100 или H200 и низкой латентностью между картами. Одной GPU для полноразмерного fp8 обычно недостаточно.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model moonshotai/Kimi-K2-Instruct \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Выставьте --tensor-parallel-size N по фактическому числу GPU (8 — пример для узла из восьми карт; при 4 GPU поставьте 4 и пересчитайте память).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2-Instruct",
    "messages": [{"role": "user", "content": "Смоделируй вызовы tools: сначала спланируй шаги, затем верни JSON с полями tool_name и arguments для поиска погоды и чтения URL"}]
  }'

Оптимизация

  • Агентные сценарии: ограничивайте длину истории и число параллельных сессий — KV-cache растёт быстро
  • Увеличьте --shm-size и мониторьте NCCL/IB при деградации скорости на multi-GPU
  • Обновляйте vLLM осторожно: поддержка крупных MoE и MLA меняется; фиксируйте версию образа в production