Kimi K2
1000B параметров · MoE · Контекст 128k · Moonshot AI · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP8 | 500 ГБ | Отличное | Оптимально |
| INT4/Q4 | 250 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP8, INT4 | Арендовать |
| 141 ГБ | FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Kimi-K2-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Moonshot AI
- Год выпуска
- 2025
- Параметры
- 1000B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
Kimi K2 — флагман Moonshot AI (июль 2025): ~1T параметров всего в MoE-конфигурации и ~32 млрд активных на токен (384 эксперта, 8 активных). Обучение на 15.5T токенах с Muon optimizer; внимание — в духе MLA (Multi-head Latent Attention) для более компактного KV.
Модель ориентирована на агентные и tool-use бенчмарки и часто фигурирует как state-of-the-art среди открытых весов в сценариях «LLM + инструменты». Локальный деплой — это большой multi-GPU узел (сотни гигабайт VRAM в fp8); без кластера H100/H200 realistic inference недоступен.
На Hugging Face ориентируйтесь на FP8-веса; в базовой Docker-команде не добавляйте --quantization, пока не убедитесь, что он нужен конкретному чекпойнту и версии vLLM.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Закажите инстанс с множеством H100 или H200 и низкой латентностью между картами. Одной GPU для полноразмерного fp8 обычно недостаточно.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
--model moonshotai/Kimi-K2-Instruct \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
Выставьте --tensor-parallel-size N по фактическому числу GPU (8 — пример для узла из восьми карт; при 4 GPU поставьте 4 и пересчитайте память).
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/Kimi-K2-Instruct",
"messages": [{"role": "user", "content": "Смоделируй вызовы tools: сначала спланируй шаги, затем верни JSON с полями tool_name и arguments для поиска погоды и чтения URL"}]
}'
Оптимизация
- Агентные сценарии: ограничивайте длину истории и число параллельных сессий — KV-cache растёт быстро
- Увеличьте
--shm-sizeи мониторьте NCCL/IB при деградации скорости на multi-GPU - Обновляйте vLLM осторожно: поддержка крупных MoE и MLA меняется; фиксируйте версию образа в production