Kandinsky
Семейство open-source моделей генерации изображений и видео от Sber AI с нативной поддержкой русского языка и кириллицы.
См. также — материалы
Что такое Kandinsky
Kandinsky — семейство генеративных моделей от Sber AI (подразделение «Сбера»), выпускаемых под лицензией MIT. Модели создают изображения и видео по текстовому описанию, поддерживают промпты на русском языке и умеют рендерить кириллический текст прямо на изображении — уникальное свойство среди open-source моделей.
Проект назван в честь художника Василия Кандинского, но не связан с ним — это чисто AI-продукт. Разработка ведётся командой AI-центра «Сбера» (репозитории: ai-forever на GitHub), веса публикуются на HuggingFace.
Kandinsky — одна из немногих моделей генерации, разработанных в России и ориентированных на русскоязычный контекст: понимание культурных реалий, имён, мест и устойчивых выражений.
История версий
| Версия | Дата | Архитектура | Ключевые отличия |
|---|---|---|---|
| 2.0 | 2023 | Latent Diffusion + CLIP | Первый публичный релиз, text-to-image |
| 2.1 | апрель 2023 | Latent Diffusion + CLIP | Улучшенное качество, inpainting, img2img |
| 2.2 | июль 2023 | Latent Diffusion + CLIP | Flash Attention, ControlNet, улучшенные лица |
| 3.0 | ноябрь 2023 | Latent Diffusion + Flan-UL2 | Новый текстовый энкодер, 1024×1024, лучшее следование промпту |
| 3.1 | май 2024 | Latent Diffusion + Flan-UL2 | Улучшенная детализация, меньше артефактов |
| 5.0 | ноябрь 2025 | Flow Matching + NABLA Attention + 3D VAE | Три модели (Image Lite, Video Lite, Video Pro), HD, русский текст на изображениях |
Версия 4.0 не существует — нумерация перескочила с 3.1 на 5.0. Запросы «kandinsky 4.0» относятся к несуществующему продукту; актуальная версия — 5.0.
Архитектура Kandinsky 5.0
Kandinsky 5.0 построен на принципиально новой архитектуре по сравнению с предыдущими версиями:
- Flow Matching вместо стандартного DDPM/DDIM — более стабильная генерация с меньшим числом шагов
- NABLA Attention — собственный механизм внимания, оптимизированный для генеративных задач
- 3D VAE из HunyuanVideo — единый VAE для изображений и видео, обеспечивает когерентность кадров
- Qwen2.5-VL в качестве текстового энкодера — мультиязычный, понимает русский на уровне родного языка
- Поддержка diffusers — интеграция в экосистему Hugging Face из коробки
Три модели семейства 5.0
| Модель | Параметры | Формат | Разрешение | VRAM (мин.) | Особенности |
|---|---|---|---|---|---|
| Image Lite | 6B | Изображения | HD | 12 ГБ | Text-to-image, image editing, кириллица на изображениях |
| Video Lite | 2B | Видео 5–10 с | HD, 24fps | 12 ГБ (offload) | Text-to-video, image-to-video, работает на consumer GPU |
| Video Pro | 19B | Видео 5–10 с | HD, 24fps | 48 ГБ+ | #1 open-source T2V на LMArena (дек. 2025), сравним с Veo 3 |
Image Lite — основная модель для генерации картинок. Video Lite рассчитан на доступные GPU (RTX 3090/4090), Video Pro требует серверных карт (A100/H100), но даёт качество на уровне лучших закрытых моделей.
Лицензия и коммерческое использование
Все модели Kandinsky 5.0 выпущены под лицензией MIT — полностью свободной для коммерческого использования. Можно:
- Генерировать контент для продажи
- Встраивать в коммерческие продукты и API
- Обучать LoRA и производные модели
- Разворачивать на своей инфраструктуре без ограничений
Это выгодно отличает Kandinsky от FLUX.1 dev (non-commercial) и Stable Diffusion 3 (Stability AI Community License с ограничениями).
Русский язык и кириллица
Kandinsky — единственная крупная open-source модель генерации, которая:
- Нативно понимает промпты на русском — не через машинный перевод, а благодаря Qwen2.5-VL, обученному на русскоязычных данных
- Рендерит кириллический текст прямо на изображениях — вывески, заголовки, логотипы на русском
- Знает российский культурный контекст — архитектуру, одежду, еду, пейзажи, имена
Для проектов, ориентированных на русскоязычную аудиторию, это критическое преимущество.
Kandinsky vs Stable Diffusion vs FLUX
| Параметр | Kandinsky 5.0 | Stable Diffusion XL | FLUX.1 dev |
|---|---|---|---|
| Разработчик | Sber AI | Stability AI | Black Forest Labs |
| Лицензия | MIT | Apache 2.0 | Non-commercial |
| Русский язык | Нативный | Через перевод | Через перевод |
| Кириллица на изображениях | Да | Нет | Частично (латиница лучше) |
| Видео | Да (Video Lite/Pro) | Нет | Нет |
| VRAM (минимум) | 12 ГБ | 8 ГБ | 12 ГБ |
| Качество изображений | Высокое | Хорошее | Отличное |
| Экосистема LoRA | Растёт | Огромная | Растёт |
Если задача — русскоязычный контент, видео или коммерческое использование без ограничений лицензии — Kandinsky оптимальный выбор. Для максимального качества статичных изображений с английскими промптами FLUX остаётся сильнее.
Как запустить Kandinsky
Самый быстрый способ — арендовать GPU и запустить через готовый шаблон CloudCompute. Подробное руководство по запуску, выбору GPU и настройке — на странице решения.
Минимальный пример через diffusers:
import torch
from diffusers import Kandinsky5T2IPipeline
pipe = Kandinsky5T2IPipeline.from_pretrained(
"kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")
image = pipe("Осенний парк в Петербурге, золотые листья, мягкий свет").images[0]
image.save("output.png")
Kandinsky также поддерживает запуск через ComfyUI — официальные ноды доступны в репозитории проекта.
Для генерации видео смотрите Kandinsky Video на GPU, для обучения собственных LoRA — LoRA fine-tuning Kandinsky.
Все модели Kandinsky
- Kandinsky 5.0 Image Lite — 6B, text-to-image + editing
- Kandinsky 5.0 Video Lite — 2B, text-to-video 5–10 с
- Kandinsky 5.0 Video Pro — 19B, #1 open-source T2V
- Kandinsky 3.1 — предыдущее поколение, стабильное и проверенное
- Kandinsky 2.2 — legacy, работает на 8 ГБ VRAM
- Kandinsky 2.1 — legacy, большая экосистема
Ссылки
- GitHub: ai-forever — репозитории Sber AI
- HuggingFace: ai-forever — веса моделей
- fusionbrain.ai — бесплатный онлайн-интерфейс от Sber (с ограничениями)
- kandinsky-5-lora-train — обучение LoRA
Связанные термины
- Stable Diffusion — семейство моделей Stability AI
- FLUX — диффузионные модели Black Forest Labs
- ComfyUI — node-based UI, поддерживает Kandinsky
- LoRA — адаптеры для стилизации и дообучения
- VAE — кодировщик/декодировщик латентного пространства
Готовы запустить GPU-задачу?
Запустить GPU-сервер