Image Generation

Kandinsky

Семейство open-source моделей генерации изображений и видео от Sber AI с нативной поддержкой русского языка и кириллицы.

См. также — материалы

Что такое Kandinsky

Kandinsky — семейство генеративных моделей от Sber AI (подразделение «Сбера»), выпускаемых под лицензией MIT. Модели создают изображения и видео по текстовому описанию, поддерживают промпты на русском языке и умеют рендерить кириллический текст прямо на изображении — уникальное свойство среди open-source моделей.

Проект назван в честь художника Василия Кандинского, но не связан с ним — это чисто AI-продукт. Разработка ведётся командой AI-центра «Сбера» (репозитории: ai-forever на GitHub), веса публикуются на HuggingFace.

Kandinsky — одна из немногих моделей генерации, разработанных в России и ориентированных на русскоязычный контекст: понимание культурных реалий, имён, мест и устойчивых выражений.

История версий

Версия	Дата	Архитектура	Ключевые отличия
2.0	2023	Latent Diffusion + CLIP	Первый публичный релиз, text-to-image
2.1	апрель 2023	Latent Diffusion + CLIP	Улучшенное качество, inpainting, img2img
2.2	июль 2023	Latent Diffusion + CLIP	Flash Attention, ControlNet, улучшенные лица
3.0	ноябрь 2023	Latent Diffusion + Flan-UL2	Новый текстовый энкодер, 1024×1024, лучшее следование промпту
3.1	май 2024	Latent Diffusion + Flan-UL2	Улучшенная детализация, меньше артефактов
5.0	ноябрь 2025	Flow Matching + NABLA Attention + 3D VAE	Три модели (Image Lite, Video Lite, Video Pro), HD, русский текст на изображениях

Версия 4.0 не существует — нумерация перескочила с 3.1 на 5.0. Запросы «kandinsky 4.0» относятся к несуществующему продукту; актуальная версия — 5.0.

Архитектура Kandinsky 5.0

Kandinsky 5.0 построен на принципиально новой архитектуре по сравнению с предыдущими версиями:

Flow Matching вместо стандартного DDPM/DDIM — более стабильная генерация с меньшим числом шагов
NABLA Attention — собственный механизм внимания, оптимизированный для генеративных задач
3D VAE из HunyuanVideo — единый VAE для изображений и видео, обеспечивает когерентность кадров
Qwen2.5-VL в качестве текстового энкодера — мультиязычный, понимает русский на уровне родного языка
Поддержка diffusers — интеграция в экосистему Hugging Face из коробки

Три модели семейства 5.0

Модель	Параметры	Формат	Разрешение	VRAM (мин.)	Особенности
Image Lite	6B	Изображения	HD	12 ГБ	Text-to-image, image editing, кириллица на изображениях
Video Lite	2B	Видео 5–10 с	HD, 24fps	12 ГБ (offload)	Text-to-video, image-to-video, работает на consumer GPU
Video Pro	19B	Видео 5–10 с	HD, 24fps	48 ГБ+	#1 open-source T2V на LMArena (дек. 2025), сравним с Veo 3

Image Lite — основная модель для генерации картинок. Video Lite рассчитан на доступные GPU (RTX 3090/4090), Video Pro требует серверных карт (A100/H100), но даёт качество на уровне лучших закрытых моделей.

Лицензия и коммерческое использование

Все модели Kandinsky 5.0 выпущены под лицензией MIT — полностью свободной для коммерческого использования. Можно:

Генерировать контент для продажи
Встраивать в коммерческие продукты и API
Обучать LoRA и производные модели
Разворачивать на своей инфраструктуре без ограничений

Это выгодно отличает Kandinsky от FLUX.1 dev (non-commercial) и Stable Diffusion 3 (Stability AI Community License с ограничениями).

Русский язык и кириллица

Kandinsky — единственная крупная open-source модель генерации, которая:

Нативно понимает промпты на русском — не через машинный перевод, а благодаря Qwen2.5-VL, обученному на русскоязычных данных
Рендерит кириллический текст прямо на изображениях — вывески, заголовки, логотипы на русском
Знает российский культурный контекст — архитектуру, одежду, еду, пейзажи, имена

Для проектов, ориентированных на русскоязычную аудиторию, это критическое преимущество.

Kandinsky vs Stable Diffusion vs FLUX

Параметр	Kandinsky 5.0	Stable Diffusion XL	FLUX.1 dev
Разработчик	Sber AI	Stability AI	Black Forest Labs
Лицензия	MIT	Apache 2.0	Non-commercial
Русский язык	Нативный	Через перевод	Через перевод
Кириллица на изображениях	Да	Нет	Частично (латиница лучше)
Видео	Да (Video Lite/Pro)	Нет	Нет
VRAM (минимум)	12 ГБ	8 ГБ	12 ГБ
Качество изображений	Высокое	Хорошее	Отличное
Экосистема LoRA	Растёт	Огромная	Растёт

Если задача — русскоязычный контент, видео или коммерческое использование без ограничений лицензии — Kandinsky оптимальный выбор. Для максимального качества статичных изображений с английскими промптами FLUX остаётся сильнее.

Как запустить Kandinsky

Самый быстрый способ — арендовать GPU и запустить через готовый шаблон CloudCompute. Подробное руководство по запуску, выбору GPU и настройке — на странице решения.

Минимальный пример через diffusers:

import torch
from diffusers import Kandinsky5T2IPipeline

pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

image = pipe("Осенний парк в Петербурге, золотые листья, мягкий свет").images[0]
image.save("output.png")

Kandinsky также поддерживает запуск через ComfyUI — официальные ноды доступны в репозитории проекта.

Для генерации видео смотрите Kandinsky Video на GPU, для обучения собственных LoRA — LoRA fine-tuning Kandinsky.

Все модели Kandinsky

Kandinsky 5.0 Image Lite — 6B, text-to-image + editing
Kandinsky 5.0 Video Lite — 2B, text-to-video 5–10 с
Kandinsky 5.0 Video Pro — 19B, #1 open-source T2V
Kandinsky 3.1 — предыдущее поколение, стабильное и проверенное
Kandinsky 2.2 — legacy, работает на 8 ГБ VRAM
Kandinsky 2.1 — legacy, большая экосистема

Ссылки

GitHub: ai-forever — репозитории Sber AI
HuggingFace: ai-forever — веса моделей
fusionbrain.ai — бесплатный онлайн-интерфейс от Sber (с ограничениями)
kandinsky-5-lora-train — обучение LoRA

Связанные термины

Stable Diffusion — семейство моделей Stability AI
FLUX — диффузионные модели Black Forest Labs
ComfyUI — node-based UI, поддерживает Kandinsky
LoRA — адаптеры для стилизации и дообучения
VAE — кодировщик/декодировщик латентного пространства

Готовы запустить GPU-задачу?

Запустить GPU-сервер