Image Generation

Kandinsky

Семейство open-source моделей генерации изображений и видео от Sber AI с нативной поддержкой русского языка и кириллицы.

Что такое Kandinsky

Kandinsky — семейство генеративных моделей от Sber AI (подразделение «Сбера»), выпускаемых под лицензией MIT. Модели создают изображения и видео по текстовому описанию, поддерживают промпты на русском языке и умеют рендерить кириллический текст прямо на изображении — уникальное свойство среди open-source моделей.

Проект назван в честь художника Василия Кандинского, но не связан с ним — это чисто AI-продукт. Разработка ведётся командой AI-центра «Сбера» (репозитории: ai-forever на GitHub), веса публикуются на HuggingFace.

Kandinsky — одна из немногих моделей генерации, разработанных в России и ориентированных на русскоязычный контекст: понимание культурных реалий, имён, мест и устойчивых выражений.

История версий

Версия Дата Архитектура Ключевые отличия
2.0 2023 Latent Diffusion + CLIP Первый публичный релиз, text-to-image
2.1 апрель 2023 Latent Diffusion + CLIP Улучшенное качество, inpainting, img2img
2.2 июль 2023 Latent Diffusion + CLIP Flash Attention, ControlNet, улучшенные лица
3.0 ноябрь 2023 Latent Diffusion + Flan-UL2 Новый текстовый энкодер, 1024×1024, лучшее следование промпту
3.1 май 2024 Latent Diffusion + Flan-UL2 Улучшенная детализация, меньше артефактов
5.0 ноябрь 2025 Flow Matching + NABLA Attention + 3D VAE Три модели (Image Lite, Video Lite, Video Pro), HD, русский текст на изображениях

Версия 4.0 не существует — нумерация перескочила с 3.1 на 5.0. Запросы «kandinsky 4.0» относятся к несуществующему продукту; актуальная версия — 5.0.

Архитектура Kandinsky 5.0

Kandinsky 5.0 построен на принципиально новой архитектуре по сравнению с предыдущими версиями:

  • Flow Matching вместо стандартного DDPM/DDIM — более стабильная генерация с меньшим числом шагов
  • NABLA Attention — собственный механизм внимания, оптимизированный для генеративных задач
  • 3D VAE из HunyuanVideo — единый VAE для изображений и видео, обеспечивает когерентность кадров
  • Qwen2.5-VL в качестве текстового энкодера — мультиязычный, понимает русский на уровне родного языка
  • Поддержка diffusers — интеграция в экосистему Hugging Face из коробки

Три модели семейства 5.0

Модель Параметры Формат Разрешение VRAM (мин.) Особенности
Image Lite 6B Изображения HD 12 ГБ Text-to-image, image editing, кириллица на изображениях
Video Lite 2B Видео 5–10 с HD, 24fps 12 ГБ (offload) Text-to-video, image-to-video, работает на consumer GPU
Video Pro 19B Видео 5–10 с HD, 24fps 48 ГБ+ #1 open-source T2V на LMArena (дек. 2025), сравним с Veo 3

Image Lite — основная модель для генерации картинок. Video Lite рассчитан на доступные GPU (RTX 3090/4090), Video Pro требует серверных карт (A100/H100), но даёт качество на уровне лучших закрытых моделей.

Лицензия и коммерческое использование

Все модели Kandinsky 5.0 выпущены под лицензией MIT — полностью свободной для коммерческого использования. Можно:

  • Генерировать контент для продажи
  • Встраивать в коммерческие продукты и API
  • Обучать LoRA и производные модели
  • Разворачивать на своей инфраструктуре без ограничений

Это выгодно отличает Kandinsky от FLUX.1 dev (non-commercial) и Stable Diffusion 3 (Stability AI Community License с ограничениями).

Русский язык и кириллица

Kandinsky — единственная крупная open-source модель генерации, которая:

  • Нативно понимает промпты на русском — не через машинный перевод, а благодаря Qwen2.5-VL, обученному на русскоязычных данных
  • Рендерит кириллический текст прямо на изображениях — вывески, заголовки, логотипы на русском
  • Знает российский культурный контекст — архитектуру, одежду, еду, пейзажи, имена

Для проектов, ориентированных на русскоязычную аудиторию, это критическое преимущество.

Kandinsky vs Stable Diffusion vs FLUX

Параметр Kandinsky 5.0 Stable Diffusion XL FLUX.1 dev
Разработчик Sber AI Stability AI Black Forest Labs
Лицензия MIT Apache 2.0 Non-commercial
Русский язык Нативный Через перевод Через перевод
Кириллица на изображениях Да Нет Частично (латиница лучше)
Видео Да (Video Lite/Pro) Нет Нет
VRAM (минимум) 12 ГБ 8 ГБ 12 ГБ
Качество изображений Высокое Хорошее Отличное
Экосистема LoRA Растёт Огромная Растёт

Если задача — русскоязычный контент, видео или коммерческое использование без ограничений лицензии — Kandinsky оптимальный выбор. Для максимального качества статичных изображений с английскими промптами FLUX остаётся сильнее.

Как запустить Kandinsky

Самый быстрый способ — арендовать GPU и запустить через готовый шаблон CloudCompute. Подробное руководство по запуску, выбору GPU и настройке — на странице решения.

Минимальный пример через diffusers:

import torch
from diffusers import Kandinsky5T2IPipeline

pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

image = pipe("Осенний парк в Петербурге, золотые листья, мягкий свет").images[0]
image.save("output.png")

Kandinsky также поддерживает запуск через ComfyUI — официальные ноды доступны в репозитории проекта.

Для генерации видео смотрите Kandinsky Video на GPU, для обучения собственных LoRA — LoRA fine-tuning Kandinsky.

Все модели Kandinsky

Ссылки

Связанные термины

  • Stable Diffusion — семейство моделей Stability AI
  • FLUX — диффузионные модели Black Forest Labs
  • ComfyUI — node-based UI, поддерживает Kandinsky
  • LoRA — адаптеры для стилизации и дообучения
  • VAE — кодировщик/декодировщик латентного пространства

Готовы запустить GPU-задачу?

Запустить GPU-сервер