Генерация изображений MIT

Kandinsky 5.0 Image Lite

6B параметров · Flow Matching · Sber AI · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 24 ГБ Максимальное Для продакшена
INT8 12 ГБ Хорошее
INT4/Q4 8 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
32 ГБ FP16, INT8, INT4 Арендовать
80 ГБ FP16, INT8, INT4 Арендовать
80 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
Sber AI
Год выпуска
2025
Параметры
6B
Архитектура
Flow Matching
Лицензия
MIT
Разрешение
1024x1024
Формат вывода
PNG

Применение

Image generation Image editing Cyrillic text rendering Russian-language prompts Commercial use (MIT license)

Kandinsky 5.0 Image Lite — флагманская модель генерации изображений от Sber AI, выпущенная 15 ноября 2025 года. 6B параметров, архитектура Flow Matching с NABLA Attention — принципиально новый подход по сравнению с предыдущими версиями на латентной диффузии. Лицензия MIT — полностью свободна для коммерческого использования.

Главные преимущества Image Lite: нативная генерация кириллического текста на изображениях, понимание русскоязычных промптов без перевода (благодаря текстовому энкодеру Qwen2.5-VL), HD-разрешение и высокая детализация.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Image Lite в fp16 нужно ~24 ГБ VRAM. Оптимально — RTX 4090 или RTX 5090. С квантизацией до int8 достаточно 12 ГБ. Для батч-генерации и production-нагрузок — A100 или H100.

Шаг 2 — Запуск через diffusers

import torch
from diffusers import Kandinsky5T2IPipeline

pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

image = pipe("Вывеска «Кофейня» на старом здании, неоновый свет, вечер").images[0]
image.save("output.png")

Шаг 3 — Запуск через ComfyUI

Kandinsky 5.0 имеет официальную поддержку ComfyUI. Установите ноды из репозитория ai-forever и загрузите веса в каталог checkpoints.

Ключевые возможности

  • Кириллица на изображениях — рендерит русский текст: вывески, заголовки, логотипы
  • Русский контекст — понимает культурные реалии, имена, места
  • Image editinginpainting, outpainting, стилизация
  • LoRA — поддержка дообучения через kandinsky-5-lora-train

Архитектура

  • Flow Matching — стабильнее и быстрее, чем DDPM/DDIM в предыдущих версиях
  • NABLA Attention — собственный механизм внимания Sber AI
  • 3D VAE — из HunyuanVideo, общий для Image и Video моделей
  • Qwen2.5-VL — мультиязычный текстовый энкодер

Оптимизация

  • Используйте enable_model_cpu_offload() для работы на 12 ГБ VRAM
  • Для батч-генерации включайте VAE tiling
  • При production-нагрузках рассмотрите квантизацию int8 через bitsandbytes

Связанные модели