Точность

VRAM

Качество

Рекомендация

FP16

24 ГБ

Максимальное

Для продакшена

INT8

12 ГБ

Хорошее

INT4/Q4

8 ГБ

Приемлемое

Для экспериментов

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 5090

32 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Sber AI
Год выпуска: 2025
Параметры: 6B
Архитектура: Flow Matching
Лицензия: MIT
Разрешение: 1024x1024
Формат вывода: PNG

Применение

Image generation Image editing Cyrillic text rendering Russian-language prompts Commercial use (MIT license)

Kandinsky 5.0 Image Lite — флагманская модель генерации изображений от Sber AI, выпущенная 15 ноября 2025 года. 6B параметров, архитектура Flow Matching с NABLA Attention — принципиально новый подход по сравнению с предыдущими версиями на латентной диффузии. Лицензия MIT — полностью свободна для коммерческого использования.

Главные преимущества Image Lite: нативная генерация кириллического текста на изображениях, понимание русскоязычных промптов без перевода (благодаря текстовому энкодеру Qwen2.5-VL), HD-разрешение и высокая детализация.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Image Lite в fp16 нужно ~24 ГБ VRAM. Оптимально — RTX 4090 или RTX 5090. С квантизацией до int8 достаточно 12 ГБ. Для батч-генерации и production-нагрузок — A100 или H100.

Шаг 2 — Запуск через diffusers

import torch
from diffusers import Kandinsky5T2IPipeline

pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

image = pipe("Вывеска «Кофейня» на старом здании, неоновый свет, вечер").images[0]
image.save("output.png")

Шаг 3 — Запуск через ComfyUI

Kandinsky 5.0 имеет официальную поддержку ComfyUI. Установите ноды из репозитория ai-forever и загрузите веса в каталог checkpoints.

Ключевые возможности

Кириллица на изображениях — рендерит русский текст: вывески, заголовки, логотипы
Русский контекст — понимает культурные реалии, имена, места
Image editing — inpainting, outpainting, стилизация
LoRA — поддержка дообучения через kandinsky-5-lora-train

Архитектура

Flow Matching — стабильнее и быстрее, чем DDPM/DDIM в предыдущих версиях
NABLA Attention — собственный механизм внимания Sber AI
3D VAE — из HunyuanVideo, общий для Image и Video моделей
Qwen2.5-VL — мультиязычный текстовый энкодер

Оптимизация

Используйте enable_model_cpu_offload() для работы на 12 ГБ VRAM
Для батч-генерации включайте VAE tiling
При production-нагрузках рассмотрите квантизацию int8 через bitsandbytes

Связанные модели

Kandinsky 5.0 Video Lite — видеогенерация (2B)
Kandinsky 5.0 Video Pro — видео высшего качества (19B)
Kandinsky 3.1 — предыдущее поколение
FLUX.1 Dev — альтернатива от Black Forest Labs
Stable Diffusion XL — альтернатива от Stability AI

Kandinsky 5.0 Image Lite

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запуск через diffusers

Шаг 3 — Запуск через ComfyUI

Ключевые возможности

Архитектура

Оптимизация

Связанные модели