Kandinsky 5.0 Image Lite
6B параметров · Flow Matching · Sber AI · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 24 ГБ | Максимальное | Для продакшена |
| INT8 | 12 ГБ | Хорошее | |
| INT4/Q4 | 8 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 32 ГБ | FP16, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Sber AI
- Год выпуска
- 2025
- Параметры
- 6B
- Архитектура
- Flow Matching
- Лицензия
- MIT
- Разрешение
- 1024x1024
- Формат вывода
- PNG
Применение
Kandinsky 5.0 Image Lite — флагманская модель генерации изображений от Sber AI, выпущенная 15 ноября 2025 года. 6B параметров, архитектура Flow Matching с NABLA Attention — принципиально новый подход по сравнению с предыдущими версиями на латентной диффузии. Лицензия MIT — полностью свободна для коммерческого использования.
Главные преимущества Image Lite: нативная генерация кириллического текста на изображениях, понимание русскоязычных промптов без перевода (благодаря текстовому энкодеру Qwen2.5-VL), HD-разрешение и высокая детализация.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Image Lite в fp16 нужно ~24 ГБ VRAM. Оптимально — RTX 4090 или RTX 5090. С квантизацией до int8 достаточно 12 ГБ. Для батч-генерации и production-нагрузок — A100 или H100.
Шаг 2 — Запуск через diffusers
import torch
from diffusers import Kandinsky5T2IPipeline
pipe = Kandinsky5T2IPipeline.from_pretrained(
"kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")
image = pipe("Вывеска «Кофейня» на старом здании, неоновый свет, вечер").images[0]
image.save("output.png")
Шаг 3 — Запуск через ComfyUI
Kandinsky 5.0 имеет официальную поддержку ComfyUI. Установите ноды из репозитория ai-forever и загрузите веса в каталог checkpoints.
Ключевые возможности
- Кириллица на изображениях — рендерит русский текст: вывески, заголовки, логотипы
- Русский контекст — понимает культурные реалии, имена, места
- Image editing — inpainting, outpainting, стилизация
- LoRA — поддержка дообучения через kandinsky-5-lora-train
Архитектура
- Flow Matching — стабильнее и быстрее, чем DDPM/DDIM в предыдущих версиях
- NABLA Attention — собственный механизм внимания Sber AI
- 3D VAE — из HunyuanVideo, общий для Image и Video моделей
- Qwen2.5-VL — мультиязычный текстовый энкодер
Оптимизация
- Используйте
enable_model_cpu_offload()для работы на 12 ГБ VRAM - Для батч-генерации включайте VAE tiling
- При production-нагрузках рассмотрите квантизацию int8 через bitsandbytes
Связанные модели
- Kandinsky 5.0 Video Lite — видеогенерация (2B)
- Kandinsky 5.0 Video Pro — видео высшего качества (19B)
- Kandinsky 3.1 — предыдущее поколение
- FLUX.1 Dev — альтернатива от Black Forest Labs
- Stable Diffusion XL — альтернатива от Stability AI