Генерация изображений
Apache-2.0
Kandinsky 2.2
Diffusion · Sber AI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 10 ГБ | Максимальное | Для продакшена |
| INT8 | 6 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Sber AI
- Год выпуска
- 2023
- Архитектура
- Diffusion
- Лицензия
- Apache-2.0
- Разрешение
- 768x768
- Формат вывода
- PNG
Применение
Image generation
Image-to-image
Inpainting
ControlNet
Russian-language prompts
Kandinsky 2.2 — обновлённая версия Kandinsky 2.1 от Sber AI, выпущенная в июле 2023 года. Основные улучшения: поддержка Flash Attention для ускорения инференса, ControlNet для управления композицией, улучшенная генерация лиц и тел. Архитектура — латентная диффузия + CLIP, нативное разрешение 768×768.
Kandinsky 2.2 — последняя модель «второй» серии. Для новых проектов рекомендуем Kandinsky 5.0 Image Lite, но 2.2 по-прежнему хорош для бюджетных GPU с 8–10 ГБ VRAM.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Kandinsky 2.2 в fp16 требует ~10 ГБ VRAM, с квантизацией — от 6 ГБ. RTX 3090 или RTX 4090 подойдут с запасом.
Шаг 2 — Установите зависимости
pip install diffusers transformers accelerate torch
Шаг 3 — Сгенерируйте изображение
import torch
from diffusers import AutoPipelineForText2Image
pipe = AutoPipelineForText2Image.from_pretrained(
"ai-forever/Kandinsky_2.2",
torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")
image = pipe(
"Современное кафе в стиле лофт, утренний свет через большие окна"
).images[0]
image.save("output.png")
Что нового по сравнению с 2.1
- Flash Attention — ускорение инференса на 20–40% без потери качества
- ControlNet — управление композицией через edge maps, позы, скетчи
- Улучшенные лица — меньше деформаций, лучшая анатомия
- Стабильнее при высоком CFG — меньше артефактов на краях
Ограничения
- Разрешение 768×768 — ниже современных стандартов
- Нет поддержки рендеринга кириллицы на изображениях (появилось в 5.0)
- Ограниченная длина промпта из-за CLIP-энкодера
Связанные модели
- Kandinsky 2.1 — предыдущая версия
- Kandinsky 3.1 — следующее поколение
- Kandinsky 5.0 Image Lite — актуальная версия
- Stable Diffusion XL — аналог по поколению