Генерация изображений Apache-2.0

Kandinsky 2.2

Diffusion · Sber AI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 10 ГБ Максимальное Для продакшена
INT8 6 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
Sber AI
Год выпуска
2023
Архитектура
Diffusion
Лицензия
Apache-2.0
Разрешение
768x768
Формат вывода
PNG

Применение

Image generation Image-to-image Inpainting ControlNet Russian-language prompts

Kandinsky 2.2 — обновлённая версия Kandinsky 2.1 от Sber AI, выпущенная в июле 2023 года. Основные улучшения: поддержка Flash Attention для ускорения инференса, ControlNet для управления композицией, улучшенная генерация лиц и тел. Архитектура — латентная диффузия + CLIP, нативное разрешение 768×768.

Kandinsky 2.2 — последняя модель «второй» серии. Для новых проектов рекомендуем Kandinsky 5.0 Image Lite, но 2.2 по-прежнему хорош для бюджетных GPU с 8–10 ГБ VRAM.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Kandinsky 2.2 в fp16 требует ~10 ГБ VRAM, с квантизацией — от 6 ГБ. RTX 3090 или RTX 4090 подойдут с запасом.

Шаг 2 — Установите зависимости

pip install diffusers transformers accelerate torch

Шаг 3 — Сгенерируйте изображение

import torch
from diffusers import AutoPipelineForText2Image

pipe = AutoPipelineForText2Image.from_pretrained(
    "ai-forever/Kandinsky_2.2",
    torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")

image = pipe(
    "Современное кафе в стиле лофт, утренний свет через большие окна"
).images[0]
image.save("output.png")

Что нового по сравнению с 2.1

  • Flash Attention — ускорение инференса на 20–40% без потери качества
  • ControlNet — управление композицией через edge maps, позы, скетчи
  • Улучшенные лица — меньше деформаций, лучшая анатомия
  • Стабильнее при высоком CFG — меньше артефактов на краях

Ограничения

  • Разрешение 768×768 — ниже современных стандартов
  • Нет поддержки рендеринга кириллицы на изображениях (появилось в 5.0)
  • Ограниченная длина промпта из-за CLIP-энкодера

Связанные модели