Генерация изображений Apache-2.0

Kandinsky 2.1

Diffusion · Sber AI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 10 ГБ Максимальное Для продакшена
INT8 6 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
Sber AI
Год выпуска
2023
Архитектура
Diffusion
Лицензия
Apache-2.0
Разрешение
768x768
Формат вывода
PNG

Применение

Image generation Image-to-image Inpainting Russian-language prompts

Kandinsky 2.1 — одна из первых публичных моделей генерации изображений от Sber AI, выпущенная в апреле 2023 года. Архитектура — латентная диффузия с CLIP в качестве текстового энкодера, нативное разрешение 768×768. Поддерживает text-to-image, img2img и inpainting.

Несмотря на возраст, Kandinsky 2.1 остаётся интересной для бюджетных сценариев: работает на GPU с 6–10 ГБ VRAM и имеет обширную экосистему примеров и интеграций. Для актуальных проектов рекомендуем Kandinsky 5.0 Image Lite.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Kandinsky 2.1 работает от ~10 ГБ VRAM в fp16, при квантизации — от 6 ГБ. Подойдёт RTX 3090 или RTX 4090.

Шаг 2 — Установите зависимости

pip install diffusers transformers accelerate torch

Шаг 3 — Сгенерируйте изображение

import torch
from diffusers import AutoPipelineForText2Image

pipe = AutoPipelineForText2Image.from_pretrained(
    "ai-forever/Kandinsky_2.1",
    torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")

image = pipe("Котёнок спит на подоконнике, акварельный стиль").images[0]
image.save("output.png")

Возможности

  • Text-to-image — генерация по текстовому описанию на русском и английском
  • Image-to-image — стилизация и модификация существующих изображений
  • Inpainting — замена выделенной области изображения по промпту

Ограничения

  • Разрешение 768×768 — ниже, чем у SDXL (1024×1024) и Kandinsky 5.0 (HD)
  • Текстовый энкодер CLIP хуже понимает длинные и сложные промпты по сравнению с более новыми моделями
  • Нет поддержки рендеринга текста на изображениях

Связанные модели