Точность

VRAM

Качество

Рекомендация

FP16

10 ГБ

Максимальное

Для продакшена

INT8

6 ГБ

Хорошее

INT4/Q4

4 ГБ

Приемлемое

Для экспериментов

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Sber AI
Год выпуска: 2023
Архитектура: Diffusion
Лицензия: Apache-2.0
Разрешение: 768x768
Формат вывода: PNG

Применение

Image generation Image-to-image Inpainting Russian-language prompts

Kandinsky 2.1 — одна из первых публичных моделей генерации изображений от Sber AI, выпущенная в апреле 2023 года. Архитектура — латентная диффузия с CLIP в качестве текстового энкодера, нативное разрешение 768×768. Поддерживает text-to-image, img2img и inpainting.

Несмотря на возраст, Kandinsky 2.1 остаётся интересной для бюджетных сценариев: работает на GPU с 6–10 ГБ VRAM и имеет обширную экосистему примеров и интеграций. Для актуальных проектов рекомендуем Kandinsky 5.0 Image Lite.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Kandinsky 2.1 работает от ~10 ГБ VRAM в fp16, при квантизации — от 6 ГБ. Подойдёт RTX 3090 или RTX 4090.

Шаг 2 — Установите зависимости

pip install diffusers transformers accelerate torch

Шаг 3 — Сгенерируйте изображение

import torch
from diffusers import AutoPipelineForText2Image

pipe = AutoPipelineForText2Image.from_pretrained(
    "ai-forever/Kandinsky_2.1",
    torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")

image = pipe("Котёнок спит на подоконнике, акварельный стиль").images[0]
image.save("output.png")

Возможности

Text-to-image — генерация по текстовому описанию на русском и английском
Image-to-image — стилизация и модификация существующих изображений
Inpainting — замена выделенной области изображения по промпту

Ограничения

Разрешение 768×768 — ниже, чем у SDXL (1024×1024) и Kandinsky 5.0 (HD)
Текстовый энкодер CLIP хуже понимает длинные и сложные промпты по сравнению с более новыми моделями
Нет поддержки рендеринга текста на изображениях

Связанные модели

Kandinsky 2.2 — улучшенная версия
Kandinsky 3.1 — следующее поколение
Kandinsky 5.0 Image Lite — актуальная версия
Stable Diffusion 1.5 — аналог по VRAM-требованиям

Kandinsky 2.1

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки