Генерация изображений
Apache-2.0
Kandinsky 2.1
Diffusion · Sber AI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 10 ГБ | Максимальное | Для продакшена |
| INT8 | 6 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Sber AI
- Год выпуска
- 2023
- Архитектура
- Diffusion
- Лицензия
- Apache-2.0
- Разрешение
- 768x768
- Формат вывода
- PNG
Применение
Image generation
Image-to-image
Inpainting
Russian-language prompts
Kandinsky 2.1 — одна из первых публичных моделей генерации изображений от Sber AI, выпущенная в апреле 2023 года. Архитектура — латентная диффузия с CLIP в качестве текстового энкодера, нативное разрешение 768×768. Поддерживает text-to-image, img2img и inpainting.
Несмотря на возраст, Kandinsky 2.1 остаётся интересной для бюджетных сценариев: работает на GPU с 6–10 ГБ VRAM и имеет обширную экосистему примеров и интеграций. Для актуальных проектов рекомендуем Kandinsky 5.0 Image Lite.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Kandinsky 2.1 работает от ~10 ГБ VRAM в fp16, при квантизации — от 6 ГБ. Подойдёт RTX 3090 или RTX 4090.
Шаг 2 — Установите зависимости
pip install diffusers transformers accelerate torch
Шаг 3 — Сгенерируйте изображение
import torch
from diffusers import AutoPipelineForText2Image
pipe = AutoPipelineForText2Image.from_pretrained(
"ai-forever/Kandinsky_2.1",
torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")
image = pipe("Котёнок спит на подоконнике, акварельный стиль").images[0]
image.save("output.png")
Возможности
- Text-to-image — генерация по текстовому описанию на русском и английском
- Image-to-image — стилизация и модификация существующих изображений
- Inpainting — замена выделенной области изображения по промпту
Ограничения
- Разрешение 768×768 — ниже, чем у SDXL (1024×1024) и Kandinsky 5.0 (HD)
- Текстовый энкодер CLIP хуже понимает длинные и сложные промпты по сравнению с более новыми моделями
- Нет поддержки рендеринга текста на изображениях
Связанные модели
- Kandinsky 2.2 — улучшенная версия
- Kandinsky 3.1 — следующее поколение
- Kandinsky 5.0 Image Lite — актуальная версия
- Stable Diffusion 1.5 — аналог по VRAM-требованиям