Kandinsky 3.1
Diffusion · Sber AI · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 16 ГБ | Максимальное | Для продакшена |
| INT8 | 10 ГБ | Хорошее | |
| INT4/Q4 | 8 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Sber AI
- Год выпуска
- 2024
- Архитектура
- Diffusion
- Лицензия
- Apache-2.0
- Разрешение
- 1024x1024
- Формат вывода
- PNG
Применение
Kandinsky 3.1 — предпоследнее поколение моделей генерации изображений от Sber AI. Выпущена в мае 2024 года как итеративное улучшение Kandinsky 3.0: лучшая детализация, меньше артефактов на лицах и руках, более точное следование промпту. Архитектура — латентная диффузия с текстовым энкодером Flan-UL2, нативное разрешение 1024×1024.
Kandinsky 3.1 остаётся актуальной для задач, где не нужна видеогенерация и достаточно стабильного, проверенного качества. Если нужно максимальное качество или видео — смотрите Kandinsky 5.0 Image Lite и Kandinsky 5.0 Video.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Kandinsky 3.1 в fp16 нужно от ~16 ГБ VRAM. Оптимальный выбор — RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ). Для квантизованных версий подойдут карты с 10 ГБ.
Шаг 2 — Установите зависимости
pip install diffusers transformers accelerate torch
Шаг 3 — Сгенерируйте изображение
import torch
from diffusers import AutoPipelineForText2Image
pipe = AutoPipelineForText2Image.from_pretrained(
"kandinsky-community/kandinsky-3",
variant="fp16",
torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()
image = pipe("Старинная улица Петербурга зимой, мягкий снег, вечернее освещение").images[0]
image.save("output.png")
Отличия от Kandinsky 3.0
- Улучшенная генерация лиц и рук — меньше деформаций
- Более точное следование длинным промптам
- Лучшая детализация текстур на одежде и поверхностях
- Оптимизация скорости инференса
Что выбрать: 3.1 или 5.0?
Kandinsky 3.1 подойдёт, если:
- У вас GPU с 16 ГБ VRAM и не нужна видеогенерация
- Вы используете существующие пайплайны на diffusers, проверенные с 3.x
- Нужна стабильная, предсказуемая генерация без обновления инфраструктуры
Для новых проектов рекомендуем Kandinsky 5.0 Image Lite — лучшее качество, поддержка кириллического текста на изображениях, MIT-лицензия.
Связанные модели
- Kandinsky 5.0 Image Lite — актуальное поколение
- Kandinsky 2.2 — предыдущая версия
- Kandinsky 2.1 — legacy с большой экосистемой
- Stable Diffusion XL — альтернатива от Stability AI