Генерация изображений Apache-2.0

Kandinsky 3.1

Diffusion · Sber AI · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 16 ГБ Максимальное Для продакшена
INT8 10 ГБ Хорошее
INT4/Q4 8 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать
80 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
Sber AI
Год выпуска
2024
Архитектура
Diffusion
Лицензия
Apache-2.0
Разрешение
1024x1024
Формат вывода
PNG

Применение

Image generation Image-to-image Russian-language prompts

Kandinsky 3.1 — предпоследнее поколение моделей генерации изображений от Sber AI. Выпущена в мае 2024 года как итеративное улучшение Kandinsky 3.0: лучшая детализация, меньше артефактов на лицах и руках, более точное следование промпту. Архитектура — латентная диффузия с текстовым энкодером Flan-UL2, нативное разрешение 1024×1024.

Kandinsky 3.1 остаётся актуальной для задач, где не нужна видеогенерация и достаточно стабильного, проверенного качества. Если нужно максимальное качество или видео — смотрите Kandinsky 5.0 Image Lite и Kandinsky 5.0 Video.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Kandinsky 3.1 в fp16 нужно от ~16 ГБ VRAM. Оптимальный выбор — RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ). Для квантизованных версий подойдут карты с 10 ГБ.

Шаг 2 — Установите зависимости

pip install diffusers transformers accelerate torch

Шаг 3 — Сгенерируйте изображение

import torch
from diffusers import AutoPipelineForText2Image

pipe = AutoPipelineForText2Image.from_pretrained(
    "kandinsky-community/kandinsky-3",
    variant="fp16",
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

image = pipe("Старинная улица Петербурга зимой, мягкий снег, вечернее освещение").images[0]
image.save("output.png")

Отличия от Kandinsky 3.0

  • Улучшенная генерация лиц и рук — меньше деформаций
  • Более точное следование длинным промптам
  • Лучшая детализация текстур на одежде и поверхностях
  • Оптимизация скорости инференса

Что выбрать: 3.1 или 5.0?

Kandinsky 3.1 подойдёт, если:

  • У вас GPU с 16 ГБ VRAM и не нужна видеогенерация
  • Вы используете существующие пайплайны на diffusers, проверенные с 3.x
  • Нужна стабильная, предсказуемая генерация без обновления инфраструктуры

Для новых проектов рекомендуем Kandinsky 5.0 Image Lite — лучшее качество, поддержка кириллического текста на изображениях, MIT-лицензия.

Связанные модели