Image Generation

Stable Diffusion

Семейство диффузионных моделей генерации изображений от Stability AI с открытым кодом.

Что такое Stable Diffusion

Stable Diffusion — семейство open-source диффузионных моделей для генерации изображений по текстовому описанию. Разработано Stability AI в 2022 году. Принципиальное отличие от DALL-E/Midjourney — полностью открытые веса, что позволяет запускать локально, дообучать и создавать производные модели.

Stable Diffusion работает в латентном пространстве: VAE кодирует изображение в компактное представление, UNet итеративно «очищает» (de-noising) зашумлённый латент по текстовому условию, затем VAE декодирует результат в пиксели. Это делает SD значительно быстрее, чем диффузия в пространстве пикселей.

Поколения Stable Diffusion

Версия	Разрешение	Особенности
SD 1.5	512×512	Базовая, огромная экосистема LoRA
SD 2.1	768×768	Улучшенный CLIP
SDXL	1024×1024	Двойной текстовый кодировщик, лучшее качество
SD3	1024×1024	MMDiT-архитектура, лучший текст
FLUX	1024×1024+	Rectified Flow, лучшее качество на 2024

Запуск на GPU

# AUTOMATIC1111 WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh --listen --port 7860  # Linux

# ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI && pip install -r requirements.txt
python main.py --listen --port 8188

# Docker (ComfyUI)
docker run --gpus all -p 8188:8188 \
  -v $(pwd)/models:/app/models \
  yanwk/comfyui-boot:latest

Требования к GPU

Модель	VRAM	Время генерации
SD 1.5	4 ГБ	2–5 с (RTX 4090)
SDXL	8 ГБ	5–15 с (RTX 4090)
FLUX.1 schnell	12 ГБ	3–8 с (RTX 4090)
FLUX.1 dev	24 ГБ	10–30 с (RTX 4090)

Связанные термины

SDXL — улучшенное поколение Stable Diffusion
FLUX — новейшее поколение (2024)
Kandinsky — российская альтернатива от Sber AI с нативным русским языком и видеогенерацией
ComfyUI — node-based UI для Stable Diffusion
AUTOMATIC1111 — классический WebUI
VAE — кодирует/декодирует изображения
UNet — модель de-noising в SD
LoRA — адаптеры для стилизации SD

Готовы запустить GPU-задачу?

Запустить GPU-сервер