Image Generation

Stable Diffusion

Семейство диффузионных моделей генерации изображений от Stability AI с открытым кодом.

Что такое Stable Diffusion

Stable Diffusion — семейство open-source диффузионных моделей для генерации изображений по текстовому описанию. Разработано Stability AI в 2022 году. Принципиальное отличие от DALL-E/Midjourney — полностью открытые веса, что позволяет запускать локально, дообучать и создавать производные модели.

Stable Diffusion работает в латентном пространстве: VAE кодирует изображение в компактное представление, UNet итеративно «очищает» (de-noising) зашумлённый латент по текстовому условию, затем VAE декодирует результат в пиксели. Это делает SD значительно быстрее, чем диффузия в пространстве пикселей.

Поколения Stable Diffusion

Версия Разрешение Особенности
SD 1.5 512×512 Базовая, огромная экосистема LoRA
SD 2.1 768×768 Улучшенный CLIP
SDXL 1024×1024 Двойной текстовый кодировщик, лучшее качество
SD3 1024×1024 MMDiT-архитектура, лучший текст
FLUX 1024×1024+ Rectified Flow, лучшее качество на 2024

Запуск на GPU

# AUTOMATIC1111 WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh --listen --port 7860  # Linux

# ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI && pip install -r requirements.txt
python main.py --listen --port 8188

# Docker (ComfyUI)
docker run --gpus all -p 8188:8188 \
  -v $(pwd)/models:/app/models \
  yanwk/comfyui-boot:latest

Требования к GPU

Модель VRAM Время генерации
SD 1.5 4 ГБ 2–5 с (RTX 4090)
SDXL 8 ГБ 5–15 с (RTX 4090)
FLUX.1 schnell 12 ГБ 3–8 с (RTX 4090)
FLUX.1 dev 24 ГБ 10–30 с (RTX 4090)

Связанные термины

  • SDXL — улучшенное поколение Stable Diffusion
  • FLUX — новейшее поколение (2024)
  • ComfyUI — node-based UI для Stable Diffusion
  • AUTOMATIC1111 — классический WebUI
  • VAE — кодирует/декодирует изображения
  • UNet — модель de-noising в SD
  • LoRA — адаптеры для стилизации SD

Готовы запустить GPU-задачу?

Запустить GPU-сервер