Image Generation
Stable Diffusion
Семейство диффузионных моделей генерации изображений от Stability AI с открытым кодом.
Что такое Stable Diffusion
Stable Diffusion — семейство open-source диффузионных моделей для генерации изображений по текстовому описанию. Разработано Stability AI в 2022 году. Принципиальное отличие от DALL-E/Midjourney — полностью открытые веса, что позволяет запускать локально, дообучать и создавать производные модели.
Stable Diffusion работает в латентном пространстве: VAE кодирует изображение в компактное представление, UNet итеративно «очищает» (de-noising) зашумлённый латент по текстовому условию, затем VAE декодирует результат в пиксели. Это делает SD значительно быстрее, чем диффузия в пространстве пикселей.
Поколения Stable Diffusion
| Версия | Разрешение | Особенности |
|---|---|---|
| SD 1.5 | 512×512 | Базовая, огромная экосистема LoRA |
| SD 2.1 | 768×768 | Улучшенный CLIP |
| SDXL | 1024×1024 | Двойной текстовый кодировщик, лучшее качество |
| SD3 | 1024×1024 | MMDiT-архитектура, лучший текст |
| FLUX | 1024×1024+ | Rectified Flow, лучшее качество на 2024 |
Запуск на GPU
# AUTOMATIC1111 WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh --listen --port 7860 # Linux
# ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI && pip install -r requirements.txt
python main.py --listen --port 8188
# Docker (ComfyUI)
docker run --gpus all -p 8188:8188 \
-v $(pwd)/models:/app/models \
yanwk/comfyui-boot:latest
Требования к GPU
| Модель | VRAM | Время генерации |
|---|---|---|
| SD 1.5 | 4 ГБ | 2–5 с (RTX 4090) |
| SDXL | 8 ГБ | 5–15 с (RTX 4090) |
| FLUX.1 schnell | 12 ГБ | 3–8 с (RTX 4090) |
| FLUX.1 dev | 24 ГБ | 10–30 с (RTX 4090) |
Связанные термины
Готовы запустить GPU-задачу?
Запустить GPU-сервер