Image Generation
SDXL
Stable Diffusion XL — улучшенная версия SD с двойным текстовым кодировщиком и разрешением 1024×1024.
Что такое SDXL
SDXL (Stable Diffusion XL) — модель Stability AI 2023 года, значительно улучшающая базовый Stable Diffusion:
- Разрешение 1024×1024 вместо 512×512 у SD 1.5
- Двойной текстовый кодировщик (OpenCLIP + CLIP-ViT-L) — лучшее понимание промптов
- UNet в 3.5× больше SD 1.5 по параметрам
- Refiner — отдельная модель для финального улучшения деталей
Архитектура
SDXL состоит из двух моделей:
- Base: генерирует «грубое» изображение 1024×1024 за N шагов
- Refiner: уточняет детали на финальных шагах (можно использовать отдельно для img2img)
from diffusers import DiffusionPipeline
import torch
base = DiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
torch_dtype=torch.float16
).to("cuda")
refiner = DiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-refiner-1.0",
text_encoder_2=base.text_encoder_2,
vae=base.vae,
torch_dtype=torch.float16
).to("cuda")
# Base: 80% шагов
image = base(prompt="A photorealistic portrait", num_inference_steps=40,
denoising_end=0.8, output_type="latent").images
# Refiner: 20% шагов
image = refiner(prompt="A photorealistic portrait", num_inference_steps=40,
denoising_start=0.8, image=image).images[0]
Требования к VRAM
| Конфигурация | VRAM |
|---|---|
| Base (FP16) | ~7 ГБ |
| Base + Refiner | ~14 ГБ |
| Base (CPU offload) | ~4 ГБ |
SDXL vs SD 1.5 vs FLUX
| SD 1.5 | SDXL | FLUX.1 dev | |
|---|---|---|---|
| Разрешение | 512px | 1024px | 1024px+ |
| Качество | Базовое | Хорошее | Отличное |
| VRAM | 4 ГБ | 8 ГБ | 24 ГБ |
| Экосистема LoRA | Огромная | Большая | Развивается |
Связанные термины
- Stable Diffusion — базовая версия
- FLUX — следующее поколение
- VAE — важная часть SDXL (fp16-fix VAE)
- LoRA — адаптеры для стилизации SDXL
Готовы запустить GPU-задачу?
Запустить GPU-сервер