Image Generation

SDXL

Stable Diffusion XL — улучшенная версия SD с двойным текстовым кодировщиком и разрешением 1024×1024.

Что такое SDXL

SDXL (Stable Diffusion XL) — модель Stability AI 2023 года, значительно улучшающая базовый Stable Diffusion:

Разрешение 1024×1024 вместо 512×512 у SD 1.5
Двойной текстовый кодировщик (OpenCLIP + CLIP-ViT-L) — лучшее понимание промптов
UNet в 3.5× больше SD 1.5 по параметрам
Refiner — отдельная модель для финального улучшения деталей

Архитектура

SDXL состоит из двух моделей:

Base: генерирует «грубое» изображение 1024×1024 за N шагов
Refiner: уточняет детали на финальных шагах (можно использовать отдельно для img2img)

from diffusers import DiffusionPipeline
import torch

base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16
).to("cuda")

# Base: 80% шагов
image = base(prompt="A photorealistic portrait", num_inference_steps=40,
             denoising_end=0.8, output_type="latent").images

# Refiner: 20% шагов
image = refiner(prompt="A photorealistic portrait", num_inference_steps=40,
                denoising_start=0.8, image=image).images[0]

Требования к VRAM

Конфигурация	VRAM
Base (FP16)	~7 ГБ
Base + Refiner	~14 ГБ
Base (CPU offload)	~4 ГБ

SDXL vs SD 1.5 vs FLUX

	SD 1.5	SDXL	FLUX.1 dev
Разрешение	512px	1024px	1024px+
Качество	Базовое	Хорошее	Отличное
VRAM	4 ГБ	8 ГБ	24 ГБ
Экосистема LoRA	Огромная	Большая	Развивается

Связанные термины

Stable Diffusion — базовая версия
FLUX — следующее поколение
VAE — важная часть SDXL (fp16-fix VAE)
LoRA — адаптеры для стилизации SDXL

Готовы запустить GPU-задачу?

Запустить GPU-сервер