Image Generation

SDXL

Stable Diffusion XL — улучшенная версия SD с двойным текстовым кодировщиком и разрешением 1024×1024.

Что такое SDXL

SDXL (Stable Diffusion XL) — модель Stability AI 2023 года, значительно улучшающая базовый Stable Diffusion:

  • Разрешение 1024×1024 вместо 512×512 у SD 1.5
  • Двойной текстовый кодировщик (OpenCLIP + CLIP-ViT-L) — лучшее понимание промптов
  • UNet в 3.5× больше SD 1.5 по параметрам
  • Refiner — отдельная модель для финального улучшения деталей

Архитектура

SDXL состоит из двух моделей:

  1. Base: генерирует «грубое» изображение 1024×1024 за N шагов
  2. Refiner: уточняет детали на финальных шагах (можно использовать отдельно для img2img)
from diffusers import DiffusionPipeline
import torch

base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16
).to("cuda")

# Base: 80% шагов
image = base(prompt="A photorealistic portrait", num_inference_steps=40,
             denoising_end=0.8, output_type="latent").images

# Refiner: 20% шагов
image = refiner(prompt="A photorealistic portrait", num_inference_steps=40,
                denoising_start=0.8, image=image).images[0]

Требования к VRAM

Конфигурация VRAM
Base (FP16) ~7 ГБ
Base + Refiner ~14 ГБ
Base (CPU offload) ~4 ГБ

SDXL vs SD 1.5 vs FLUX

SD 1.5 SDXL FLUX.1 dev
Разрешение 512px 1024px 1024px+
Качество Базовое Хорошее Отличное
VRAM 4 ГБ 8 ГБ 24 ГБ
Экосистема LoRA Огромная Большая Развивается

Связанные термины

  • Stable Diffusion — базовая версия
  • FLUX — следующее поколение
  • VAE — важная часть SDXL (fp16-fix VAE)
  • LoRA — адаптеры для стилизации SDXL

Готовы запустить GPU-задачу?

Запустить GPU-сервер