Image Generation

UNet

Архитектура нейросети в Stable Diffusion, выполняющая итеративное удаление шума (denoising).

Что такое UNet в Stable Diffusion

UNet — основная нейросеть в Stable Diffusion, выполняющая итеративное «очищение» (denoising) зашумлённого латента. Принимает на вход:

  1. Зашумлённый латент на шаге t
  2. Временной шаг t (уровень шума)
  3. Текстовый эмбеддинг (из CLIP/T5)

Предсказывает шум, который затем вычитается из латента. Процесс повторяется N раз (шагов).

Название «U-Net» от U-образной архитектуры: энкодер постепенно уменьшает пространственное разрешение (downsampling), декодер увеличивает (upsampling), с skip-connections между симметричными уровнями. Это позволяет модели учитывать как глобальный контекст, так и мелкие детали.

UNet в SD vs MMDiT в FLUX

SD UNet FLUX MMDiT
Архитектура Конволюционный + attention Чистый трансформер
Параметры (SDXL) ~2.6B ~12B
Качество Хорошее Отличное
Скорость Быстрее Медленнее

FLUX заменяет UNet на Multimodal Diffusion Transformer (MMDiT) — архитектуру на основе трансформеров, что обеспечивает лучшее качество за счёт более сложных attention-паттернов.

UNet и LoRA

LoRA-адаптеры для SD внедряются именно в веса UNet (attention-слои). Это позволяет стилизовать генерацию без изменения всей модели.

Связанные термины

  • Stable Diffusion — использует UNet
  • FLUX — заменил UNet на MMDiT
  • VAE — работает в паре с UNet
  • sampler — управляет итерациями UNet
  • LoRA — адаптеры, встраиваемые в UNet

Готовы запустить GPU-задачу?

Запустить GPU-сервер