UNet
Архитектура нейросети в Stable Diffusion, выполняющая итеративное удаление шума (denoising).
Что такое UNet в Stable Diffusion
UNet — основная нейросеть в Stable Diffusion, выполняющая итеративное «очищение» (denoising) зашумлённого латента. Принимает на вход:
- Зашумлённый латент на шаге t
- Временной шаг t (уровень шума)
- Текстовый эмбеддинг (из CLIP/T5)
Предсказывает шум, который затем вычитается из латента. Процесс повторяется N раз (шагов).
Название «U-Net» от U-образной архитектуры: энкодер постепенно уменьшает пространственное разрешение (downsampling), декодер увеличивает (upsampling), с skip-connections между симметричными уровнями. Это позволяет модели учитывать как глобальный контекст, так и мелкие детали.
UNet в SD vs MMDiT в FLUX
| SD UNet | FLUX MMDiT | |
|---|---|---|
| Архитектура | Конволюционный + attention | Чистый трансформер |
| Параметры (SDXL) | ~2.6B | ~12B |
| Качество | Хорошее | Отличное |
| Скорость | Быстрее | Медленнее |
FLUX заменяет UNet на Multimodal Diffusion Transformer (MMDiT) — архитектуру на основе трансформеров, что обеспечивает лучшее качество за счёт более сложных attention-паттернов.
UNet и LoRA
LoRA-адаптеры для SD внедряются именно в веса UNet (attention-слои). Это позволяет стилизовать генерацию без изменения всей модели.
Связанные термины
- Stable Diffusion — использует UNet
- FLUX — заменил UNet на MMDiT
- VAE — работает в паре с UNet
- sampler — управляет итерациями UNet
- LoRA — адаптеры, встраиваемые в UNet
Готовы запустить GPU-задачу?
Запустить GPU-сервер