Stable Diffusion 3: совместимость и throughput

Задача страницы. Показать, как запускать SD3‑семейство на облачных GPU: на что обратить внимание при совместимости (веса, токенайзеры, LoRA/ControlNet‑модули), как спроектировать throughput‑ориентированный пайплайн (батчи, очереди, кэш), какие VRAM‑профили выбирать и как контролировать время/стоимость рендера. TL;DR- Совместимость. Веса/LoRA/ControlNet от SDXL обычно не совместимы напрямую — нужны версии, обученные под SD3. Промпт‑стили переносимы частично.

Что меняется по сравнению с SDXL

  • Архитектура/инференс. SD3‑веса и токенайзер отличаются — требуется собственный чекпоинт и, как правило, отдельные LoRA/адаптеры.
  • Один проход вместо base→refiner. Чаще используется единый проход без отдельного refiner‑этапа (если нужен «финиш», применяют лёгкий апскейл/денойз).
  • Ресурсы. Выше требования к VRAM и чуть ниже шаг‑скорость при равных настройках.
  • Управляемость. Поддерживаются «условные» ветки (аналог ControlNet/IP‑Adapter), но нужны совместимые модули под SD3 (см. /solutions/image-video-gen/controlnet/).

Совместимость: чек‑лист

  • Чекпоинты. Используйте веса, явно помеченные как SD3.
  • LoRA. Нужны LoRA под SD3; SDXL‑LoRA не подходят без конвертации/переобучения.
  • Control ветки. Для позы/скетча/контуров — берите версии модулей, заявленные как совместимые c SD3.
  • VAE. Придерживайтесь пары «модель↔VAE», поставляемой для SD3‑весов.
  • Промпты. Токены/стили из SDXL можно пробовать, но ожидайте иной чувствительности к CFG/steps.

VRAM‑профили и режимы GPU Ориентиры для fp16/bf16, память‑эффективное внимание, batch=1:

Сценарий Разрешение SD3 VRAM Комментарий
Интерактив (20–30 шагов) 512² 16–24 ГБ быстрые предпросмотры
Интерактив HQ 768² 24–32 ГБ стабильно на L40S/A100
HQ @1024² 1024² 24–48 ГБ при ветках кондиционирования — больше
Видео‑диффузии (512–576p) 24–40 ГБ лучше отдельный пул
Апскейл/реставрация 8–16 ГБ см. /solutions/image-video-gen/upscaling/

Хранилище (NVMe): веса/LoRA/адаптеры/VAEs — 50–200 ГБ. Кэш и структура — /solutions/storage-data/. Время и стоимость: быстрые формулы Обозначим: S — шаги диффузии, R — разрешение (пикселей), B — батч, t_step — среднее время шага, O — накладные (загрузка, VAE, I/O). Латентность ```


 **Выработка/стоимость** ```

					
				

Сравнение с SDXL: на тех же R/S ожидайте +10–30% к t_step. Планирование — /solutions/cost-planner/. Оптимизации под SD3- Precision: fp16/bf16.

  • Внимание: включите SDPA или xformers (одно из), см. /solutions/image-video-gen/automatic1111/.
  • Память: память‑эффективное внимание, ограничение max_dim в UI, тайлинг 2–4k.
  • Самплер/шаги: быстрые самплеры; на предпросмотр — 16–24 шага, финал — 24–36.
  • CFG: держите умеренно (4–8); высокие значения часто дают «пластик».
  • Кэш: локальный NVMe для весов/LoRA/адаптеров; прогрейте модели перед пиком.
  • Апскейл‑конвейер: 768–1024² → апскейл 2–4× → лёгкий денойз (см. /solutions/image-video-gen/upscaling/, /solutions/image-video-gen/face-restoration/). Пайплайны: ComfyUI и WebUI A) ComfyUI (минимальный граф SD3, text2img) ```

 **B) Automatic1111 (флаги запуска и hi‑res)** — см. /solutions/image-video-gen/automatic1111/. **C) Control‑ветки (поза/скетч/реф.)** — только **совместимые с SD3** модули (страница — /solutions/image-video-gen/controlnet/). **Режимы эксплуатации: UI / API / Batch** **UI (интерактив)**- Ограничьте максимальные R/S/CFG, включите **SSE‑прогресс**.
- Прогрейте модель, храните веса локально, разделите очереди short/long.
 
 **API (прод)**- Идемпотентность по request\_id; лимиты/троттлинг; трассировка.
- Раздельные пулы: онлайн **on‑demand** и пакетный **interruptible** (см. /solutions/interruptible-patterns/).
 
 **Batch**- Очереди/ретраи/дедуп по (prompt, seed, steps, cfg, model); отчёты по артефактам/времени/цене.
- Оркестратор — /solutions/image-video-gen/batch-render/.
 
 **Наблюдаемость и алерты** Минимум метрик (см. /solutions/monitoring-logging/, /solutions/llm-inference/observability/): - t\_step\_ms, steps, resolution, batch, images\_per\_min, queue\_wait.
- GPU util/HBM, OOM, время загрузки весов, кэш‑хиты.
- Для тайлинга/видео — доля шовных дефектов, fps, транскод‑латентность.
 
 **Алерты:** рост p95 t\_step\_ms, очереди, OOM>0, падение кэш‑хитов, ошибки I/O. **Траблшутинг**- **CUDA OOM** — снизьте R/steps/батч, включите тайлинг, отключите лишние ветки/адаптеры.
- **Мутные детали/текст** — добавьте апскейл+реставрацию, адаптируйте CFG/самплер.
- **Долгий старт** — локальный NVMe‑кэш, прогрев перед пиковыми окнами.
- **Разные результаты при тех же параметрах** — фиксируйте версии весов/адаптеров и seed; не смешивайте SDXL‑модули.
- **Плавающая p95** — разделите очереди short/long, стабилизируйте batch‑размер.
 
 **Как запускать в cloudcompute.ru** В /solutions/templates/ используйте пресеты: - **“SD3‑Prod”** — профили Compact/Balanced/HQ, fp16/bf16, SDPA/xformers, кэш весов на NVMe, лимиты UI/API, метрики/алерты.
- **“ComfyUI‑GPU”** — готовые графы под SD3 (text2img/img2img, тайлинг, совместимые control‑ветки), SSE‑прогресс.
- **“Batch‑Render”** — очереди/ретраи/отчёты для массовой генерации.
 
 Экономика/SLA: /solutions/cost-planner/. **Чек‑лист перед продом**- Подтверждена **совместимость**: SD3‑веса, VAE, LoRA/адаптеры, control‑ветки.
- Выбран стек (ComfyUI/WebUI), включены fp16/bf16 и SDPA/xformers.
- Установлены лимиты R/S/CFG/batch; настроен тайлинг для 2–4k.
- Кэш весов на NVMe и прогрев; раздельные пулы on‑demand/interruptible.
- Метрики/алерты/логи; рассчитана **Cost\_per\_1000**.
- Тест‑пайлот: сравнение с SDXL по p95/качеству/цене.
 
 **Навигация по разделу «Генерация изображений и видео»** [/solutions/image-video-gen/](/solutions/image-video-gen/) • [/solutions/image-video-gen/comfyui/](/solutions/image-video-gen/comfyui/) • [/solutions/image-video-gen/automatic1111/](/solutions/image-video-gen/automatic1111/) • [/solutions/image-video-gen/sdxl/](/solutions/image-video-gen/sdxl/) • [/solutions/image-video-gen/controlnet/](/solutions/image-video-gen/controlnet/) • [/solutions/image-video-gen/upscaling/](/solutions/image-video-gen/upscaling/) • [/solutions/image-video-gen/face-restoration/](/solutions/image-video-gen/face-restoration/) • [/solutions/image-video-gen/batch-render/](/solutions/image-video-gen/batch-render/) • инфраструктура: [/solutions/performance-tuning/](/solutions/performance-tuning/), [/solutions/cost-planner/](/solutions/cost-planner/), [/solutions/monitoring-logging/](/solutions/monitoring-logging/), [/solutions/llm-inference/observability/](/solutions/llm-inference/observability/), [/solutions/interruptible-patterns/](/solutions/interruptible-patterns/)

Готовы запустить?

Запустить GPU-сервер