Stable Diffusion 3: совместимость и throughput

Задача страницы. Показать, как запускать SD3‑семейство на облачных GPU: на что обратить внимание при совместимости (веса, токенайзеры, LoRA/ControlNet‑модули), как спроектировать throughput‑ориентированный пайплайн (батчи, очереди, кэш), какие VRAM‑профили выбирать и как контролировать время/стоимость рендера. TL;DR- Совместимость. Веса/LoRA/ControlNet от SDXL обычно не совместимы напрямую — нужны версии, обученные под SD3. Промпт‑стили переносимы частично.

Производительность. При тех же R/S SD3 часто тяжелее SDXL на 10–30% по времени шага — закладывайте запас VRAM/latency.
Пайплайны. Для интерактива — один проход, 20–30 шагов, fp16/bf16, SSE‑прогресс; для пакетов — батчи/очереди, interruptible пулы.
Смежные страницы: базовый обзор — /solutions/image-video-gen/, стеки — /solutions/image-video-gen/comfyui/, /solutions/image-video-gen/automatic1111/; управление — /solutions/image-video-gen/controlnet, апскейл — /solutions/image-video-gen/upscaling, пакетный рендер — /solutions/image-video-gen/batch-render/; инфраструктура — /solutions/performance-tuning, /solutions/cost-planner, /solutions/monitoring-logging, /solutions/llm-inference/observability, /solutions/interruptible-patterns/.

Что меняется по сравнению с SDXL

Архитектура/инференс. SD3‑веса и токенайзер отличаются — требуется собственный чекпоинт и, как правило, отдельные LoRA/адаптеры.
Один проход вместо base→refiner. Чаще используется единый проход без отдельного refiner‑этапа (если нужен «финиш», применяют лёгкий апскейл/денойз).
Ресурсы. Выше требования к VRAM и чуть ниже шаг‑скорость при равных настройках.
Управляемость. Поддерживаются «условные» ветки (аналог ControlNet/IP‑Adapter), но нужны совместимые модули под SD3 (см. /solutions/image-video-gen/controlnet).

Совместимость: чек‑лист

Чекпоинты. Используйте веса, явно помеченные как SD3.
LoRA. Нужны LoRA под SD3; SDXL‑LoRA не подходят без конвертации/переобучения.
Control ветки. Для позы/скетча/контуров — берите версии модулей, заявленные как совместимые c SD3.
VAE. Придерживайтесь пары «модель↔VAE», поставляемой для SD3‑весов.
Промпты. Токены/стили из SDXL можно пробовать, но ожидайте иной чувствительности к CFG/steps.

VRAM‑профили и режимы GPU Ориентиры для fp16/bf16, память‑эффективное внимание, batch=1:

Сценарий	Разрешение	SD3 VRAM	Комментарий
Интерактив (20–30 шагов)	512²	16–24 ГБ	быстрые предпросмотры
Интерактив HQ	768²	24–32 ГБ	стабильно на L40S/A100
HQ @1024²	1024²	24–48 ГБ	при ветках кондиционирования — больше
Видео‑диффузии (512–576p)	—	24–40 ГБ	лучше отдельный пул
Апскейл/реставрация	—	8–16 ГБ	см. /solutions/image-video-gen/upscaling

Хранилище (NVMe): веса/LoRA/адаптеры/VAEs — 50–200 ГБ. Кэш и структура — /solutions/storage-data. Время и стоимость: быстрые формулы Обозначим: S — шаги диффузии, R — разрешение (пикселей), B — батч, t_step — среднее время шага, O — накладные (загрузка, VAE, I/O). Латентность ```


 **Выработка/стоимость** ```

Сравнение с SDXL: на тех же R/S ожидайте +10–30% к t_step. Планирование — /solutions/cost-planner. Оптимизации под SD3- Precision: fp16/bf16.

Внимание: включите SDPAили xformers (одно из), см. /solutions/image-video-gen/automatic1111/.
Память: память‑эффективное внимание, ограничение max_dim в UI, тайлинг 2–4k.
Самплер/шаги: быстрые самплеры; на предпросмотр — 16–24 шага, финал — 24–36.
CFG: держите умеренно (4–8); высокие значения часто дают «пластик».
Кэш: локальный NVMe для весов/LoRA/адаптеров; прогрейте модели перед пиком.
Апскейл‑конвейер: 768–1024² → апскейл 2–4× → лёгкий денойз (см. /solutions/image-video-gen/upscaling, /solutions/image-video-gen/face-restoration). Пайплайны: ComfyUI и WebUIA) ComfyUI (минимальный граф SD3, text2img) ```


 **B) Automatic1111 (флаги запуска и hi‑res)** — см. /solutions/image-video-gen/automatic1111/. **C) Control‑ветки (поза/скетч/реф.)** — только **совместимые с SD3** модули (страница — /solutions/image-video-gen/controlnet). **Режимы эксплуатации: UI / API / Batch** **UI (интерактив)**- Ограничьте максимальные R/S/CFG, включите **SSE‑прогресс**.
- Прогрейте модель, храните веса локально, разделите очереди short/long.
 
 **API (прод)**- Идемпотентность по request\_id; лимиты/троттлинг; трассировка.
- Раздельные пулы: онлайн **on‑demand** и пакетный **interruptible** (см. /solutions/interruptible-patterns/).
 
 **Batch**- Очереди/ретраи/дедуп по (prompt, seed, steps, cfg, model); отчёты по артефактам/времени/цене.
- Оркестратор — /solutions/image-video-gen/batch-render/.
 
 **Наблюдаемость и алерты** Минимум метрик (см. /solutions/monitoring-logging, /solutions/llm-inference/observability): - t\_step\_ms, steps, resolution, batch, images\_per\_min, queue\_wait.
- GPU util/HBM, OOM, время загрузки весов, кэш‑хиты.
- Для тайлинга/видео — доля шовных дефектов, fps, транскод‑латентность.
 
 **Алерты:** рост p95 t\_step\_ms, очереди, OOM&gt;0, падение кэш‑хитов, ошибки I/O. **Траблшутинг**- **CUDA OOM** — снизьте R/steps/батч, включите тайлинг, отключите лишние ветки/адаптеры.
- **Мутные детали/текст** — добавьте апскейл+реставрацию, адаптируйте CFG/самплер.
- **Долгий старт** — локальный NVMe‑кэш, прогрев перед пиковыми окнами.
- **Разные результаты при тех же параметрах** — фиксируйте версии весов/адаптеров и seed; не смешивайте SDXL‑модули.
- **Плавающая p95** — разделите очереди short/long, стабилизируйте batch‑размер.
 
 **Как запускать в cloudcompute.ru** В /solutions/templates/ используйте пресеты: - **“SD3‑Prod”** — профили Compact/Balanced/HQ, fp16/bf16, SDPA/xformers, кэш весов на NVMe, лимиты UI/API, метрики/алерты.
- **“ComfyUI‑GPU”** — готовые графы под SD3 (text2img/img2img, тайлинг, совместимые control‑ветки), SSE‑прогресс.
- **“Batch‑Render”** — очереди/ретраи/отчёты для массовой генерации.
 
 Экономика/SLA: /solutions/cost-planner. **Чек‑лист перед продом**- Подтверждена **совместимость**: SD3‑веса, VAE, LoRA/адаптеры, control‑ветки.
- Выбран стек (ComfyUI/WebUI), включены fp16/bf16 и SDPA/xformers.
- Установлены лимиты R/S/CFG/batch; настроен тайлинг для 2–4k.
- Кэш весов на NVMe и прогрев; раздельные пулы on‑demand/interruptible.
- Метрики/алерты/логи; рассчитана **Cost\_per\_1000**.
- Тест‑пайлот: сравнение с SDXL по p95/качеству/цене.
 
 **Навигация по разделу «Генерация изображений и видео»** [/solutions/image-video-gen/](/solutions/image-video-gen) • [/solutions/image-video-gen/comfyui/](/solutions/image-video-gen/comfyui) • [/solutions/image-video-gen/automatic1111/](/solutions/image-video-gen/automatic1111) • [/solutions/image-video-gen/sdxl/](/solutions/image-video-gen/sdxl) • [/solutions/image-video-gen/controlnet](/solutions/image-video-gen/controlnet) • [/solutions/image-video-gen/upscaling](/solutions/image-video-gen/upscaling) • [/solutions/image-video-gen/face-restoration](/solutions/image-video-gen/face-restoration) • [/solutions/image-video-gen/batch-render/](/solutions/image-video-gen/batch-render) • инфраструктура: [/solutions/performance-tuning](/solutions/performance-tuning), [/solutions/cost-planner](/solutions/cost-planner), [/solutions/monitoring-logging](/solutions/monitoring-logging), [/solutions/llm-inference/observability](/solutions/llm-inference/observability), [/solutions/interruptible-patterns/](/solutions/interruptible-patterns)

Готовы запустить?

Запустить GPU-сервер