Stable Diffusion 3: совместимость и throughput
Задача страницы. Показать, как запускать SD3‑семейство на облачных GPU: на что обратить внимание при совместимости (веса, токенайзеры, LoRA/ControlNet‑модули), как спроектировать throughput‑ориентированный пайплайн (батчи, очереди, кэш), какие VRAM‑профили выбирать и как контролировать время/стоимость рендера. TL;DR- Совместимость. Веса/LoRA/ControlNet от SDXL обычно не совместимы напрямую — нужны версии, обученные под SD3. Промпт‑стили переносимы частично.
- Производительность. При тех же R/S SD3 часто тяжелее SDXL на 10–30% по времени шага — закладывайте запас VRAM/latency.
- Пайплайны. Для интерактива — один проход, 20–30 шагов, fp16/bf16, SSE‑прогресс; для пакетов — батчи/очереди, interruptible пулы.
- Смежные страницы: базовый обзор — /solutions/image-video-gen/, стеки — /solutions/image-video-gen/comfyui/, /solutions/image-video-gen/automatic1111/; управление — /solutions/image-video-gen/controlnet/, апскейл — /solutions/image-video-gen/upscaling/, пакетный рендер — /solutions/image-video-gen/batch-render/; инфраструктура — /solutions/performance-tuning/, /solutions/cost-planner/, /solutions/monitoring-logging/, /solutions/llm-inference/observability/, /solutions/interruptible-patterns/.
Что меняется по сравнению с SDXL
- Архитектура/инференс. SD3‑веса и токенайзер отличаются — требуется собственный чекпоинт и, как правило, отдельные LoRA/адаптеры.
- Один проход вместо base→refiner. Чаще используется единый проход без отдельного refiner‑этапа (если нужен «финиш», применяют лёгкий апскейл/денойз).
- Ресурсы. Выше требования к VRAM и чуть ниже шаг‑скорость при равных настройках.
- Управляемость. Поддерживаются «условные» ветки (аналог ControlNet/IP‑Adapter), но нужны совместимые модули под SD3 (см. /solutions/image-video-gen/controlnet/).
Совместимость: чек‑лист
- Чекпоинты. Используйте веса, явно помеченные как SD3.
- LoRA. Нужны LoRA под SD3; SDXL‑LoRA не подходят без конвертации/переобучения.
- Control ветки. Для позы/скетча/контуров — берите версии модулей, заявленные как совместимые c SD3.
- VAE. Придерживайтесь пары «модель↔VAE», поставляемой для SD3‑весов.
- Промпты. Токены/стили из SDXL можно пробовать, но ожидайте иной чувствительности к CFG/steps.
VRAM‑профили и режимы GPU Ориентиры для fp16/bf16, память‑эффективное внимание, batch=1:
| Сценарий | Разрешение | SD3 VRAM | Комментарий |
| Интерактив (20–30 шагов) | 512² | 16–24 ГБ | быстрые предпросмотры |
| Интерактив HQ | 768² | 24–32 ГБ | стабильно на L40S/A100 |
| HQ @1024² | 1024² | 24–48 ГБ | при ветках кондиционирования — больше |
| Видео‑диффузии (512–576p) | — | 24–40 ГБ | лучше отдельный пул |
| Апскейл/реставрация | — | 8–16 ГБ | см. /solutions/image-video-gen/upscaling/ |
Хранилище (NVMe): веса/LoRA/адаптеры/VAEs — 50–200 ГБ. Кэш и структура — /solutions/storage-data/. Время и стоимость: быстрые формулы Обозначим: S — шаги диффузии, R — разрешение (пикселей), B — батч, t_step — среднее время шага, O — накладные (загрузка, VAE, I/O). Латентность ```
**Выработка/стоимость** ```
Сравнение с SDXL: на тех же R/S ожидайте +10–30% к t_step. Планирование — /solutions/cost-planner/. Оптимизации под SD3- Precision: fp16/bf16.
- Внимание: включите SDPA или xformers (одно из), см. /solutions/image-video-gen/automatic1111/.
- Память: память‑эффективное внимание, ограничение max_dim в UI, тайлинг 2–4k.
- Самплер/шаги: быстрые самплеры; на предпросмотр — 16–24 шага, финал — 24–36.
- CFG: держите умеренно (4–8); высокие значения часто дают «пластик».
- Кэш: локальный NVMe для весов/LoRA/адаптеров; прогрейте модели перед пиком.
- Апскейл‑конвейер: 768–1024² → апскейл 2–4× → лёгкий денойз (см. /solutions/image-video-gen/upscaling/, /solutions/image-video-gen/face-restoration/). Пайплайны: ComfyUI и WebUI A) ComfyUI (минимальный граф SD3, text2img) ```
**B) Automatic1111 (флаги запуска и hi‑res)** — см. /solutions/image-video-gen/automatic1111/. **C) Control‑ветки (поза/скетч/реф.)** — только **совместимые с SD3** модули (страница — /solutions/image-video-gen/controlnet/). **Режимы эксплуатации: UI / API / Batch** **UI (интерактив)**- Ограничьте максимальные R/S/CFG, включите **SSE‑прогресс**.
- Прогрейте модель, храните веса локально, разделите очереди short/long.
**API (прод)**- Идемпотентность по request\_id; лимиты/троттлинг; трассировка.
- Раздельные пулы: онлайн **on‑demand** и пакетный **interruptible** (см. /solutions/interruptible-patterns/).
**Batch**- Очереди/ретраи/дедуп по (prompt, seed, steps, cfg, model); отчёты по артефактам/времени/цене.
- Оркестратор — /solutions/image-video-gen/batch-render/.
**Наблюдаемость и алерты** Минимум метрик (см. /solutions/monitoring-logging/, /solutions/llm-inference/observability/): - t\_step\_ms, steps, resolution, batch, images\_per\_min, queue\_wait.
- GPU util/HBM, OOM, время загрузки весов, кэш‑хиты.
- Для тайлинга/видео — доля шовных дефектов, fps, транскод‑латентность.
**Алерты:** рост p95 t\_step\_ms, очереди, OOM>0, падение кэш‑хитов, ошибки I/O. **Траблшутинг**- **CUDA OOM** — снизьте R/steps/батч, включите тайлинг, отключите лишние ветки/адаптеры.
- **Мутные детали/текст** — добавьте апскейл+реставрацию, адаптируйте CFG/самплер.
- **Долгий старт** — локальный NVMe‑кэш, прогрев перед пиковыми окнами.
- **Разные результаты при тех же параметрах** — фиксируйте версии весов/адаптеров и seed; не смешивайте SDXL‑модули.
- **Плавающая p95** — разделите очереди short/long, стабилизируйте batch‑размер.
**Как запускать в cloudcompute.ru** В /solutions/templates/ используйте пресеты: - **“SD3‑Prod”** — профили Compact/Balanced/HQ, fp16/bf16, SDPA/xformers, кэш весов на NVMe, лимиты UI/API, метрики/алерты.
- **“ComfyUI‑GPU”** — готовые графы под SD3 (text2img/img2img, тайлинг, совместимые control‑ветки), SSE‑прогресс.
- **“Batch‑Render”** — очереди/ретраи/отчёты для массовой генерации.
Экономика/SLA: /solutions/cost-planner/. **Чек‑лист перед продом**- Подтверждена **совместимость**: SD3‑веса, VAE, LoRA/адаптеры, control‑ветки.
- Выбран стек (ComfyUI/WebUI), включены fp16/bf16 и SDPA/xformers.
- Установлены лимиты R/S/CFG/batch; настроен тайлинг для 2–4k.
- Кэш весов на NVMe и прогрев; раздельные пулы on‑demand/interruptible.
- Метрики/алерты/логи; рассчитана **Cost\_per\_1000**.
- Тест‑пайлот: сравнение с SDXL по p95/качеству/цене.
**Навигация по разделу «Генерация изображений и видео»** [/solutions/image-video-gen/](/solutions/image-video-gen/) • [/solutions/image-video-gen/comfyui/](/solutions/image-video-gen/comfyui/) • [/solutions/image-video-gen/automatic1111/](/solutions/image-video-gen/automatic1111/) • [/solutions/image-video-gen/sdxl/](/solutions/image-video-gen/sdxl/) • [/solutions/image-video-gen/controlnet/](/solutions/image-video-gen/controlnet/) • [/solutions/image-video-gen/upscaling/](/solutions/image-video-gen/upscaling/) • [/solutions/image-video-gen/face-restoration/](/solutions/image-video-gen/face-restoration/) • [/solutions/image-video-gen/batch-render/](/solutions/image-video-gen/batch-render/) • инфраструктура: [/solutions/performance-tuning/](/solutions/performance-tuning/), [/solutions/cost-planner/](/solutions/cost-planner/), [/solutions/monitoring-logging/](/solutions/monitoring-logging/), [/solutions/llm-inference/observability/](/solutions/llm-inference/observability/), [/solutions/interruptible-patterns/](/solutions/interruptible-patterns/)
Готовы запустить?
Запустить GPU-сервер