Stable Diffusion XL: VRAM и производительность
Задача страницы. Дать практические ориентиры по запуску SDXL на облачных GPU: чем отличается схема base→refiner, какие VRAM‑требования у разных режимов, как оценить время/стоимость рендера, какие включить оптимизации (fp16/bf16, память‑эффективное внимание, тайлинг, hi‑res) и как строить пайплайны в UI/API/Batch.
TL;DR
- Base→Refiner: для интерактива часто достаточно одного base‑прохода; refiner подключайте для финальной детализации.
- VRAM‑ориентиры (fp16): 1024² на SDXL‑base стабильно работает на 16–24 ГБ; с refiner/ControlNet планируйте 24–32 ГБ.
- Время ~ T ≈ O + S × t_step (шаги × среднее время шага). На A100 80 ГБ 1024²/30 шагов — порядка 2–3 с/кадр; на L40S 48 ГБ — ~3–4 с (ориентиры).
- Оптимизация: fp16/bf16, SDPA/xformers (одно из), оптимизированный VAE, тайлинг 2–4k, аккуратный hi‑res fix.
- Инфраструктура и смежные разделы: /solutions/image-video-gen/, /solutions/image-video-gen/comfyui/, /solutions/image-video-gen/automatic1111/, /solutions/image-video-gen/controlnet/, /solutions/image-video-gen/upscaling/, /solutions/performance-tuning/, /solutions/cost-planner/, /solutions/monitoring-logging/.
Схема SDXL: base и refiner
- Base — основной генеративный проход, даёт большую часть качества.
- Refiner — короткий дополнительный проход (обычно 10–15 шагов) для улучшения текстур/кожи/мелких деталей.
- Когда включать refiner: финальные рендеры, лица/текстуры, продуктовые кадры; когда пропускать: предпросмотр/массовые эскизы.
Рекомендуемые пресеты
- Интерактив (preview): base 20–24 шага @768–1024², без refiner.
- HQ финал: base 24–32 шага @1024² + refiner 10–15 шагов (малый denoise).
- Большие форматы (2–4k): base @1024–1536² → тайлинг/апскейл → refiner по желанию.
Подробнее про пайплайны и графы: /solutions/image-video-gen/comfyui/ и /solutions/image-video-gen/automatic1111/.
VRAM‑требования и профили GPU
Оценки для fp16/bf16, включено память‑эффективное внимание, batch=1 (ориентиры):
| **Сценарий** | **Разрешение** | **SDXL base** | **SDXL base + refiner** | **+ControlNet/IP‑Adapter (1 ветка)** |
| Интерактив | 768² | 12–16 ГБ | 16–20 ГБ | +2–4 ГБ |
| HQ | 1024² | **16–24 ГБ** | **24–32 ГБ** | +2–6 ГБ |
| 2–4k (тайлинг) | 2048–4096 по тайлам | **16–24 ГБ** | **24–48 ГБ** | +3–6 ГБ |
Хранилище. Кэш моделей/LoRA/ControlNet/VAEs: 50–200 ГБ на NVMe, см. /solutions/storage-data/.
Скорость на популярных GPU (ориентиры) Среднее время шага t_step для SDXL @1024², fp16, batch=1, память‑эффективное внимание (приближённо):
| **GPU** | **t\_step (мс/шаг)** | **T при 30 шагах** |
| **A100 80 ГБ** | ~70–100 | ~2.1–3.0 с |
| **L40S 48 ГБ** | ~90–120 | ~2.7–3.6 с |
| **A10 24 ГБ** | ~220–300 | ~6.6–9.0 с |
| **T4 16 ГБ** | ~450–650 | ~13.5–19.5 с |
Для batch>1, меньшего разрешения или иных самплеров время меняется. Подтверждайте замерами пилота. Планирование и экономика: /solutions/cost-planner/.
Формула времени и цены
Обозначим: S — шаги, R — разрешение, B — батч, t_step — среднее время шага, O — накладные (загрузка весов, VAE, I/O).
Латентность одной картинки
T ≈ O + S × t_step(R, B)
Выработка и стоимость
Imgs_per_hour ≈ 3600 / T
Cost_per_1000 ≈ (GPU_hour_price × Num_GPU) / (Imgs_per_hour / 1000)
Подробнее — /solutions/llm-inference/costs/.
Оптимизации SDXL: что включить в первую очередь
- Precision: fp16/bf16.
- Внимание: SDPA или xformers (выберите одно, см. /solutions/image-video-gen/automatic1111/).
- VAE: используйте оптимизированный VAE, держите его «тёплым».
- Тайлинг: для 2–4k; overlap и сглаживание швов — обязательны (см. /solutions/image-video-gen/upscaling/).
- Hi‑res fix: второй проход 1.5–2.0×, 35–50% шагов, denoise 0.2–0.4.
- Кэш веса/LoRA/ControlNet на локальном NVMe для быстрого старта.
- Раздельные пулы: интерактив (on‑demand) и batch (interruptible), см. /solutions/interruptible-patterns/. Компоненты графа: готовые паттерны
ComfyUI (base→refiner, упрощённый JSON‑скелет):
{
"1":{"class_type":"CheckpointLoaderSimple","inputs":{"ckpt_name":"sdxl_base.safetensors"}},
"2":{"class_type":"CLIPTextEncode","inputs":{"text":"studio photo, soft light","clip":["1","CLIP"]}},
"3":{"class_type":"CLIPTextEncode","inputs":{"text":"blurry, artifacts","clip":["1","CLIP"]}},
"4":{"class_type":"EmptyLatentImage","inputs":{"width":1024,"height":1024,"batch_size":1}},
"5":{"class_type":"KSampler","inputs":{
"model":["1","MODEL"],"positive":["2","CONDITIONING"],"negative":["3","CONDITIONING"],
"latent_image":["4","LATENT"],"steps":28,"cfg":6.5,"sampler_name":"dpmpp_2m","scheduler":"karras","seed":42}},
"6":{"class_type":"VAEDecode","inputs":{"samples":["5","LATENT"],"vae":["1","VAE"]}},
"7":{"class_type":"CheckpointLoaderSimple","inputs":{"ckpt_name":"sdxl_refiner.safetensors"}},
"8":{"class_type":"KSampler","inputs":{"model":["7","MODEL"],"steps":12,"cfg":5.5,"denoise":0.35,"latent_image":["5","LATENT"]}},
"9":{"class_type":"VAEDecode","inputs":{"samples":["8","LATENT"],"vae":["7","VAE"]}},
"10":{"class_type":"SaveImage","inputs":{"images":["9","IMAGE"]}}
}
Графы и кэш — /solutions/image-video-gen/comfyui/.
Automatic1111 (флаги и hi‑res): см. /solutions/image-video-gen/automatic1111/.
Контроль качества и управляемость
- Sampler: DPM++ 2M Karras — хороший баланс, Euler a — быстрый предпросмотр.
- CFG: 4–8; слишком высокий даёт «пластик».
- ControlNet/IP‑Adapter: поза/эскиз/грань/референс — резко повышают управляемость, но требуют VRAM/времени, см. /solutions/image-video-gen/controlnet/.
- Апскейл и реставрация: часто выгоднее 768–1024² → апскейл 2–4× → лёгкий денойз (см. /solutions/image-video-gen/upscaling/ и /solutions/image-video-gen/face-restoration/).
Batch‑рендер и очереди
- Batch‑профиль: крупные серии, минимальные шаги для предпросмотра, фиксированные seeds/матрицы промптов.
- Очередь задач: JSON‑манифест параметров, ретраи, дедуп по (prompt, seed, steps, cfg, model).
- Раздельные пулы: интерактив on‑demand и пакетный interruptible.
- Оркестрация и отчёты — /solutions/image-video-gen/batch-render/.
Наблюдаемость и алерты
Собирайте (см. /solutions/monitoring-logging/, /solutions/llm-inference/observability/):
- t_step_ms, steps, resolution, batch, images_per_min, queue_wait.
- GPU util/HBM, OOM/ретраи, время загрузки весов, кэш‑хиты.
- Для больших кадров/тайлинга — метрики «стыков» и доля «шовных» дефектов.
- Алерты: рост p95 t_step_ms, очереди, OOM>0, падение кэш‑хитов.
Стоимость и выбор инстансов
- Интерактив/UI — on‑demand, прогретые модели, NVMe‑кэш.
- Batch — interruptible + ретраи и чек‑поинтинг; дробите задания на чанки.
- Расчёты цены и профили — /solutions/cost-planner/, /solutions/llm-inference/costs/, эксплуатация — /solutions/interruptible-patterns/.
Траблшутинг
- CUDA OOM: уменьшите разрешение/шаги/батч; отключите refiner/избыточный ControlNet; включите тайлинг.
- Полосы/швы на 2–4k: увеличьте overlap тайлов, сглаживайте швы, добавьте финальный лёгкий денойз.
- Мутные лица/текст: включите refiner, скорректируйте CFG, подключите реставрацию.
- Долгий старт: держите веса локально на NVMe, прогревайте модели.
- Плавающая p95: разделите очереди short/long, ограничьте макс. параметры UI.
Как запускать в cloudcompute.ru
В /solutions/templates/ доступны пресеты:
- “SDXL‑Prod” — base/refiner, 1024², fp16/bf16, оптимизированный VAE, кэш весов, лимиты параметров, метрики/алерты.
- “ComfyUI‑GPU” — графы SDXL (text2img/img2img, base→refiner, тайлинг), SSE‑прогресс.
- “A1111‑GPU” — быстрый старт WebUI, hi‑res пресеты, ControlNet.
Планирование ресурсов и стоимости: /solutions/cost-planner/.
Чек‑лист перед продом
- Определён целевой режим: интерактив/HQ/batch и разрешение.
- Выбран стек (ComfyUI/WebUI), включены fp16/bf16 и SDPA/xformers.
- Пресеты шагов/CFG и hi‑res fix; refiner — только там, где нужен.
- Тайлинг/апскейл настроены для 2–4k.
- Локальный кэш весов на NVMe; прогрев моделей.
- Раздельные пулы on‑demand/interruptible и лимиты UI.
- Метрики/алерты/логи подключены; рассчитана Cost_per_1000.
Навигация по разделу «Генерация изображений и видео»
/solutions/image-video-gen/ • /solutions/image-video-gen/comfyui/ • /solutions/image-video-gen/automatic1111/ • /solutions/image-video-gen/controlnet/ • /solutions/image-video-gen/upscaling/ • /solutions/image-video-gen/face-restoration/ • /solutions/image-video-gen/batch-render/ • инфраструктура: /solutions/performance-tuning/, /solutions/monitoring-logging/, /solutions/cost-planner/
Готовы запустить?
Запустить GPU-сервер