Image Generation
txt2img
Генерация изображения с нуля по текстовому описанию — базовый режим Stable Diffusion.
Что такое txt2img
Txt2img (text-to-image) — базовый режим генерации: модель создаёт изображение «из воздуха», начиная с чистого шума, используя только текстовый промпт как направляющий сигнал. Процесс: зашумлённый латент → итеративное denoising с учётом промпта → VAE-декодирование в пиксели.
Ключевые параметры
| Параметр | Описание | Типичные значения |
|---|---|---|
| Prompt | Текстовое описание | — |
| Negative prompt | Что избегать | Типовые negative шаблоны |
| Steps | Число шагов denoising | 20–30 |
| CFG Scale | Сила следования промпту | 7 (SD), 5–7 (SDXL) |
| Seed | Воспроизводимость | -1 (random) |
| Width/Height | Разрешение | 512 (SD), 1024 (SDXL/FLUX) |
| Sampler | Алгоритм denoising | Euler, DPM++ 2M Karras |
Пример через Diffusers
from diffusers import StableDiffusionXLPipeline
import torch
pipe = StableDiffusionXLPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
torch_dtype=torch.float16
).to("cuda")
image = pipe(
prompt="A photorealistic sunset over mountains, ultra detailed, 8k",
negative_prompt="blurry, low quality, artifacts",
num_inference_steps=25,
guidance_scale=7.0,
width=1024,
height=1024,
generator=torch.Generator("cuda").manual_seed(42)
).images[0]
image.save("output.png")
Связанные термины
- img2img — режим с начальным изображением
- inpainting — редактирование части изображения
- cfg-scale и sampler — ключевые параметры
- Stable Diffusion — модель для txt2img
Готовы запустить GPU-задачу?
Запустить GPU-сервер