Image Generation

txt2img

Генерация изображения с нуля по текстовому описанию — базовый режим Stable Diffusion.

Что такое txt2img

Txt2img (text-to-image) — базовый режим генерации: модель создаёт изображение «из воздуха», начиная с чистого шума, используя только текстовый промпт как направляющий сигнал. Процесс: зашумлённый латент → итеративное denoising с учётом промпта → VAE-декодирование в пиксели.

Ключевые параметры

Параметр	Описание	Типичные значения
Prompt	Текстовое описание	—
Negative prompt	Что избегать	Типовые negative шаблоны
Steps	Число шагов denoising	20–30
CFG Scale	Сила следования промпту	7 (SD), 5–7 (SDXL)
Seed	Воспроизводимость	-1 (random)
Width/Height	Разрешение	512 (SD), 1024 (SDXL/FLUX)
Sampler	Алгоритм denoising	Euler, DPM++ 2M Karras

Пример через Diffusers

from diffusers import StableDiffusionXLPipeline
import torch

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

image = pipe(
    prompt="A photorealistic sunset over mountains, ultra detailed, 8k",
    negative_prompt="blurry, low quality, artifacts",
    num_inference_steps=25,
    guidance_scale=7.0,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42)
).images[0]

image.save("output.png")

Связанные термины

img2img — режим с начальным изображением
inpainting — редактирование части изображения
cfg-scale и sampler — ключевые параметры
Stable Diffusion — модель для txt2img

Готовы запустить GPU-задачу?

Запустить GPU-сервер