Image Generation

txt2img

Генерация изображения с нуля по текстовому описанию — базовый режим Stable Diffusion.

Что такое txt2img

Txt2img (text-to-image) — базовый режим генерации: модель создаёт изображение «из воздуха», начиная с чистого шума, используя только текстовый промпт как направляющий сигнал. Процесс: зашумлённый латент → итеративное denoising с учётом промпта → VAE-декодирование в пиксели.

Ключевые параметры

Параметр Описание Типичные значения
Prompt Текстовое описание
Negative prompt Что избегать Типовые negative шаблоны
Steps Число шагов denoising 20–30
CFG Scale Сила следования промпту 7 (SD), 5–7 (SDXL)
Seed Воспроизводимость -1 (random)
Width/Height Разрешение 512 (SD), 1024 (SDXL/FLUX)
Sampler Алгоритм denoising Euler, DPM++ 2M Karras

Пример через Diffusers

from diffusers import StableDiffusionXLPipeline
import torch

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

image = pipe(
    prompt="A photorealistic sunset over mountains, ultra detailed, 8k",
    negative_prompt="blurry, low quality, artifacts",
    num_inference_steps=25,
    guidance_scale=7.0,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42)
).images[0]

image.save("output.png")

Связанные термины

  • img2img — режим с начальным изображением
  • inpainting — редактирование части изображения
  • cfg-scale и sampler — ключевые параметры
  • Stable Diffusion — модель для txt2img

Готовы запустить GPU-задачу?

Запустить GPU-сервер