Image Generation

img2img

Трансформация существующего изображения по промпту с регулируемой степенью изменения.

Что такое img2img

Img2img — режим генерации, при котором входным является не чистый шум, а реальное изображение, частично зашумлённое до уровня denoising strength. Модель «исправляет» его с учётом промпта, сохраняя общую структуру и композицию оригинала.

При denoising_strength=1.0 → максимальный шум → результат как txt2img (оригинал полностью игнорируется). При 0.3 → лёгкое изменение стиля при сохранении содержимого.

Типичные применения

  • Стилизация: перевести набросок в реалистичное фото или аниме
  • Улучшение: повысить качество размытого или испорченного изображения
  • Вариации: генерировать похожие изображения от одной основы
  • Апскейл с SD: увеличить и улучшить детали одновременно

Параметры img2img

from diffusers import StableDiffusionImg2ImgPipeline
from PIL import Image
import torch

pipe = StableDiffusionImg2ImgPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16
).to("cuda")

init_image = Image.open("sketch.jpg").convert("RGB").resize((512, 512))

image = pipe(
    prompt="a photorealistic painting of a landscape",
    image=init_image,
    strength=0.75,        # denoising strength: 0 = без изменений, 1 = полная генерация
    guidance_scale=7.5,
    num_inference_steps=50,
).images[0]

Связанные термины

  • denoising strength — ключевой параметр img2img
  • txt2img — режим без начального изображения
  • inpainting — редактирование части изображения
  • ControlNet — управление структурой при трансформации

Готовы запустить GPU-задачу?

Запустить GPU-сервер