Image Generation
img2img
Трансформация существующего изображения по промпту с регулируемой степенью изменения.
Что такое img2img
Img2img — режим генерации, при котором входным является не чистый шум, а реальное изображение, частично зашумлённое до уровня denoising strength. Модель «исправляет» его с учётом промпта, сохраняя общую структуру и композицию оригинала.
При denoising_strength=1.0 → максимальный шум → результат как txt2img (оригинал полностью игнорируется). При 0.3 → лёгкое изменение стиля при сохранении содержимого.
Типичные применения
- Стилизация: перевести набросок в реалистичное фото или аниме
- Улучшение: повысить качество размытого или испорченного изображения
- Вариации: генерировать похожие изображения от одной основы
- Апскейл с SD: увеличить и улучшить детали одновременно
Параметры img2img
from diffusers import StableDiffusionImg2ImgPipeline
from PIL import Image
import torch
pipe = StableDiffusionImg2ImgPipeline.from_pretrained(
"runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16
).to("cuda")
init_image = Image.open("sketch.jpg").convert("RGB").resize((512, 512))
image = pipe(
prompt="a photorealistic painting of a landscape",
image=init_image,
strength=0.75, # denoising strength: 0 = без изменений, 1 = полная генерация
guidance_scale=7.5,
num_inference_steps=50,
).images[0]
Связанные термины
- denoising strength — ключевой параметр img2img
- txt2img — режим без начального изображения
- inpainting — редактирование части изображения
- ControlNet — управление структурой при трансформации
Готовы запустить GPU-задачу?
Запустить GPU-сервер