InstructPix2Pix

基本信息

属性
全称InstructPix2Pix: Learning to Follow Image Editing Instructions
作者Tim Brooks, Aleksander Holynski, Alexei A. Efros
机构UC Berkeley
年份2022 (arXiv 2211.09800)
类型条件扩散模型

历史地位

指令式图像编辑的奠基工作。首次提出”输入原图 + 自然语言指令 → 编辑后图像”的范式,启发了后续几乎所有指令编辑研究。

核心贡献

  1. 数据生成范式:GPT-3 微调生成编辑指令 + SD + Prompt-to-Prompt 生成配对图像 → 454K 训练样本,无需人工标注
  2. 零样本泛化:完全在合成数据上训练,可直接泛化到真实图像和人类编写的指令
  3. 前向推理:单次前向传播完成编辑,无需 per-example 微调或 inversion

架构

  • 基座:Stable Diffusion 条件扩散模型
  • 输入:原图(VAE 编码)+ 编辑指令(CLIP text embedding)
  • 训练:Classifier-free guidance

被推使用 / 改进

工作如何使用
EmoEdit在 IP2P 基础上加 Emotion adapter
UltraEdit改进 IP2P 的数据质量和多样性
AnyEdit在 IP2P 数据范式上加 task routing
EditWorld扩展指令类型到物理世界动态

局限性

  • 图像质量受限于 SD 1.x(512×512)
  • 复杂物理编辑(光照变化、阴影)效果差
  • 数据全为合成,对极端真实场景有 domain gap

在 Wiki 中的关联