InstructPix2Pix
基本信息
| 属性 | 值 |
|---|
| 全称 | InstructPix2Pix: Learning to Follow Image Editing Instructions |
| 作者 | Tim Brooks, Aleksander Holynski, Alexei A. Efros |
| 机构 | UC Berkeley |
| 年份 | 2022 (arXiv 2211.09800) |
| 类型 | 条件扩散模型 |
历史地位
指令式图像编辑的奠基工作。首次提出”输入原图 + 自然语言指令 → 编辑后图像”的范式,启发了后续几乎所有指令编辑研究。
核心贡献
- 数据生成范式:GPT-3 微调生成编辑指令 + SD + Prompt-to-Prompt 生成配对图像 → 454K 训练样本,无需人工标注
- 零样本泛化:完全在合成数据上训练,可直接泛化到真实图像和人类编写的指令
- 前向推理:单次前向传播完成编辑,无需 per-example 微调或 inversion
架构
- 基座:Stable Diffusion 条件扩散模型
- 输入:原图(VAE 编码)+ 编辑指令(CLIP text embedding)
- 训练:Classifier-free guidance
被推使用 / 改进
| 工作 | 如何使用 |
|---|
| EmoEdit | 在 IP2P 基础上加 Emotion adapter |
| UltraEdit | 改进 IP2P 的数据质量和多样性 |
| AnyEdit | 在 IP2P 数据范式上加 task routing |
| EditWorld | 扩展指令类型到物理世界动态 |
局限性
- 图像质量受限于 SD 1.x(512×512)
- 复杂物理编辑(光照变化、阴影)效果差
- 数据全为合成,对极端真实场景有 domain gap
在 Wiki 中的关联