Blog1

❯

❯

❯

InstructPix2Pix: Learning to Follow Image Editing Instructions

InstructPix2Pix: Learning to Follow Image Editing Instructions

2026年4月30日3分钟阅读

image-editing
instruction-following
diffusion
data-generation
foundational

InstructPix2Pix: Learning to Follow Image Editing Instructions

UC Berkeley，2022。指令式图像编辑的奠基性工作。

核心结论

首次提出根据人类自然语言指令编辑图像的方法：输入原图 + 文字指令 → 编辑后图像。
核心创新：利用两个预训练大模型（GPT-3 + Stable Diffusion + Prompt-to-Prompt）自动生成配对训练数据，无需人工标注。
训练出 InstructPix2Pix 条件扩散模型，前向一次推理即可完成编辑，无需 per-example 微调或 inversion。
在完全合成的数据上训练，零样本泛化到真实图像和人类编写的指令。

数据生成管线（两阶段）

阶段 1：生成指令和配对 Caption

在 LAION 真实 caption 上微调 GPT-3：输入原始 caption → 输出编辑指令 + 编辑后 caption
先用人工标注 700 个样本做微调，再大规模生成

阶段 2：生成配对图像

将 4,445,660 个 caption 对用 Stable Diffusion + Prompt-to-Prompt 转为图像对
筛选后得到 454,445 个高质量训练样本

模型架构

基于 Stable Diffusion 条件扩散模型
输入：原图（encoded）+ 编辑指令（CLIP text embedding）
输出：编辑后图像
使用 classifier-free guidance 平衡指令跟随和图像质量

历史地位

开创了”指令式图像编辑”这个子方向
数据生成范式（LLM + T2I → 配对数据）影响深远，后续几乎所有指令编辑工作都沿用了这一思路
InstructPix2Pix 被 EmoEdit、UltraEdit 等工作直接使用或改进

与现有 Wiki 的关系

关联：扩散模型图像编辑与生成
是 EmoEdit 的基座编辑模型（EmoEdit 在 IP2P 基础上加 Emotion adapter）
UltraEdit、AnyEdit 等后续工作都在 IP2P 基础上改进数据质量和编辑多样性

局限性

图像质量受限于当时的 Stable Diffusion（512×512）
编辑类型受限（主要覆盖添加/替换/删除/风格迁移）
数据全为合成，可能存在 domain gap

关系图谱

InstructPix2Pix: Learning to Follow Image Editing Instructions
核心结论
数据生成管线（两阶段）
阶段 1：生成指令和配对 Caption
阶段 2：生成配对图像
模型架构
历史地位
与现有 Wiki 的关系
局限性

反向链接

编辑数据合成方法
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
扩散模型图像编辑与生成
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community