编辑数据合成方法

定义

编辑数据合成是指为指令式图像编辑模型自动或半自动地生成训练配对数据（源图像、编辑指令、目标图像）的方法论。由于高质量的「源图像 → 编辑指令 → 编辑结果」三元组难以大规模人工标注（成本极高、编辑意图主观），数据合成方法直接决定了编辑模型的训练规模和质量上限。

五代数据合成范式

范式 1：纯合成（InstructPix2Pix, 2022）

真实 Caption → GPT-3 微调生成 (指令, 目标Caption) → SD 生成图像对

InstructPix2Pix（UC Berkeley, 2022）开创了这一范式：

从 LAION 收集真实图像 caption
微调 GPT-3 从 caption 对生成编辑指令和修改后的 caption
用 Stable Diffusion 根据两个 caption 分别生成源图和目标图
450K 对，成本几乎为零

优点	缺点
极低成本，可无限扩展	图像质量受限于 SD 生成能力
指令多样性可控制（调整 GPT-3 prompt）	存在 domain gap（合成 vs 真实图像）
无需人工标注	编辑一致性差（两张独立生成的图可能不匹配）

范式 2：真实图像 + LLM 指令（UltraEdit, 2024）

真实图像 → LLM + 人类示例 in-context 生成指令 → 改进编辑模型生成 target

UltraEdit（北大, 2024）的关键改进：

使用真实图像而非合成图像作为源
收集少量高质量人类标注作为 in-context examples
LLM 基于这些示例为大规模真实图像自动生成编辑指令
用编辑模型生成目标图像，再通过自动评估筛选
~4M 对，规模与质量兼顾

关键洞察：LLM 通过 in-context learning 可以模仿人类的指令风格，从而将少量人工标注放大为大规模数据集。

范式 3：自适应编辑 + 自动质量筛选（AnyEdit, 2024）

多域图像 → 自适应编辑策略（20+ 类型） → 自动质量评估筛选 → Task-aware routing

AnyEdit（浙大, 2024）的差异化：

不再用单一策略生成所有编辑类型，而是为 20+ 编辑类型设计自适应生成过程
每种编辑类型有自己的数据生成 pipeline（如物体移除用 inpainting 模型做 target，背景替换用分割模型 + 生成模型）
自动质量评估筛选 + task-aware routing（不同编辑任务用不同的数据处理路径）
2.5M 对

范式 4：层级分类 + 专有能力（OpenGPT-4o-Image, 2025）

层级任务分类体系 → GPT-4o 按类别生成 → 结构化资源池

OpenGPT-4o-Image（2025）的系统化思路：

先建立编辑任务的层级分类体系（基础编辑 / 风格变换 / 科学图像 / 文本渲染 / …）
用 GPT-4o 按类别分别生成配对数据
特别覆盖了冷门领域（科学图像、数据可视化、UI 设计）
80K 对，规模较小但类别覆盖广

范式 5：情感驱动的语义编辑（EmoEditSet, 2024）

EmoSet 8类情感 → CLIP 聚类 → GPT-4V 情感因子树 → IP2P 生成 → 四轮筛选+人工

EmoEdit（深圳大学, 2024）的领域特化方案：

从 EmoSet 情感数据集出发，构建「情感因子树」
用 CLIP 聚类理解语义结构，GPT-4V 分配情感标签
IP2P 生成候选 → 四轮自动筛选（CLIP image/text similarity、Aesthetic score、Emotion score） → 人工审核
40K 对，8 类情感，是目前唯一的情感编辑数据集

范式 6：多模态多参考合成（DreamOmni2, 2025）

参考图像库 → 三阶段合成管线 → 多模态指令编辑/生成数据

DreamOmni2（CUHK+ByteDance）首次为多模态指令编辑和生成（需要参考图像）合成数据：

三阶段管线：参考图像选择 → 指令合成 → 目标图像生成
挑战：多张参考图像的空间排列、指令与多参考的对齐

数据合成方法对比

范式	代表工作	规模	图像来源	指令生成	核心创新
纯合成	IP2P	450K	纯合成（SD）	GPT-3 微调	零成本无限扩展
真实+LLM	UltraEdit	~4M	真实为主	LLM in-context	人类示例放大
自适应	AnyEdit	2.5M	多域混合	自适应策略	Task-aware routing
层级分类	OpenGPT-4o	80K	GPT-4o 生成	GPT-4o	冷门领域覆盖
情感特化	EmoEditSet	40K	真实+IP2P	GPT-4V + 因子树	唯一情感数据集
多模态多参考	DreamOmni2	中大规模	合成+真实	VLM 驱动	首次覆盖多参考场景

关键设计选择

1. 合成 vs 真实图像

纯合成（IP2P）：成本最低，但 domain gap 在细节保持和自然度上明显
真实为主（UltraEdit）：质量更好，但真实图像的编辑结果本身依赖编辑模型的质量
混合策略（AnyEdit, EmoEditSet）：根据不同编辑类型的需求选择来源
共识：编辑指令理解是 domain-agnostic 的，编辑执行质量是 domain-dependent 的。最优策略可能是：用合成数据学指令跟随，用真实数据学图像质量。

2. 指令生成的多样性

模板化（IP2P 早期）：「添加 X」「删除 Y」——指令单调，泛化差
LLM in-context（UltraEdit）：模仿人类标注风格，指令更自然多样
情感因子树（EmoEdit）：用层级化语义描述替代离散类型标签，覆盖灰色地带
目标：指令的多样性决定了模型泛化的上限

3. 质量筛选的自动化

质量筛选是数据合成的「隐形瓶颈」：

筛选方法	适用场景	局限
CLIP image similarity	判断编辑前后的图像是否相关	不评估编辑质量
CLIP text similarity	判断编辑结果是否符合指令	不评估视觉质量
Aesthetic score	过滤低质量图像	审美偏见
Emotion score	情感编辑特有	依赖训练数据
人工审核	最终质量保证	成本高，不可扩展

趋势：从单轮简单筛选 → 多轮级联筛选（EmoEdit 四轮）→ MLLM-as-Judge（让更强的多模态模型评判编辑质量）。

4. 数据规模与质量的权衡

规模优势（IP2P 450K、UltraEdit 4M）：更多的数据让模型见过更多编辑模式
质量优势（EmoEditSet 40K 四轮筛选、OpenGPT-4o 80K 结构化）：更干净的数据让模型学得更精确
分界点：< 10K 高质量样本（如 MagicBrush）通常不够；> 100K 且质量可接受 > 10K 极高质量
实际策略（AnyEdit）：大规模粗筛 + 中等规模精筛，兼顾规模和质量

待解决问题

编辑一致性的自动评估：如何自动判断源图和目标图在不编辑的区域保持一致？目前缺乏可靠的自动指标。
复杂编辑的合成：多步编辑（先加一个物体，再改变其颜色，再调整光照）的数据合成极其困难。
跨域泛化：在照片上训练的编辑模型能否泛化到插画、3D 渲染、UI 设计？
真实用户指令分布：合成指令的分布是否匹配真实用户的指令分布？这是一个未充分研究的问题。

与已有 Wiki 的关系

数据集对比：指令编辑数据集比较 — 各数据集的具体规模和特点
编辑能力演进：扩散模型图像编辑与生成 — 数据 → 编辑能力的因果关系
情感编辑特化：情感图像编辑 — EmoEditSet 的情感特化数据合成

深度分析：数据合成的「隐性假设」

1. 所有数据合成方法都假设「好指令 → 好编辑」

这个假设在简单编辑上成立（「把背景换成海滩」——指令清晰，目标明确），但在复杂编辑上可能不成立。很多用户自己也不知道想要什么结果——「让这张图更好看」「拍得更有电影感」。为这类模糊指令合成训练数据，需要先定义「什么算更好看」——这是一个审美判断，而非编辑判断。

2. LLM in-context 方法的问题：人类示例的偏见放大

UltraEdit 用少量人类示例做 in-context 来教 LLM 生成指令，但人类示例本身带有编辑者偏好的「风格」——有人喜欢大幅改动，有人喜欢微调。LLM 会学习和放大这种风格偏差。如果示例主要是色彩调整类，LLM 可能很少生成内容修改类指令。

解决方向：多样性引导的指令生成——明确要求 LLM 覆盖不同类型的编辑，而非自由发挥。

3. 「四轮筛选」是无奈之举，不是最优方案

EmoEdit 的四轮筛选（CLIP image similarity → CLIP text similarity → Aesthetic score → Emotion score → 人工审核）看起来很严谨，但每一轮筛选都在丢弃数据。四轮之后保留的数据可能不到原始生成的 10%。当筛选丢弃 90% 的数据时，保留下来的 10% 是否代表真实的编辑分布？更可能的情况是：筛选器选择的是一种特定的、安全的、保守的编辑风格，排除了惊喜和创造性。

更优方案可能不是更好的筛选，而是更好的生成——与其生成大量低质量数据再筛选，不如提升数据生成管线本身的质量，让生成的数据从源头就更可靠。

4. 未来的数据合成：用户交互驱动的闭环

当前的数据合成都是一次性的（生成 → 筛选 → 训练），未来的方向可能是交互式数据合成：

用户做一些编辑 → 系统记录编辑轨迹（源、指令、中间步骤、最终结果、用户满意度）
真实用户的编辑轨迹是最高质量的训练数据
类似 ChatGPT 的用户反馈闭环，但要获得图像编辑的交互数据比文本更困难（编辑工具的使用比打字门槛高）

Blog1

探索

编辑数据合成方法

编辑数据合成方法

定义

五代数据合成范式

范式 1：纯合成（InstructPix2Pix, 2022）

范式 2：真实图像 + LLM 指令（UltraEdit, 2024）

范式 3：自适应编辑 + 自动质量筛选（AnyEdit, 2024）

范式 4：层级分类 + 专有能力（OpenGPT-4o-Image, 2025）

范式 5：情感驱动的语义编辑（EmoEditSet, 2024）

范式 6：多模态多参考合成（DreamOmni2, 2025）

数据合成方法对比

关键设计选择

1. 合成 vs 真实图像

2. 指令生成的多样性

3. 质量筛选的自动化

4. 数据规模与质量的权衡

待解决问题

与已有 Wiki 的关系

深度分析：数据合成的「隐性假设」

1. 所有数据合成方法都假设「好指令 → 好编辑」

2. LLM in-context 方法的问题：人类示例的偏见放大

3. 「四轮筛选」是无奈之举，不是最优方案

4. 未来的数据合成：用户交互驱动的闭环

关系图谱

目录

反向链接