编辑数据合成方法

定义

编辑数据合成是指为指令式图像编辑模型自动或半自动地生成训练配对数据(源图像、编辑指令、目标图像)的方法论。由于高质量的「源图像 → 编辑指令 → 编辑结果」三元组难以大规模人工标注(成本极高、编辑意图主观),数据合成方法直接决定了编辑模型的训练规模和质量上限。

五代数据合成范式

范式 1:纯合成(InstructPix2Pix, 2022)

真实 Caption → GPT-3 微调生成 (指令, 目标Caption) → SD 生成图像对

InstructPix2Pix(UC Berkeley, 2022)开创了这一范式:

  • 从 LAION 收集真实图像 caption
  • 微调 GPT-3 从 caption 对生成编辑指令和修改后的 caption
  • 用 Stable Diffusion 根据两个 caption 分别生成源图和目标图
  • 450K 对,成本几乎为零
优点缺点
极低成本,可无限扩展图像质量受限于 SD 生成能力
指令多样性可控制(调整 GPT-3 prompt)存在 domain gap(合成 vs 真实图像)
无需人工标注编辑一致性差(两张独立生成的图可能不匹配)

范式 2:真实图像 + LLM 指令(UltraEdit, 2024)

真实图像 → LLM + 人类示例 in-context 生成指令 → 改进编辑模型生成 target

UltraEdit(北大, 2024)的关键改进:

  • 使用真实图像而非合成图像作为源
  • 收集少量高质量人类标注作为 in-context examples
  • LLM 基于这些示例为大规模真实图像自动生成编辑指令
  • 用编辑模型生成目标图像,再通过自动评估筛选
  • ~4M 对,规模与质量兼顾

关键洞察:LLM 通过 in-context learning 可以模仿人类的指令风格,从而将少量人工标注放大为大规模数据集。

范式 3:自适应编辑 + 自动质量筛选(AnyEdit, 2024)

多域图像 → 自适应编辑策略(20+ 类型) → 自动质量评估筛选 → Task-aware routing

AnyEdit(浙大, 2024)的差异化:

  • 不再用单一策略生成所有编辑类型,而是为 20+ 编辑类型设计自适应生成过程
  • 每种编辑类型有自己的数据生成 pipeline(如物体移除用 inpainting 模型做 target,背景替换用分割模型 + 生成模型)
  • 自动质量评估筛选 + task-aware routing(不同编辑任务用不同的数据处理路径)
  • 2.5M 对

范式 4:层级分类 + 专有能力(OpenGPT-4o-Image, 2025)

层级任务分类体系 → GPT-4o 按类别生成 → 结构化资源池

OpenGPT-4o-Image(2025)的系统化思路:

  • 先建立编辑任务的层级分类体系(基础编辑 / 风格变换 / 科学图像 / 文本渲染 / …)
  • 用 GPT-4o 按类别分别生成配对数据
  • 特别覆盖了冷门领域(科学图像、数据可视化、UI 设计)
  • 80K 对,规模较小但类别覆盖广

范式 5:情感驱动的语义编辑(EmoEditSet, 2024)

EmoSet 8类情感 → CLIP 聚类 → GPT-4V 情感因子树 → IP2P 生成 → 四轮筛选+人工

EmoEdit(深圳大学, 2024)的领域特化方案:

  • 从 EmoSet 情感数据集出发,构建「情感因子树」
  • 用 CLIP 聚类理解语义结构,GPT-4V 分配情感标签
  • IP2P 生成候选 → 四轮自动筛选(CLIP image/text similarity、Aesthetic score、Emotion score) → 人工审核
  • 40K 对,8 类情感,是目前唯一的情感编辑数据集

范式 6:多模态多参考合成(DreamOmni2, 2025)

参考图像库 → 三阶段合成管线 → 多模态指令编辑/生成数据

DreamOmni2(CUHK+ByteDance)首次为多模态指令编辑和生成(需要参考图像)合成数据:

  • 三阶段管线:参考图像选择 → 指令合成 → 目标图像生成
  • 挑战:多张参考图像的空间排列、指令与多参考的对齐

数据合成方法对比

范式代表工作规模图像来源指令生成核心创新
纯合成IP2P450K纯合成(SD)GPT-3 微调零成本无限扩展
真实+LLMUltraEdit~4M真实为主LLM in-context人类示例放大
自适应AnyEdit2.5M多域混合自适应策略Task-aware routing
层级分类OpenGPT-4o80KGPT-4o 生成GPT-4o冷门领域覆盖
情感特化EmoEditSet40K真实+IP2PGPT-4V + 因子树唯一情感数据集
多模态多参考DreamOmni2中大规模合成+真实VLM 驱动首次覆盖多参考场景

关键设计选择

1. 合成 vs 真实图像

  • 纯合成(IP2P):成本最低,但 domain gap 在细节保持和自然度上明显
  • 真实为主(UltraEdit):质量更好,但真实图像的编辑结果本身依赖编辑模型的质量
  • 混合策略(AnyEdit, EmoEditSet):根据不同编辑类型的需求选择来源
  • 共识:编辑指令理解是 domain-agnostic 的,编辑执行质量是 domain-dependent 的。最优策略可能是:用合成数据学指令跟随,用真实数据学图像质量。

2. 指令生成的多样性

  • 模板化(IP2P 早期):「添加 X」「删除 Y」——指令单调,泛化差
  • LLM in-context(UltraEdit):模仿人类标注风格,指令更自然多样
  • 情感因子树(EmoEdit):用层级化语义描述替代离散类型标签,覆盖灰色地带
  • 目标:指令的多样性决定了模型泛化的上限

3. 质量筛选的自动化

质量筛选是数据合成的「隐形瓶颈」:

筛选方法适用场景局限
CLIP image similarity判断编辑前后的图像是否相关不评估编辑质量
CLIP text similarity判断编辑结果是否符合指令不评估视觉质量
Aesthetic score过滤低质量图像审美偏见
Emotion score情感编辑特有依赖训练数据
人工审核最终质量保证成本高,不可扩展

趋势:从单轮简单筛选 → 多轮级联筛选(EmoEdit 四轮)→ MLLM-as-Judge(让更强的多模态模型评判编辑质量)。

4. 数据规模与质量的权衡

  • 规模优势(IP2P 450K、UltraEdit 4M):更多的数据让模型见过更多编辑模式
  • 质量优势(EmoEditSet 40K 四轮筛选、OpenGPT-4o 80K 结构化):更干净的数据让模型学得更精确
  • 分界点:< 10K 高质量样本(如 MagicBrush)通常不够;> 100K 且质量可接受 > 10K 极高质量
  • 实际策略(AnyEdit):大规模粗筛 + 中等规模精筛,兼顾规模和质量

待解决问题

  1. 编辑一致性的自动评估:如何自动判断源图和目标图在不编辑的区域保持一致?目前缺乏可靠的自动指标。
  2. 复杂编辑的合成:多步编辑(先加一个物体,再改变其颜色,再调整光照)的数据合成极其困难。
  3. 跨域泛化:在照片上训练的编辑模型能否泛化到插画、3D 渲染、UI 设计?
  4. 真实用户指令分布:合成指令的分布是否匹配真实用户的指令分布?这是一个未充分研究的问题。

与已有 Wiki 的关系


深度分析:数据合成的「隐性假设」

1. 所有数据合成方法都假设「好指令 → 好编辑」

这个假设在简单编辑上成立(「把背景换成海滩」——指令清晰,目标明确),但在复杂编辑上可能不成立。很多用户自己也不知道想要什么结果——「让这张图更好看」「拍得更有电影感」。为这类模糊指令合成训练数据,需要先定义「什么算更好看」——这是一个审美判断,而非编辑判断。

2. LLM in-context 方法的问题:人类示例的偏见放大

UltraEdit 用少量人类示例做 in-context 来教 LLM 生成指令,但人类示例本身带有编辑者偏好的「风格」——有人喜欢大幅改动,有人喜欢微调。LLM 会学习和放大这种风格偏差。如果示例主要是色彩调整类,LLM 可能很少生成内容修改类指令。

解决方向:多样性引导的指令生成——明确要求 LLM 覆盖不同类型的编辑,而非自由发挥。

3. 「四轮筛选」是无奈之举,不是最优方案

EmoEdit 的四轮筛选(CLIP image similarity → CLIP text similarity → Aesthetic score → Emotion score → 人工审核)看起来很严谨,但每一轮筛选都在丢弃数据。四轮之后保留的数据可能不到原始生成的 10%。当筛选丢弃 90% 的数据时,保留下来的 10% 是否代表真实的编辑分布?更可能的情况是:筛选器选择的是一种特定的、安全的、保守的编辑风格,排除了惊喜和创造性。

更优方案可能不是更好的筛选,而是更好的生成——与其生成大量低质量数据再筛选,不如提升数据生成管线本身的质量,让生成的数据从源头就更可靠。

4. 未来的数据合成:用户交互驱动的闭环

当前的数据合成都是一次性的(生成 → 筛选 → 训练),未来的方向可能是交互式数据合成

  • 用户做一些编辑 → 系统记录编辑轨迹(源、指令、中间步骤、最终结果、用户满意度)
  • 真实用户的编辑轨迹是最高质量的训练数据
  • 类似 ChatGPT 的用户反馈闭环,但要获得图像编辑的交互数据比文本更困难(编辑工具的使用比打字门槛高)