指令编辑数据集比较

概览

指令编辑的核心瓶颈之一就是训练数据。从 InstructPix2Pix 的纯合成到 UltraEdit 的真实图像 + LLM in-context,数据质量和多样性在持续提升。

全维度对比

数据集规模图像来源指令生成编辑类型数年份
InstructPix2Pix450K纯合成 (SD)GPT-3 微调~5 类2022
MagicBrush~10K真实+合成人工标注多类2023
EmoEditSet40K真实+IP2P生成GPT-4V 情感因子树8 情感×多语义2024
UltraEdit~4M真实图像为主LLM + 人类 in-context多类2024
AnyEdit2.5M多域真实+生成自适应编辑过程20+2024
OpenGPT-4o-Image80KGPT-4o 生成层级分类+GPT-4o10+(含科学图像)2025
ImgEdit中大规模多域统一协议多类2025

数据生成范式演进

范式 1:纯合成(InstructPix2Pix, 2022)

真实 Caption → GPT-3 生成指令+目标Caption → SD 生成图像对
  • ✅ 极低成本,可大规模扩展
  • ❌ 图像质量受限于生成模型,存在 domain gap

范式 2:真实图像 + LLM 指令(UltraEdit, 2024)

真实图像 → LLM + 人类示例 in-context 生成指令 → 改进编辑模型生成 target
  • ✅ 图像真实、多样性高
  • ❌ 编辑质量仍依赖生成模型

范式 3:自适应编辑 + 自动筛选(AnyEdit, 2024)

多域图像 → 自适应编辑策略 → 自动质量评估筛选
  • ✅ Task-aware,质量更高
  • ❌ 复杂度更高

范式 4:层级分类 + 专有能力(OpenGPT-4o-Image, 2025)

层级任务分类 → GPT-4o 按类别生成 → 结构化资源池
  • ✅ 覆盖冷门领域(科学图像),系统化
  • ❌ 依赖 GPT-4o 质量

范式 5:情感驱动的语义编辑(EmoEditSet, 2024)

EmoSet → CLIP 聚类 → GPT-4V 情感因子树 → IP2P 生成 → 四轮筛选+人工
  • ✅ 唯一的情感编辑数据集
  • ❌ 受限于 8 类情感

深度思考

合成 vs 真实:domain gap 到底多大?

InstructPix2Pix 完全用合成数据训练却能零样本泛化到真实图像,说明”编辑操作”本身是 domain-agnostic 的。但 UltraEdit 等后续工作证明,真实图像训练的模型在细节保持和自然度上更好。

我的判断:编辑指令的理解是 domain-agnostic 的(“加一只猫”在哪都是”加一只猫”),但编辑执行的质量是 domain-dependent 的。最优策略可能是:用合成数据学指令跟随,用真实数据学图像质量。

编辑类型数量:越多越好吗?

AnyEdit 的 20+ 类型看起来比 InstructPix2Pix 的 ~5 类强很多,但这引出一个问题:编辑类型的边界在哪里?“把白天变黄昏”是”场景变换”还是”光照编辑”?分类体系本身就在塑造模型的行为。

我的判断:与其硬分类,不如像 EmoEdit 那样用”语义因子树”——用层级化的语义描述而非离散类型标签。这样可以自然地覆盖类型之间的灰色地带。

数据质量 vs 数据数量:哪个更重要?

UniWorld-V1 用 2.7M 高质量样本做到了很好的编辑效果,而 InstructPix2Pix 用 450K 合成数据也做到了零样本泛化。质量似乎比数量更重要——但这个结论只在数量达到一定阈值后成立。少于 10K 的高质量样本(如 MagicBrush)就不够。

情感编辑数据的特殊性

EmoEditSet 是目前唯一的情感编辑数据集。它面临一个独特挑战:如何定义”编辑质量”?对于普通编辑,CLIP image similarity 等自动指标还能用;对于情感编辑,指标本身就需要情感理解能力——这是一个循环依赖。

相关比较