指令编辑数据集比较

概览

指令编辑的核心瓶颈之一就是训练数据。从 InstructPix2Pix 的纯合成到 UltraEdit 的真实图像 + LLM in-context，数据质量和多样性在持续提升。

数据集	规模	图像来源	指令生成	编辑类型数	年份
InstructPix2Pix	450K	纯合成 (SD)	GPT-3 微调	~5 类	2022
MagicBrush	~10K	真实+合成	人工标注	多类	2023
EmoEditSet	40K	真实+IP2P生成	GPT-4V 情感因子树	8 情感×多语义	2024
UltraEdit	~4M	真实图像为主	LLM + 人类 in-context	多类	2024
AnyEdit	2.5M	多域真实+生成	自适应编辑过程	20+	2024
OpenGPT-4o-Image	80K	GPT-4o 生成	层级分类+GPT-4o	10+（含科学图像）	2025
ImgEdit	中大规模	多域	统一协议	多类	2025

真实 Caption → GPT-3 生成指令+目标Caption → SD 生成图像对

真实图像 → LLM + 人类示例 in-context 生成指令 → 改进编辑模型生成 target

多域图像 → 自适应编辑策略 → 自动质量评估筛选

层级任务分类 → GPT-4o 按类别生成 → 结构化资源池

EmoSet → CLIP 聚类 → GPT-4V 情感因子树 → IP2P 生成 → 四轮筛选+人工

InstructPix2Pix 完全用合成数据训练却能零样本泛化到真实图像，说明”编辑操作”本身是 domain-agnostic 的。但 UltraEdit 等后续工作证明，真实图像训练的模型在细节保持和自然度上更好。

我的判断：编辑指令的理解是 domain-agnostic 的（“加一只猫”在哪都是”加一只猫”），但编辑执行的质量是 domain-dependent 的。最优策略可能是：用合成数据学指令跟随，用真实数据学图像质量。

AnyEdit 的 20+ 类型看起来比 InstructPix2Pix 的 ~5 类强很多，但这引出一个问题：编辑类型的边界在哪里？“把白天变黄昏”是”场景变换”还是”光照编辑”？分类体系本身就在塑造模型的行为。

我的判断：与其硬分类，不如像 EmoEdit 那样用”语义因子树”——用层级化的语义描述而非离散类型标签。这样可以自然地覆盖类型之间的灰色地带。

UniWorld-V1 用 2.7M 高质量样本做到了很好的编辑效果，而 InstructPix2Pix 用 450K 合成数据也做到了零样本泛化。质量似乎比数量更重要——但这个结论只在数量达到一定阈值后成立。少于 10K 的高质量样本（如 MagicBrush）就不够。

EmoEditSet 是目前唯一的情感编辑数据集。它面临一个独特挑战：如何定义”编辑质量”？对于普通编辑，CLIP image similarity 等自动指标还能用；对于情感编辑，指标本身就需要情感理解能力——这是一个循环依赖。