指令编辑数据集比较
概览
指令编辑的核心瓶颈之一就是训练数据。从 InstructPix2Pix 的纯合成到 UltraEdit 的真实图像 + LLM in-context,数据质量和多样性在持续提升。
全维度对比
| 数据集 | 规模 | 图像来源 | 指令生成 | 编辑类型数 | 年份 |
|---|---|---|---|---|---|
| InstructPix2Pix | 450K | 纯合成 (SD) | GPT-3 微调 | ~5 类 | 2022 |
| MagicBrush | ~10K | 真实+合成 | 人工标注 | 多类 | 2023 |
| EmoEditSet | 40K | 真实+IP2P生成 | GPT-4V 情感因子树 | 8 情感×多语义 | 2024 |
| UltraEdit | ~4M | 真实图像为主 | LLM + 人类 in-context | 多类 | 2024 |
| AnyEdit | 2.5M | 多域真实+生成 | 自适应编辑过程 | 20+ | 2024 |
| OpenGPT-4o-Image | 80K | GPT-4o 生成 | 层级分类+GPT-4o | 10+(含科学图像) | 2025 |
| ImgEdit | 中大规模 | 多域 | 统一协议 | 多类 | 2025 |
数据生成范式演进
范式 1:纯合成(InstructPix2Pix, 2022)
真实 Caption → GPT-3 生成指令+目标Caption → SD 生成图像对
- ✅ 极低成本,可大规模扩展
- ❌ 图像质量受限于生成模型,存在 domain gap
范式 2:真实图像 + LLM 指令(UltraEdit, 2024)
真实图像 → LLM + 人类示例 in-context 生成指令 → 改进编辑模型生成 target
- ✅ 图像真实、多样性高
- ❌ 编辑质量仍依赖生成模型
范式 3:自适应编辑 + 自动筛选(AnyEdit, 2024)
多域图像 → 自适应编辑策略 → 自动质量评估筛选
- ✅ Task-aware,质量更高
- ❌ 复杂度更高
范式 4:层级分类 + 专有能力(OpenGPT-4o-Image, 2025)
层级任务分类 → GPT-4o 按类别生成 → 结构化资源池
- ✅ 覆盖冷门领域(科学图像),系统化
- ❌ 依赖 GPT-4o 质量
范式 5:情感驱动的语义编辑(EmoEditSet, 2024)
EmoSet → CLIP 聚类 → GPT-4V 情感因子树 → IP2P 生成 → 四轮筛选+人工
- ✅ 唯一的情感编辑数据集
- ❌ 受限于 8 类情感
深度思考
合成 vs 真实:domain gap 到底多大?
InstructPix2Pix 完全用合成数据训练却能零样本泛化到真实图像,说明”编辑操作”本身是 domain-agnostic 的。但 UltraEdit 等后续工作证明,真实图像训练的模型在细节保持和自然度上更好。
我的判断:编辑指令的理解是 domain-agnostic 的(“加一只猫”在哪都是”加一只猫”),但编辑执行的质量是 domain-dependent 的。最优策略可能是:用合成数据学指令跟随,用真实数据学图像质量。
编辑类型数量:越多越好吗?
AnyEdit 的 20+ 类型看起来比 InstructPix2Pix 的 ~5 类强很多,但这引出一个问题:编辑类型的边界在哪里?“把白天变黄昏”是”场景变换”还是”光照编辑”?分类体系本身就在塑造模型的行为。
我的判断:与其硬分类,不如像 EmoEdit 那样用”语义因子树”——用层级化的语义描述而非离散类型标签。这样可以自然地覆盖类型之间的灰色地带。
数据质量 vs 数据数量:哪个更重要?
UniWorld-V1 用 2.7M 高质量样本做到了很好的编辑效果,而 InstructPix2Pix 用 450K 合成数据也做到了零样本泛化。质量似乎比数量更重要——但这个结论只在数量达到一定阈值后成立。少于 10K 的高质量样本(如 MagicBrush)就不够。
情感编辑数据的特殊性
EmoEditSet 是目前唯一的情感编辑数据集。它面临一个独特挑战:如何定义”编辑质量”?对于普通编辑,CLIP image similarity 等自动指标还能用;对于情感编辑,指标本身就需要情感理解能力——这是一个循环依赖。