UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

北京大学 + BIGAI + 清华 + UCLA + UIUC，2024。

核心结论

提出 UltraEdit，约 400 万编辑样本的大规模自动生成数据集，系统性地解决了 InstructPix2Pix 等现有数据集的不足。
三大优势：(1) 利用 LLM 创造力 + 人类标注者 in-context 编辑示例，覆盖更广的编辑指令类型；(2) 基于真实图像（照片 + 艺术品），多样性更高；(3) 编辑质量显著优于纯合成数据。
基于 UltraEdit 训练的编辑模型在多个 benchmark 上大幅超越 InstructPix2Pix。

与 InstructPix2Pix 的关键改进

维度	InstructPix2Pix	UltraEdit
数据规模	450K	~4M
图像来源	纯生成（SD）	真实图像为主
指令多样性	依赖 GPT-3 生成	LLM + 人类示例 in-context
编辑粒度	粗粒度	细粒度
质量保证	自动筛选	多级质量控制

数据生成策略

指令生成：LLM + 人类标注者提供的 in-context editing examples → 更多样、更自然的指令
图像来源：真实照片和艺术品（非纯合成）
编辑执行：利用改进的编辑模型生成高质量 target
质量筛选：多维度自动 + 人工审核

与现有 Wiki 的关系

关联：扩散模型图像编辑与生成、InstructPix2Pix
是 InstructPix2Pix 数据范式的升级版，AnyEdit 在同一方向上继续推进
大规模高质量数据对 EmoEdit 等专业化编辑任务也有参考价值