UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

北京大学 + BIGAI + 清华 + UCLA + UIUC,2024。

核心结论

  • 提出 UltraEdit,约 400 万编辑样本的大规模自动生成数据集,系统性地解决了 InstructPix2Pix 等现有数据集的不足。
  • 三大优势:(1) 利用 LLM 创造力 + 人类标注者 in-context 编辑示例,覆盖更广的编辑指令类型;(2) 基于真实图像(照片 + 艺术品),多样性更高;(3) 编辑质量显著优于纯合成数据。
  • 基于 UltraEdit 训练的编辑模型在多个 benchmark 上大幅超越 InstructPix2Pix。

与 InstructPix2Pix 的关键改进

维度InstructPix2PixUltraEdit
数据规模450K~4M
图像来源纯生成(SD)真实图像为主
指令多样性依赖 GPT-3 生成LLM + 人类示例 in-context
编辑粒度粗粒度细粒度
质量保证自动筛选多级质量控制

数据生成策略

  1. 指令生成:LLM + 人类标注者提供的 in-context editing examples → 更多样、更自然的指令
  2. 图像来源:真实照片和艺术品(非纯合成)
  3. 编辑执行:利用改进的编辑模型生成高质量 target
  4. 质量筛选:多维度自动 + 人工审核

与现有 Wiki 的关系