WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

核心结论

  • WorldEdit 针对现有图像编辑模型的核心盲区提出:模型擅长处理显式编辑指令(“把头发变蓝”),但不擅长需要世界知识和因果推理的隐式指令(“让她看起来刚哭过”)。
  • 提出了 WorldEdit 数据集:高质量因果逻辑引导的图像编辑样本,以及 WorldEdit-Test benchmark 用于评估因果编辑场景。
  • 通过两阶段训练框架 + 因果验证 reward 微调 BAGEL 等模型,在 instruction following 和 knowledge plausibility 上显著缩小了与 GPT-4o 和 Nano Banana 的差距。

关键事实

  • 2026 年 2 月(arXiv:2602.07095)。作者来自多所高校和研究机构。
  • 数据集特点:
    • 编辑类别按因果逻辑组织(如”天气变化""情感表达""物理损伤”等)。
    • 使用 rephrase 策略生成多样化指令(同一种因果变化对应多种自然语言表达)。
    • 提供编辑前后的图文对,以及因果解释标签。
  • 训练策略:两阶段训练——编辑生成 + 因果验证 reward 微调。
  • 在开放源模型上首次系统地评估了”知识 plausibility”(编辑后的图像是否真实反映了因果逻辑)。

与现有 Wiki 的关系

  • 直接关联 扩散模型图像编辑与生成 中的 benchmark 生态和推理编辑章节。
  • RISEBenchImgEdit 等编辑 benchmark 并列,填补了”因果推理编辑评估”的空白。
  • EditWorld 不同:EditWorld 关注物理世界动态模拟,WorldEdit 关注因果知识驱动的隐式编辑。
  • 该工作将 benchmark 从”能否编辑”推进到”编辑是否合理”的层次。

后续问题

  • 因果验证 reward 的信号质量和覆盖范围如何保证?是否可能学到捷径?
  • “知识 plausibility”的评估指标是否足够客观?人工评估 vs 自动评估的可靠性如何?