RISEBench: Benchmarking Reasoning-Informed Visual Editing

上海交大 + 上海 AI Lab + 武大 + 同济 + 普林斯顿,2025。

核心结论

  • 提出 RISEBench,首个 推理信息视觉编辑(RISE) benchmark。
  • 覆盖四大推理类别:Temporal(时间)、Causal(因果)、Spatial(空间)、Logical(逻辑)
  • 评估框架:Instruction Reasoning + Appearance Consistency + Visual Plausibility(人类评判 + LMM-as-a-judge)。
  • 测试了 8 个主流模型(开源+闭源),发现现有模型在推理类编辑上存在显著困难。

四大推理类别

类别示例任务
Temporal”把这个场景变成 10 年后的样子”
Causal”因为下雨了,让地面变湿”
Spatial”把左边的树移到房子后面”
Logical”今天是圣诞节,请添加相应装饰”

关键发现

  • 当前模型(包括 GPT-4o)在推理类编辑上表现显著弱于简单编辑
  • Causal 和 Temporal 推理是最难的类别
  • 这解释了为什么 EditWorld 提出的 world-instructed editing 具有挑战性

与现有 Wiki 的关系

  • 关联:扩散模型图像编辑与生成
  • 为 EditWorld、GoT 等推理类编辑方法提供了标准化的评估框架
  • 填补了从”简单编辑”到”推理编辑”的评估空白