RISEBench: Benchmarking Reasoning-Informed Visual Editing
上海交大 + 上海 AI Lab + 武大 + 同济 + 普林斯顿,2025。
核心结论
- 提出 RISEBench,首个 推理信息视觉编辑(RISE) benchmark。
- 覆盖四大推理类别:Temporal(时间)、Causal(因果)、Spatial(空间)、Logical(逻辑)。
- 评估框架:Instruction Reasoning + Appearance Consistency + Visual Plausibility(人类评判 + LMM-as-a-judge)。
- 测试了 8 个主流模型(开源+闭源),发现现有模型在推理类编辑上存在显著困难。
四大推理类别
| 类别 | 示例任务 |
|---|---|
| Temporal | ”把这个场景变成 10 年后的样子” |
| Causal | ”因为下雨了,让地面变湿” |
| Spatial | ”把左边的树移到房子后面” |
| Logical | ”今天是圣诞节,请添加相应装饰” |
关键发现
- 当前模型(包括 GPT-4o)在推理类编辑上表现显著弱于简单编辑
- Causal 和 Temporal 推理是最难的类别
- 这解释了为什么 EditWorld 提出的 world-instructed editing 具有挑战性
与现有 Wiki 的关系
- 关联:扩散模型图像编辑与生成
- 为 EditWorld、GoT 等推理类编辑方法提供了标准化的评估框架
- 填补了从”简单编辑”到”推理编辑”的评估空白