EditWorld

基本信息

属性	值
全称	EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
作者	Ling Yang, Bohan Zeng, Jiaming Liu, Hong Li, Minghao Xu, Wentao Zhang, Shuicheng Yan
机构	北京大学 + Tiamat AI + Skywork AI + Mila
年份	2024 (arXiv 2405.14785)
类型	世界指令编辑框架

提出 world-instructed image editing 新任务：不仅要编辑图像内容，还要理解物理世界的动态规律。

传统指令编辑：文本 → 添加/替换/删除 → 图像
EditWorld：   文本 → 理解物理动态 → 模拟世界规律 → 图像

传统编辑（如 InstructPix2Pix）可以做”加一只猫”，但无法理解：

这些都是需要理解 world dynamics 的编辑。

代际	模型	编辑语义层级
第一代	InstructPix2Pix, ControlNet	像素/空间控制
第二代	EmoEdit, AnyEdit, UltraEdit	语义/情感控制
EditWorld	物理动态感知	因果/物理规律
第三代	GoT, Mind-Brush, VisionCreator	推理/知识/Agent

EditWorld 填补了”物理感知编辑”这个独特位置——介于语义编辑和推理编辑之间，关注的是现实世界的因果律而非语言推理。