Blog1

❯

❯

❯

EditWorld: Simulating World Dynamics for Instruction Following Image Editing

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

2026年4月30日3分钟阅读

image-editing
world-dynamics
physics
instruction-following
reasoning

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

北京大学 + Tiamat AI + Skywork AI + Mila，2024。

核心结论

提出新任务 world-instructed image editing：不仅编辑图像内容，还要理解物理世界的动态规律。
指出传统指令编辑（添加/替换/删除）缺乏对物理世界动态（重力、光照变化、物体交互、时序变化等）的理解。
构建 worldwide instruction 数据集（GPT-3.5 + Video-LLaVA + SDXL 联合生成）。
设计 post-edit strategy 提升指令跟随能力。

核心洞察

传统编辑（如 InstructPix2Pix）可以”加一只猫”，但无法理解：

🌧️ “让这条路看起来像刚下过雨”（需要理解湿润路面的光照反射）
🍂 “把场景变成秋天”（需要全局色调 + 落叶 + 光影变化）
⏰ “把这个白天场景变成黄昏”（需要全局光照 + 阴影角度变化）

这些都是需要理解 world dynamics 的编辑。

方法

任务定义与分类：将 world-instructed 编辑按物理动态类型分类
数据生成：GPT-3.5 生成指令 → Video-LLaVA 分析动态 → SDXL 生成配对图像
Post-edit Strategy：编辑后进行物理合理性验证和微调

与现有 Wiki 的关系

关联：扩散模型图像编辑与生成
在指令编辑的方向上提出了更高要求：从”语义编辑”到”物理感知编辑”
与 EmoEdit 的情感编辑形成对照：情感编辑是”心理感知”，EditWorld 是”物理感知”
需要理解场景的因果结构 → 与后续的推理类编辑方法（GoT、Mind-Brush）有共同趋势

局限性

物理动态模拟仍受限于生成模型的能力
评估”物理合理性”本身就是一个开放问题

关系图谱

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
核心结论
核心洞察
方法
与现有 Wiki 的关系
局限性

反向链接

EditWorld
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing (RISEBench)
WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark
扩散模型图像编辑与生成
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community