核心结论
- 提出 Agent Banana,一个分层 Agentic Planner-Executor 框架,用于高保真、目标感知的图像编辑。
- 引入两个核心机制:Context Folding(压缩长交互历史为结构化记忆)和 Image Layer Decomposition(局部图层编辑,保持非目标区域不变)。
- 支持原生 4K 分辨率编辑,避免下采样带来的细节损失。
关键事实
- 来源:TAMU、Brown、UW-Madison、UCSD、USC、Adobe Research、Meta AI、Princeton 等联合,2024。
- 架构:Planner(全局意图理解、任务分解)+ Executor(原子编辑操作、工具调用、自检纠错)。
- Context Folding 三级抽象:Asset Level(ImageContext)→ Execution Level(ToolContext)→ Planning Level(ActionContext)。
- Image Layer Decomposition:基于动态物体感知 mask,在局部 patch 上编辑后高斯融合回原图。
- 五种原子操作:replace、remove、add、adjust、undo。
- 配套 benchmark HDD-Bench:多轮、4K 原生分辨率、stepwise 可验证目标。
与现有 Wiki 的关系
后续问题
- Context Folding 的压缩有没有信息损失?
- ILD 机制对极小物体的编辑精度如何?