Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

核心结论

提出 Agent Banana，一个分层 Agentic Planner-Executor 框架，用于高保真、目标感知的图像编辑。
引入两个核心机制：Context Folding（压缩长交互历史为结构化记忆）和 Image Layer Decomposition（局部图层编辑，保持非目标区域不变）。
支持原生 4K 分辨率编辑，避免下采样带来的细节损失。

来源：TAMU、Brown、UW-Madison、UCSD、USC、Adobe Research、Meta AI、Princeton 等联合，2024。
架构：Planner（全局意图理解、任务分解）+ Executor（原子编辑操作、工具调用、自检纠错）。
Context Folding 三级抽象：Asset Level（ImageContext）→ Execution Level（ToolContext）→ Planning Level（ActionContext）。
Image Layer Decomposition：基于动态物体感知 mask，在局部 patch 上编辑后高斯融合回原图。
五种原子操作：replace、remove、add、adjust、undo。
配套 benchmark HDD-Bench：多轮、4K 原生分辨率、stepwise 可验证目标。