Agent Banana

基本信息

全称：Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
来源：Agent Banana
作者：Ruijie Ye, Jiayi Zhang et al. (TAMU, Brown, UW-Madison, UCSD, USC, Adobe Research, Meta AI, Princeton)
项目网站：https://agent-banana.github.io/

Agent Banana 是首个将 Agentic 框架系统性地引入高保真图像编辑的工作。采用分层 Planner-Executor 架构：

两大核心机制：

Context Folding：三级记忆抽象（Asset Level → Execution Level → Planning Level），压缩长交互历史避免 context overflow。
Image Layer Decomposition (ILD)：基于物体感知 mask 局部编辑 + 高斯融合，支持原生 4K 分辨率，避免全局重采样导致的细节退化。

五种原子操作：replace、remove、add、adjust、undo。

Agent Banana 代表了一种趋势：从”端到端黑盒编辑模型”向”可解释、可纠错、可人机协作的 Agentic 编辑系统”的转变。其 Context Folding 和 ILD 机制为长期多轮编辑任务提供了系统级的解决方案。