Agent Banana

基本信息

  • 全称:Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
  • 来源:Agent Banana
  • 作者:Ruijie Ye, Jiayi Zhang et al. (TAMU, Brown, UW-Madison, UCSD, USC, Adobe Research, Meta AI, Princeton)
  • 项目网站:https://agent-banana.github.io/

核心设计

Agent Banana 是首个将 Agentic 框架系统性地引入高保真图像编辑的工作。采用分层 Planner-Executor 架构:

  • Planner:全局意图理解、复杂指令分解为原子子任务、进度监控和回滚决策。
  • Executor:执行原子编辑操作、调用工具(MCP Server)、自检纠错(Quality Test)。

两大核心机制:

  1. Context Folding:三级记忆抽象(Asset Level → Execution Level → Planning Level),压缩长交互历史避免 context overflow。
  2. Image Layer Decomposition (ILD):基于物体感知 mask 局部编辑 + 高斯融合,支持原生 4K 分辨率,避免全局重采样导致的细节退化。

五种原子操作:replace、remove、add、adjust、undo。

评测

  • HDD-Bench:自建多轮 4K 分辨率 benchmark,11.8M 像素,stepwise 可验证目标,graph-based 状态追踪评估。
  • 在 HDD-Bench 上多轮一致性(IC 0.871)和背景保真度(SSIM 0.84)最优。
  • 同时兼容标准单轮编辑 benchmark。

与其他工作的关系

技术定位

Agent Banana 代表了一种趋势:从”端到端黑盒编辑模型”向”可解释、可纠错、可人机协作的 Agentic 编辑系统”的转变。其 Context Folding 和 ILD 机制为长期多轮编辑任务提供了系统级的解决方案。