PaperBanana: Automating Academic Illustration for AI Scientists

基本信息

  • 标题:PaperBanana: Automating Academic Illustration for AI Scientists
  • 作者:Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon
  • 机构:北京大学、Google Cloud AI Research
  • 年份:2026
  • arXiv:2601.23265
  • 项目主页https://dwzhu-pku.github.io/PaperBanana/

核心论点

  1. 学术插图生成是 AI 科学家的瓶颈:尽管自主 AI 科学家在文献综述、想法生成和实验迭代方面取得进展,但生成符合出版标准的插图(方法论图和统计图)仍是劳动密集型瓶颈。
  2. 参考驱动的多智能体协作可解决此问题:通过编排五个专用智能体(Retriever、Planner、Stylist、Visualizer、Critic),将科学内容转化为高质量的方法论图和统计图。
  3. 自动化的审美风格迁移:Stylist Agent 遍历整个参考集,自动综合出覆盖配色、形状、布局、排版等维度的审美指南,无需人工定义。
  4. 迭代自批评闭环提升质量:Visualizer-Critic 循环进行 T=3 轮迭代,在忠实度和美观度之间取得平衡。
  5. 统一框架可扩展到统计图:通过将 Visualizer 从图像生成切换为代码生成(Matplotlib),同一框架可无缝处理统计图。

关键技术方法

框架架构

PaperBanana 采用两阶段流水线:

线性规划阶段(Linear Planning Phase)

  1. Retriever Agent:基于 VLM 的生成式检索,从参考集中选择 N 个最相关的示例,优先匹配研究领域和图表类型(而非主题相似性)。
  2. Planner Agent:认知核心,通过上下文学习将源上下文转化为目标插图的详细文本描述。
  3. Stylist Agent:设计顾问,遍历参考集自动综合审美指南 G,将初始描述优化为风格化版本 P*。

迭代精炼循环(Iterative Refinement Loop): 4. Visualizer Agent:将文本描述转化为图像(方法论图)或 Python Matplotlib 代码(统计图)。 5. Critic Agent:检查生成图像与源上下文的一致性,提供针对性反馈和精炼描述,形成闭环。迭代 T=3 轮。

评估方法

  • VLM-as-a-Judge:使用 Gemini-3-Pro 作为评判模型,采用参考比较方法(对比模型生成图与人工绘制图)。
  • 四维度评估:忠实度(Faithfulness)、简洁性(Conciseness)、可读性(Readability)、美观度(Aesthetics)。
  • 分层聚合策略:忠实度和可读性为主要维度,简洁性和美观度为次要维度;主要维度决定性胜出时直接判定整体胜出。

Benchmark 构建

  • PaperBananaBench:292 个测试用例 + 292 个参考用例,从 NeurIPS 2025 论文中策展。
  • 筛选流程:从 2,000 篇论文中筛选,经过方法论图存在性过滤、宽高比过滤(1.5-2.5)、分类(Agent & Reasoning、Vision & Perception、Generative & Learning、Science & Applications)、人工策展,最终保留 584 个有效样本。
  • 统计图测试集:基于 ChartMimic 数据集策展 240 个测试用例,覆盖 7 类图表和 2 个复杂度级别。

主要结果

方法论图生成

  • PaperBanana(w/ Nano-Banana-Pro)在所有指标上优于基线:忠实度 +2.8%、简洁性 +37.2%、可读性 +12.9%、美观度 +6.6%,整体 +17.0%。
  • 盲评人工评估:PaperBanana 的平均胜/平/负率为 72.7% / 20.7% / 6.6%。
  • 按类别:Agent & Reasoning 表现最好(69.9%),Vision & Perception 最低(52.1%)。

统计图生成

  • 在 240 个测试用例上,PaperBanana 在所有维度上优于 vanilla Gemini-3-Pro,整体提升 +4.1%。
  • 在简洁性、可读性和美观度上略微超越人工参考。

消融研究

  • Retriever Agent:无检索时简洁性、可读性和美观度显著下降;随机检索与语义检索性能相当,说明提供一般性结构和风格模式比精确内容匹配更关键。
  • Stylist Agent:提升简洁性 +17.5% 和美观度 +4.7%,但降低忠实度 -8.5%(视觉打磨有时省略技术细节)。
  • Critic Agent:有效弥补 Stylist 带来的忠实度损失,迭代进一步提升所有指标。

人工图美化

  • 使用自动综合的审美指南对人工绘制图进行美化,在美观度上取得 56.2% 胜率 / 6.8% 平局 / 37.0% 负率。

局限性

  1. 光栅输出不可编辑:输出为光栅图像,不像矢量图可无限缩放和精确编辑。4K 分辨率是可行的变通方案,但不能根本解决后期修改问题。
  2. 风格标准化与多样性的权衡:统一的风格指南确保符合学术标准,但不可避免地降低了输出的风格多样性。
  3. 细粒度忠实度仍有差距:最常见的错误涉及细粒度连接(如端点不对齐、箭头方向错误),这些细微错误往往逃脱当前 Critic 模型的检测。
  4. 评估范式的局限:VLM-as-a-Judge 在忠实度的结构正确性量化上仍面临挑战;文本提示难以完全对齐 VLM 与人类的审美偏好。

与相关工作的关系

与 Agent Banana 的关系

  • Agent Banana(arXiv 2602.09084)聚焦于高保真图像编辑,采用分层 Agentic Planner-Executor 框架,核心机制为 Context Folding 和 Image Layer Decomposition,支持原生 4K 分辨率编辑。
  • PaperBanana 聚焦于学术插图的自动生成,采用参考驱动的多智能体协作框架,核心机制为检索增强的上下文学习和自动审美风格迁移。
  • 两者共享”Agentic + 图像生成/编辑模型”的技术范式,但目标不同:Agent Banana 处理编辑任务,PaperBanana 处理生成任务。
  • PaperBanana 在讨论中提到 Edit Banana(BIT-DataLab, 2025)作为可编辑输出的潜在解决方案之一。

与其他工作的关系

  • Paper2Any(Liu et al., 2025):同样使用图像生成模型生成论文图表,但侧重于高层思想的呈现而非方法论流程的忠实描绘,在 PaperBananaBench 上表现不佳。
  • AutoFigure / AutoFigure-Edit(Zhu et al., 2026; Lin et al., 2026):将科学内容转化为符号表示再渲染为图像,PaperBanana 通过自适应检索和学术风格迁移实现更广泛的泛化性。
  • 代码生成方法(TikZ、Python-PPTX):对结构化内容有效,但在生成现代 AI 论文中常见的复杂视觉元素(专用图标、自定义形状)时存在表现力限制。
  • SridBench(Chang et al., 2025):最接近的评估基准,评估方法章节和标题的自动图表生成,但尚未公开。

关键实体

  • Nano-Banana-Pro:PaperBanana 使用的图像生成模型(Google DeepMind)。
  • Gemini-3-Pro:PaperBanana 使用的 VLM 骨干网络,同时作为评判模型。
  • PaperBananaBench:本文提出的评估基准,292 个测试用例来自 NeurIPS 2025。