Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

基本信息

  • 标题: Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
  • 作者: Shawn Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu 等
  • 机构: UCLA, 腾讯混元, 香港中文大学, 香港科技大学
  • 年份: 2026
  • arXiv: 2603.29620
  • GitHub: https://github.com/shawn0728/Unify-Agent

核心论点

  1. 统一多模态模型(UMM)的”闭卷”瓶颈: 现有统一多模态模型仅依赖固定参数知识,面对长尾概念、文化符号、稀有 IP 等事实性图像生成任务时,会出现身份漂移或幻觉。关键挑战不是渲染质量,而是”不知道目标该长什么样”。

  2. 从闭卷生成到开卷智能体生成: 提出将图像生成从被动的 prompt-to-image 映射,重新定义为推理时的主动决策过程——模型在生成前主动检索外部世界知识,而非仅依赖参数记忆。

  3. Recaption 作为理解与生成之间的桥梁: 直接将检索到的文本/视觉证据注入 prompt 并非最优方案。Recaption(基于证据的重描述)能将异构外部知识转化为结构化的、面向生成的文本约束,同时保留身份关键视觉属性和场景风格可控性。

  4. 统一模型中生成能力反哺理解能力: 在 Bagel 式统一模型中,VAE 提供低层感知先验(纹理、材质、结构),ViT 提供高层语义 token,二者协同使模型在证据重描述阶段展现出更强的多模态理解能力。

关键技术方法

四阶段智能体流水线(Think-Research-Recaption-Generate)

  • Think(认知缺口检测): 模型解析用户 prompt,识别参数记忆中缺失的视觉关键属性,判断是否需要外部知识。
  • Research(多模态证据获取): 先进行文本检索获取语义消歧和背景知识,再进行视觉检索获取身份一致的参考图像。使用 Gemini 3 Flash 对候选图像从身份一致性、主体显著性、清晰度、水印清洁度四个维度评分,选取 top-2。
  • Recaption(基于证据的重描述): 将原始指令与检索到的文本/视觉证据整合为结构化重描述,包含身份保持约束和场景组合约束,作为下游生成器的执行规范。
  • Generate(基于证据的图像合成): 最终图像生成仅以重描述和视觉锚点为条件,隔离噪声推理历史的干扰。

训练数据构建

  • 收集 456K 长尾 IP 概念,涵盖名人、动画、游戏、漫画、神话、吉祥物、动物、食物、艺术、玩具、地标、节日 12 个类别。
  • 使用 Claude Opus 4.6 构建多模态研究轨迹(文本查询 文本证据 视觉查询 视觉证据)。
  • 采用拒绝采样策略:将重描述输入 Nano Banana Pro 生成图像,用 GPT-4o 验证身份一致性,最多重试 5 次,不通过则丢弃。
  • 最终获得 143K 高质量智能体轨迹用于 SFT。

基于 Bagel 的统一微调

  • 基座模型为 Bagel(14B),采用 Mixture-of-Transformers 架构。
  • 双损失设计:语言建模损失(文本推理/工具调用/重描述)+ 潜空间流匹配损失(图像生成)。
  • 混合注意力掩码策略:推理段用因果掩码,参考图像用全注意力,生成段仅关注重描述和参考图像,屏蔽历史推理噪声。
  • 训练硬件:64 张 NVIDIA H20 GPU,约 10 天,10K 步。

FactIP 评测基准

  • 2,462 条 prompt,覆盖 12 类文化重要性和长尾概念。
  • 四维评估:清晰度(Clarity)、内容(Content)、美学(Aesthetics)、相关性(Relevance)。
  • 相关性维度重点衡量身份保持和事实忠实度。

主要结果

  • FactIP: Overall 73.2,超过基座 Bagel 22.3 分,Relevance 在 Character/Object/Scene 三个子类均排名第一(67.3/71.8/78.2)。
  • WiSE: Overall WiScore 0.77,统一模型中最佳,接近商业模型水平;在文化(0.82)、生物(0.72)、化学(0.70)维度表现突出。
  • KiTTEN: Overall 4.08,刷新 SOTA,文本对齐 4.22、实体对齐 3.93,全面超越 Imagen-3(3.50)。
  • T2I-FactBench: SKCI 77.4、MKCC 71.5,统一模型中最高;SKCM 69.2 超过 DALLE-3(55.5)。

消融实验关键发现

  • 移除视觉检索导致 Relevance 从 72.4 暴跌至 50.8,说明视觉证据对身份保持至关重要。
  • 移除 Recaption 导致美学从 85.2 降至 74.5,确认原始证据不是最优的生成条件信号。
  • 移除 ViT 的性能下降远大于移除 VAE,表明高层语义视觉 token 对理解检索图像更为关键。

局限性

  1. 基座模型能力限制: 当前开源统一多模态模型(如 Bagel)的长上下文能力有限,单次上下文仅支持较少图像数量,制约了更复杂的智能体行为。
  2. 流水线深度不足: 当前仅为单次的 Think-Research-Recaption-Generate 流程,缺乏迭代搜索、反思和重新规划等更通用的智能体行为,难以应对旅行规划、学术报告生成等更复杂的开放世界任务。
  3. 闭卷 vs 开卷差距仍存: 虽然在开源统一模型中表现最佳,但与最强闭源商业模型(如 Seedream-5、Nano Banana-2)仍有差距。

与相关工作的关系

  • 相对于 DALL-E 3 / PromptEnhancer: 继承了”重描述提升生成质量”的思路,但将重描述从通用 caption 改写升级为基于外部证据的结构化规范。
  • 相对于 GenArtist / T2I-Copilot / Mind-Brush 等智能体 T2I: 区别在于端到端统一模型架构,而非松耦合的 LLM 规划器 + 外部工具 + 独立生成器的 API 拼接范式,避免了级联错误和多模态推理与视觉合成的割裂。
  • 相对于 Bagel / Janus / Emu3 等统一多模态模型: 在 UMM 基础上引入智能体推理时搜索机制,从”闭卷”升级为”开卷”,首次证明统一模型中生成先验(VAE)和语义理解(ViT)的协同可以提升推理能力。
  • 相对于 WiSE / KiTTEN / T2I-FactualBench 等事实性基准: 不仅诊断知识缺口,还提出了一个主动弥合缺口的结构性方案,并引入 FactIP 作为面向稀有 IP 的补充基准。