Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
基本信息
- 标题: Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
- 作者: Shawn Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu 等
- 机构: UCLA, 腾讯混元, 香港中文大学, 香港科技大学
- 年份: 2026
- arXiv: 2603.29620
- GitHub: https://github.com/shawn0728/Unify-Agent
核心论点
-
统一多模态模型(UMM)的”闭卷”瓶颈: 现有统一多模态模型仅依赖固定参数知识,面对长尾概念、文化符号、稀有 IP 等事实性图像生成任务时,会出现身份漂移或幻觉。关键挑战不是渲染质量,而是”不知道目标该长什么样”。
-
从闭卷生成到开卷智能体生成: 提出将图像生成从被动的 prompt-to-image 映射,重新定义为推理时的主动决策过程——模型在生成前主动检索外部世界知识,而非仅依赖参数记忆。
-
Recaption 作为理解与生成之间的桥梁: 直接将检索到的文本/视觉证据注入 prompt 并非最优方案。Recaption(基于证据的重描述)能将异构外部知识转化为结构化的、面向生成的文本约束,同时保留身份关键视觉属性和场景风格可控性。
-
统一模型中生成能力反哺理解能力: 在 Bagel 式统一模型中,VAE 提供低层感知先验(纹理、材质、结构),ViT 提供高层语义 token,二者协同使模型在证据重描述阶段展现出更强的多模态理解能力。
关键技术方法
四阶段智能体流水线(Think-Research-Recaption-Generate)
- Think(认知缺口检测): 模型解析用户 prompt,识别参数记忆中缺失的视觉关键属性,判断是否需要外部知识。
- Research(多模态证据获取): 先进行文本检索获取语义消歧和背景知识,再进行视觉检索获取身份一致的参考图像。使用 Gemini 3 Flash 对候选图像从身份一致性、主体显著性、清晰度、水印清洁度四个维度评分,选取 top-2。
- Recaption(基于证据的重描述): 将原始指令与检索到的文本/视觉证据整合为结构化重描述,包含身份保持约束和场景组合约束,作为下游生成器的执行规范。
- Generate(基于证据的图像合成): 最终图像生成仅以重描述和视觉锚点为条件,隔离噪声推理历史的干扰。
训练数据构建
- 收集 456K 长尾 IP 概念,涵盖名人、动画、游戏、漫画、神话、吉祥物、动物、食物、艺术、玩具、地标、节日 12 个类别。
- 使用 Claude Opus 4.6 构建多模态研究轨迹(文本查询 → 文本证据 → 视觉查询 → 视觉证据)。
- 采用拒绝采样策略:将重描述输入 Nano Banana Pro 生成图像,用 GPT-4o 验证身份一致性,最多重试 5 次,不通过则丢弃。
- 最终获得 143K 高质量智能体轨迹用于 SFT。
基于 Bagel 的统一微调
- 基座模型为 Bagel(14B),采用 Mixture-of-Transformers 架构。
- 双损失设计:语言建模损失(文本推理/工具调用/重描述)+ 潜空间流匹配损失(图像生成)。
- 混合注意力掩码策略:推理段用因果掩码,参考图像用全注意力,生成段仅关注重描述和参考图像,屏蔽历史推理噪声。
- 训练硬件:64 张 NVIDIA H20 GPU,约 10 天,10K 步。
FactIP 评测基准
- 2,462 条 prompt,覆盖 12 类文化重要性和长尾概念。
- 四维评估:清晰度(Clarity)、内容(Content)、美学(Aesthetics)、相关性(Relevance)。
- 相关性维度重点衡量身份保持和事实忠实度。
主要结果
- FactIP: Overall 73.2,超过基座 Bagel 22.3 分,Relevance 在 Character/Object/Scene 三个子类均排名第一(67.3/71.8/78.2)。
- WiSE: Overall WiScore 0.77,统一模型中最佳,接近商业模型水平;在文化(0.82)、生物(0.72)、化学(0.70)维度表现突出。
- KiTTEN: Overall 4.08,刷新 SOTA,文本对齐 4.22、实体对齐 3.93,全面超越 Imagen-3(3.50)。
- T2I-FactBench: SKCI 77.4、MKCC 71.5,统一模型中最高;SKCM 69.2 超过 DALLE-3(55.5)。
消融实验关键发现
- 移除视觉检索导致 Relevance 从 72.4 暴跌至 50.8,说明视觉证据对身份保持至关重要。
- 移除 Recaption 导致美学从 85.2 降至 74.5,确认原始证据不是最优的生成条件信号。
- 移除 ViT 的性能下降远大于移除 VAE,表明高层语义视觉 token 对理解检索图像更为关键。
局限性
- 基座模型能力限制: 当前开源统一多模态模型(如 Bagel)的长上下文能力有限,单次上下文仅支持较少图像数量,制约了更复杂的智能体行为。
- 流水线深度不足: 当前仅为单次的 Think-Research-Recaption-Generate 流程,缺乏迭代搜索、反思和重新规划等更通用的智能体行为,难以应对旅行规划、学术报告生成等更复杂的开放世界任务。
- 闭卷 vs 开卷差距仍存: 虽然在开源统一模型中表现最佳,但与最强闭源商业模型(如 Seedream-5、Nano Banana-2)仍有差距。
与相关工作的关系
- 相对于 DALL-E 3 / PromptEnhancer: 继承了”重描述提升生成质量”的思路,但将重描述从通用 caption 改写升级为基于外部证据的结构化规范。
- 相对于 GenArtist / T2I-Copilot / Mind-Brush 等智能体 T2I: 区别在于端到端统一模型架构,而非松耦合的 LLM 规划器 + 外部工具 + 独立生成器的 API 拼接范式,避免了级联错误和多模态推理与视觉合成的割裂。
- 相对于 Bagel / Janus / Emu3 等统一多模态模型: 在 UMM 基础上引入智能体推理时搜索机制,从”闭卷”升级为”开卷”,首次证明统一模型中生成先验(VAE)和语义理解(ViT)的协同可以提升推理能力。
- 相对于 WiSE / KiTTEN / T2I-FactualBench 等事实性基准: 不仅诊断知识缺口,还提出了一个主动弥合缺口的结构性方案,并引入 FactIP 作为面向稀有 IP 的补充基准。