一句话总结:这是阿里团队撰写的统一多模态理解与生成模型领域最全面的综述,将现有统一模型系统性地分为三大范式(扩散模型、自回归模型、AR+扩散融合模型),并按视觉 tokenization 策略将 AR 模型进一步分为 5 个子类(Pixel/语义/可学习Query/伪混合/联合混合编码),同时整理了完整的数据集和 benchmark 资源,分析了 tokenization、跨模态注意力、数据构建和评估等核心挑战。

Figure 1: 统一多模态模型发展时间线(2023-2025),标注了 any-to-any 模型和发布年份。


Intro

Motivation

多模态理解模型(AR 架构为主)和图像生成模型(扩散架构为主)长期独立发展,形成了截然不同的架构范式。GPT-4o 的能力展示引发了统一理解的兴趣,但架构差异带来了重大挑战。本综述旨在提供统一多模态模型的清晰全景图,指导未来研究。

贡献

  1. 系统性分类:三大范式 → 精细子类(共约 70+ 模型)
  2. 完整的数据集和 benchmark 整理
  3. 深入分析核心挑战:tokenization、注意力机制、数据、评估
  4. 持续更新的配套资源库

Method 核心分类体系

Figure 2: 多模态理解模型架构——多模态编码器(图像/音频/视频)通过 connector(projection/query/fusion-based)与 LLM 连接,LLM 输出文本响应。此图展示理解侧的标准架构范式。

综述分类框架

统一多模态模型
├── 扩散模型 (Diffusion)
│   └── 全离散扩散:Dual Diffusion, UniDisc, FUDOKI, Muddit, MMaDA, Lavida-O, UniModel
│
├── 自回归模型 (AR)
│   ├── b-1: Pixel 编码 → VQGAN-like tokenizer(Chameleon, Emu3, Emu3.5, Liquid 等)
│   ├── b-2: 语义编码 → CLIP/SigLIP + 扩散解码器(Emu, LaVIT, MetaMorph, OmniGen2, Qwen-Image 等)
│   ├── b-3: 可学习 Query 编码 → learnable query + 扩散解码器(SEED, MetaQueries, BLIP3-o, OpenUni 等)
│   ├── b-4: 伪混合编码 → 双 encoder 但任务分离使用(Janus/Janus-Pro, OmniMamba, Unifluid 等)
│   └── b-5: 联合混合编码 → 双 encoder 同时输入 LLM(MUSE-VL, VARGPT, Show-o2, SemHiTok 等)
│
└── AR+扩散融合模型 (Fused)
    ├── c-1: Pixel 编码 + 扩散(Transfusion, Show-o, MonoFormer, LMFusion, TUNA)
    └── c-2: 混合编码 + 扩散(Janus-flow, Mogao, BAGEL, LightFusion, EMMA 等)

各范式的核心特征

扩散模型

  • 优势:生成质量高、模式覆盖好、训练稳定(无对抗)、灵活的条件注入
  • 劣势:推理效率低(无 KV-cache)、训练监督稀疏(仅 mask token 计算 loss)、length bias、缺乏 EOS 机制
  • 代表:UniDisc(全离散,MAGVIT-v2 tokenizer)、FUDOKI(离散 flow matching)、MMaDA(LLaDA 骨干 + UniGRPO)

Figure 4: 自回归模型核心组件——包括自回归序列建模和离散矢量量化(VQ)。现有 AR 模型大致分为三类:Next-Pixel Prediction(像素序列展平)、Next-Token Prediction(视觉 tokenizer 转换)、Next-Multiple-Tokens Prediction(每步输出多个 token)。

自回归模型

  • b-1 Pixel 编码:重建导向的 token 缺乏语义,序列长(尤其高分辨率时),但实现真正的统一建模
  • b-2 语义编码(最大类别):语义对齐好但缺乏像素级可控性,需外挂扩散解码器,编解码器分开训练可能导致语义漂移
  • b-3 可学习 Query:灵活但计算开销随 query 数增长,小 query 集可能不足以表达复杂场景
  • b-4 伪混合编码:双 encoder 但推理时仅用一个(理解用语义,生成用像素),未充分发挥混合优势
  • b-5 联合混合编码:同时利用语义和像素特征,但融合异构 token 可能导致模态不平衡或冗余

AR+扩散融合模型

  • 文本 AR 生成 + 图像扩散生成
  • 兼顾 AR 的组合推理和扩散的高质量
  • 代价:多步采样增加推理成本;表征对齐仍是难题

Any-to-Any 模型扩展

  • 超越图文,支持音频/视频/语音
  • 代表:Next-GPT(ImageBind 共享嵌入)、AnyGPT(EnCodec + SpeechTokenizer)、M2-omni(NaViT + CosyVoice)
  • 挑战:模态不平衡(音频/视频数据不足)、可扩展性、跨模态语义一致性

关键发现与洞察

Tokenization 策略是核心分水岭

  • 不同的视觉 tokenization 选择(离散 vs 连续、语义 vs 像素)直接决定了模型的架构路线和能力边界
  • 离散 token(VQGAN)适合 AR 统一建模但丢失细节
  • 连续语义 token(SigLIP/CLIP)适合理解但需外挂扩散解码器
  • 混合编码(如 Show-o2、SemHiTok)是折中方案

训练和评估的新趋势

  • CoT 推理 + RL(如 GRPO)开始被引入统一模型
  • 评估从理解/生成分离走向统一评估(如 RealUnify 的 UEG + GEU 双维度)
  • 个性化知识驱动生成(如 UniCTokens)是新兴方向

挑战与机遇

  1. 高效 tokenization:高分辨率图像产生过长序列,需更好的压缩策略
  2. 跨模态注意力:随分辨率和上下文增长,注意力成为瓶颈,稀疏/分层注意力可能缓解
  3. 数据质量:噪声和偏置问题,尤其复杂图像组合和交错数据,需可靠的数据过滤/去偏/合成
  4. 统一评估:大多数 benchmark 仅评估理解或生成单方面,需综合评估两者交互的 benchmark
  5. 新方向:CoT 推理、RL 后训练、公平性/偏见检测、个性化知识驱动生成

结论

统一多模态理解与生成模型仍处于早期阶段。本综述将现有工作系统性地分为扩散/AR/融合三大范式,并精细化了 AR 模型的 tokenization 子类。tokenization 策略、跨模态注意力机制和数据构建是当前最关键的挑战。随着这些问题的解决,统一多模态模型有望成为 AGI 的重要基础。


思考

优点

  1. 分类体系的完整性和粒度:这是本综述最大的价值。将 70+ 模型按架构范式→编码策略分层分类,非常清晰。尤其将 AR 模型按 tokenization 分为 5 个子类(Pixel/语义/Query/伪混合/联合混合),精确捕捉了当前领域的关键设计分歧点。

  2. 配套资源库的实用价值:GitHub 仓库持续更新论文列表和数据集/benchmark 表格,是进入该领域的最佳起点。

  3. 对 tokenization 问题的透彻分析:清晰说明了不同 tokenization 选择的 trade-off——离散 vs 连续、语义 vs 像素、重建 vs 对比——并指出这是统一模型架构设计的核心分水岭。

  4. 对新兴趋势的敏锐捕捉:CoT+RL 在统一模型中的应用、any-to-any 扩展、个性化生成等新兴方向的识别及时且有前瞻性。

  5. 对扩散模型劣势的客观分析:不回避离散扩散模型的推理效率、训练稀疏性、length bias 等问题,有助于读者理性评估不同路线。

缺点与待解决问题

  1. 缺乏定量比较:作为综述,仅做了分类整理,未提供跨模型的标准 benchmark 数值对比表。读者难以快速判断不同路线的性能差距。

  2. 对最近趋势的覆盖时效性:2025 年下半年的重要模型(如 Emu3.5、Lumina-DiMOO、Tuna-2 等)未充分覆盖。这属于综述的自然局限,但用户需要注意。

  3. 对”统一”本质的讨论不够深入:综述主要从架构角度分类,但没有深入讨论什么才是真正的”统一”——是共享参数?共享 tokenizer?还是共享表示空间?不同模型在这三个维度上的统一程度差异巨大。

  4. 对混合路线的评估不够尖锐:综述并列介绍了各路线,但缺乏明确的判断——在当前阶段,是否存在”更优”的统一路线?不同路线各自的适用场景和天花板是什么?

  5. 工业部署视角缺失:未讨论模型大小、推理延迟、显存占用等实际部署约束对各路线选择的影响。

与已有 Wiki 的连接