一句话总结:这是阿里团队撰写的统一多模态理解与生成模型领域最全面的综述,将现有统一模型系统性地分为三大范式(扩散模型、自回归模型、AR+扩散融合模型),并按视觉 tokenization 策略将 AR 模型进一步分为 5 个子类(Pixel/语义/可学习Query/伪混合/联合混合编码),同时整理了完整的数据集和 benchmark 资源,分析了 tokenization、跨模态注意力、数据构建和评估等核心挑战。

Figure 1: 统一多模态模型发展时间线(2023-2025),标注了 any-to-any 模型和发布年份。
Intro
Motivation
多模态理解模型(AR 架构为主)和图像生成模型(扩散架构为主)长期独立发展,形成了截然不同的架构范式。GPT-4o 的能力展示引发了统一理解的兴趣,但架构差异带来了重大挑战。本综述旨在提供统一多模态模型的清晰全景图,指导未来研究。
贡献
- 系统性分类:三大范式 → 精细子类(共约 70+ 模型)
- 完整的数据集和 benchmark 整理
- 深入分析核心挑战:tokenization、注意力机制、数据、评估
- 持续更新的配套资源库
Method 核心分类体系

Figure 2: 多模态理解模型架构——多模态编码器(图像/音频/视频)通过 connector(projection/query/fusion-based)与 LLM 连接,LLM 输出文本响应。此图展示理解侧的标准架构范式。
综述分类框架
统一多模态模型
├── 扩散模型 (Diffusion)
│ └── 全离散扩散:Dual Diffusion, UniDisc, FUDOKI, Muddit, MMaDA, Lavida-O, UniModel
│
├── 自回归模型 (AR)
│ ├── b-1: Pixel 编码 → VQGAN-like tokenizer(Chameleon, Emu3, Emu3.5, Liquid 等)
│ ├── b-2: 语义编码 → CLIP/SigLIP + 扩散解码器(Emu, LaVIT, MetaMorph, OmniGen2, Qwen-Image 等)
│ ├── b-3: 可学习 Query 编码 → learnable query + 扩散解码器(SEED, MetaQueries, BLIP3-o, OpenUni 等)
│ ├── b-4: 伪混合编码 → 双 encoder 但任务分离使用(Janus/Janus-Pro, OmniMamba, Unifluid 等)
│ └── b-5: 联合混合编码 → 双 encoder 同时输入 LLM(MUSE-VL, VARGPT, Show-o2, SemHiTok 等)
│
└── AR+扩散融合模型 (Fused)
├── c-1: Pixel 编码 + 扩散(Transfusion, Show-o, MonoFormer, LMFusion, TUNA)
└── c-2: 混合编码 + 扩散(Janus-flow, Mogao, BAGEL, LightFusion, EMMA 等)
各范式的核心特征
扩散模型:
- 优势:生成质量高、模式覆盖好、训练稳定(无对抗)、灵活的条件注入
- 劣势:推理效率低(无 KV-cache)、训练监督稀疏(仅 mask token 计算 loss)、length bias、缺乏 EOS 机制
- 代表:UniDisc(全离散,MAGVIT-v2 tokenizer)、FUDOKI(离散 flow matching)、MMaDA(LLaDA 骨干 + UniGRPO)

Figure 4: 自回归模型核心组件——包括自回归序列建模和离散矢量量化(VQ)。现有 AR 模型大致分为三类:Next-Pixel Prediction(像素序列展平)、Next-Token Prediction(视觉 tokenizer 转换)、Next-Multiple-Tokens Prediction(每步输出多个 token)。
自回归模型:
- b-1 Pixel 编码:重建导向的 token 缺乏语义,序列长(尤其高分辨率时),但实现真正的统一建模
- b-2 语义编码(最大类别):语义对齐好但缺乏像素级可控性,需外挂扩散解码器,编解码器分开训练可能导致语义漂移
- b-3 可学习 Query:灵活但计算开销随 query 数增长,小 query 集可能不足以表达复杂场景
- b-4 伪混合编码:双 encoder 但推理时仅用一个(理解用语义,生成用像素),未充分发挥混合优势
- b-5 联合混合编码:同时利用语义和像素特征,但融合异构 token 可能导致模态不平衡或冗余
AR+扩散融合模型:
- 文本 AR 生成 + 图像扩散生成
- 兼顾 AR 的组合推理和扩散的高质量
- 代价:多步采样增加推理成本;表征对齐仍是难题
Any-to-Any 模型扩展
- 超越图文,支持音频/视频/语音
- 代表:Next-GPT(ImageBind 共享嵌入)、AnyGPT(EnCodec + SpeechTokenizer)、M2-omni(NaViT + CosyVoice)
- 挑战:模态不平衡(音频/视频数据不足)、可扩展性、跨模态语义一致性
关键发现与洞察
Tokenization 策略是核心分水岭
- 不同的视觉 tokenization 选择(离散 vs 连续、语义 vs 像素)直接决定了模型的架构路线和能力边界
- 离散 token(VQGAN)适合 AR 统一建模但丢失细节
- 连续语义 token(SigLIP/CLIP)适合理解但需外挂扩散解码器
- 混合编码(如 Show-o2、SemHiTok)是折中方案
训练和评估的新趋势
- CoT 推理 + RL(如 GRPO)开始被引入统一模型
- 评估从理解/生成分离走向统一评估(如 RealUnify 的 UEG + GEU 双维度)
- 个性化知识驱动生成(如 UniCTokens)是新兴方向
挑战与机遇
- 高效 tokenization:高分辨率图像产生过长序列,需更好的压缩策略
- 跨模态注意力:随分辨率和上下文增长,注意力成为瓶颈,稀疏/分层注意力可能缓解
- 数据质量:噪声和偏置问题,尤其复杂图像组合和交错数据,需可靠的数据过滤/去偏/合成
- 统一评估:大多数 benchmark 仅评估理解或生成单方面,需综合评估两者交互的 benchmark
- 新方向:CoT 推理、RL 后训练、公平性/偏见检测、个性化知识驱动生成
结论
统一多模态理解与生成模型仍处于早期阶段。本综述将现有工作系统性地分为扩散/AR/融合三大范式,并精细化了 AR 模型的 tokenization 子类。tokenization 策略、跨模态注意力机制和数据构建是当前最关键的挑战。随着这些问题的解决,统一多模态模型有望成为 AGI 的重要基础。
思考
优点
-
分类体系的完整性和粒度:这是本综述最大的价值。将 70+ 模型按架构范式→编码策略分层分类,非常清晰。尤其将 AR 模型按 tokenization 分为 5 个子类(Pixel/语义/Query/伪混合/联合混合),精确捕捉了当前领域的关键设计分歧点。
-
配套资源库的实用价值:GitHub 仓库持续更新论文列表和数据集/benchmark 表格,是进入该领域的最佳起点。
-
对 tokenization 问题的透彻分析:清晰说明了不同 tokenization 选择的 trade-off——离散 vs 连续、语义 vs 像素、重建 vs 对比——并指出这是统一模型架构设计的核心分水岭。
-
对新兴趋势的敏锐捕捉:CoT+RL 在统一模型中的应用、any-to-any 扩展、个性化生成等新兴方向的识别及时且有前瞻性。
-
对扩散模型劣势的客观分析:不回避离散扩散模型的推理效率、训练稀疏性、length bias 等问题,有助于读者理性评估不同路线。
缺点与待解决问题
-
缺乏定量比较:作为综述,仅做了分类整理,未提供跨模型的标准 benchmark 数值对比表。读者难以快速判断不同路线的性能差距。
-
对最近趋势的覆盖时效性:2025 年下半年的重要模型(如 Emu3.5、Lumina-DiMOO、Tuna-2 等)未充分覆盖。这属于综述的自然局限,但用户需要注意。
-
对”统一”本质的讨论不够深入:综述主要从架构角度分类,但没有深入讨论什么才是真正的”统一”——是共享参数?共享 tokenizer?还是共享表示空间?不同模型在这三个维度上的统一程度差异巨大。
-
对混合路线的评估不够尖锐:综述并列介绍了各路线,但缺乏明确的判断——在当前阶段,是否存在”更优”的统一路线?不同路线各自的适用场景和天花板是什么?
-
工业部署视角缺失:未讨论模型大小、推理延迟、显存占用等实际部署约束对各路线选择的影响。