Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

一句话总结：这是阿里团队撰写的统一多模态理解与生成模型领域最全面的综述，将现有统一模型系统性地分为三大范式（扩散模型、自回归模型、AR+扩散融合模型），并按视觉 tokenization 策略将 AR 模型进一步分为 5 个子类（Pixel/语义/可学习Query/伪混合/联合混合编码），同时整理了完整的数据集和 benchmark 资源，分析了 tokenization、跨模态注意力、数据构建和评估等核心挑战。

Figure 1: 统一多模态模型发展时间线（2023-2025），标注了 any-to-any 模型和发布年份。

Intro

Motivation

多模态理解模型（AR 架构为主）和图像生成模型（扩散架构为主）长期独立发展，形成了截然不同的架构范式。GPT-4o 的能力展示引发了统一理解的兴趣，但架构差异带来了重大挑战。本综述旨在提供统一多模态模型的清晰全景图，指导未来研究。

贡献

系统性分类：三大范式 → 精细子类（共约 70+ 模型）
完整的数据集和 benchmark 整理
深入分析核心挑战：tokenization、注意力机制、数据、评估
持续更新的配套资源库

Method 核心分类体系

Figure 2: 多模态理解模型架构——多模态编码器（图像/音频/视频）通过 connector（projection/query/fusion-based）与 LLM 连接，LLM 输出文本响应。此图展示理解侧的标准架构范式。

综述分类框架

统一多模态模型
├── 扩散模型 (Diffusion)
│   └── 全离散扩散：Dual Diffusion, UniDisc, FUDOKI, Muddit, MMaDA, Lavida-O, UniModel
│
├── 自回归模型 (AR)
│   ├── b-1: Pixel 编码 → VQGAN-like tokenizer（Chameleon, Emu3, Emu3.5, Liquid 等）
│   ├── b-2: 语义编码 → CLIP/SigLIP + 扩散解码器（Emu, LaVIT, MetaMorph, OmniGen2, Qwen-Image 等）
│   ├── b-3: 可学习 Query 编码 → learnable query + 扩散解码器（SEED, MetaQueries, BLIP3-o, OpenUni 等）
│   ├── b-4: 伪混合编码 → 双 encoder 但任务分离使用（Janus/Janus-Pro, OmniMamba, Unifluid 等）
│   └── b-5: 联合混合编码 → 双 encoder 同时输入 LLM（MUSE-VL, VARGPT, Show-o2, SemHiTok 等）
│
└── AR+扩散融合模型 (Fused)
    ├── c-1: Pixel 编码 + 扩散（Transfusion, Show-o, MonoFormer, LMFusion, TUNA）
    └── c-2: 混合编码 + 扩散（Janus-flow, Mogao, BAGEL, LightFusion, EMMA 等）

各范式的核心特征

扩散模型：

优势：生成质量高、模式覆盖好、训练稳定（无对抗）、灵活的条件注入
劣势：推理效率低（无 KV-cache）、训练监督稀疏（仅 mask token 计算 loss）、length bias、缺乏 EOS 机制
代表：UniDisc（全离散，MAGVIT-v2 tokenizer）、FUDOKI（离散 flow matching）、MMaDA（LLaDA 骨干 + UniGRPO）

Figure 4: 自回归模型核心组件——包括自回归序列建模和离散矢量量化（VQ）。现有 AR 模型大致分为三类：Next-Pixel Prediction（像素序列展平）、Next-Token Prediction（视觉 tokenizer 转换）、Next-Multiple-Tokens Prediction（每步输出多个 token）。

自回归模型：

b-1 Pixel 编码：重建导向的 token 缺乏语义，序列长（尤其高分辨率时），但实现真正的统一建模
b-2 语义编码（最大类别）：语义对齐好但缺乏像素级可控性，需外挂扩散解码器，编解码器分开训练可能导致语义漂移
b-3 可学习 Query：灵活但计算开销随 query 数增长，小 query 集可能不足以表达复杂场景
b-4 伪混合编码：双 encoder 但推理时仅用一个（理解用语义，生成用像素），未充分发挥混合优势
b-5 联合混合编码：同时利用语义和像素特征，但融合异构 token 可能导致模态不平衡或冗余

AR+扩散融合模型：

文本 AR 生成 + 图像扩散生成
兼顾 AR 的组合推理和扩散的高质量
代价：多步采样增加推理成本；表征对齐仍是难题

Any-to-Any 模型扩展

超越图文，支持音频/视频/语音
代表：Next-GPT（ImageBind 共享嵌入）、AnyGPT（EnCodec + SpeechTokenizer）、M2-omni（NaViT + CosyVoice）
挑战：模态不平衡（音频/视频数据不足）、可扩展性、跨模态语义一致性

关键发现与洞察

Tokenization 策略是核心分水岭

不同的视觉 tokenization 选择（离散 vs 连续、语义 vs 像素）直接决定了模型的架构路线和能力边界
离散 token（VQGAN）适合 AR 统一建模但丢失细节
连续语义 token（SigLIP/CLIP）适合理解但需外挂扩散解码器
混合编码（如 Show-o2、SemHiTok）是折中方案

训练和评估的新趋势

CoT 推理 + RL（如 GRPO）开始被引入统一模型
评估从理解/生成分离走向统一评估（如 RealUnify 的 UEG + GEU 双维度）
个性化知识驱动生成（如 UniCTokens）是新兴方向

挑战与机遇

高效 tokenization：高分辨率图像产生过长序列，需更好的压缩策略
跨模态注意力：随分辨率和上下文增长，注意力成为瓶颈，稀疏/分层注意力可能缓解
数据质量：噪声和偏置问题，尤其复杂图像组合和交错数据，需可靠的数据过滤/去偏/合成
统一评估：大多数 benchmark 仅评估理解或生成单方面，需综合评估两者交互的 benchmark
新方向：CoT 推理、RL 后训练、公平性/偏见检测、个性化知识驱动生成

结论

统一多模态理解与生成模型仍处于早期阶段。本综述将现有工作系统性地分为扩散/AR/融合三大范式，并精细化了 AR 模型的 tokenization 子类。tokenization 策略、跨模态注意力机制和数据构建是当前最关键的挑战。随着这些问题的解决，统一多模态模型有望成为 AGI 的重要基础。

思考

优点

分类体系的完整性和粒度：这是本综述最大的价值。将 70+ 模型按架构范式→编码策略分层分类，非常清晰。尤其将 AR 模型按 tokenization 分为 5 个子类（Pixel/语义/Query/伪混合/联合混合），精确捕捉了当前领域的关键设计分歧点。
配套资源库的实用价值：GitHub 仓库持续更新论文列表和数据集/benchmark 表格，是进入该领域的最佳起点。
对 tokenization 问题的透彻分析：清晰说明了不同 tokenization 选择的 trade-off——离散 vs 连续、语义 vs 像素、重建 vs 对比——并指出这是统一模型架构设计的核心分水岭。
对新兴趋势的敏锐捕捉：CoT+RL 在统一模型中的应用、any-to-any 扩展、个性化生成等新兴方向的识别及时且有前瞻性。
对扩散模型劣势的客观分析：不回避离散扩散模型的推理效率、训练稀疏性、length bias 等问题，有助于读者理性评估不同路线。

缺点与待解决问题

缺乏定量比较：作为综述，仅做了分类整理，未提供跨模型的标准 benchmark 数值对比表。读者难以快速判断不同路线的性能差距。
对最近趋势的覆盖时效性：2025 年下半年的重要模型（如 Emu3.5、Lumina-DiMOO、Tuna-2 等）未充分覆盖。这属于综述的自然局限，但用户需要注意。
对”统一”本质的讨论不够深入：综述主要从架构角度分类，但没有深入讨论什么才是真正的”统一”——是共享参数？共享 tokenizer？还是共享表示空间？不同模型在这三个维度上的统一程度差异巨大。
对混合路线的评估不够尖锐：综述并列介绍了各路线，但缺乏明确的判断——在当前阶段，是否存在”更优”的统一路线？不同路线各自的适用场景和天花板是什么？
工业部署视角缺失：未讨论模型大小、推理延迟、显存占用等实际部署约束对各路线选择的影响。

与已有 Wiki 的连接

关联概念：原生多模态模型、统一模型、扩散模型、自回归模型、离散扩散、混合编码
关联实体：GPT-4o、Janus、BAGEL、Show-o2、Emu3.5
关联比较：可作为后续阅读统一多模态论文时的分类参考框架

Blog1

探索