Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

核心结论

  • 全面综述了统一多模态理解与生成模型(UMMs),提出三分法分类体系:Diffusion-based、Autoregressive-based、Fused AR + Diffusion。
  • Autoregressive 模型进一步按编码方式分为四类:像素编码、语义编码、可学习查询编码、混合编码。
  • 系统整理了 UMM 相关的数据集、基准和评估方法。

分类体系

类别子类代表模型
Diffusiona. 纯扩散Dual Diffusion, UniDisc, FUDOKI, Muddit, MMaDA, UniModel
AR (MLLM)b-1. 像素编码Chameleon, Emu3, LWM, OneCat, Show-o
b-2. 语义编码Emu2, LaVIT, VILA-U, OmniGen2, Qwen-Image, UniWorld
b-3. 可学习查询SEED, MetaQueries, BLIP3-o, Nexus-Gen
b-4. 伪混合编码Janus, Janus-Pro, Unifluid, MindOmni
b-5. 联合混合编码TokenFlow, VARGPT, Show-o2, ILLUME+
Fused AR+Diffc-1. 像素编码Transfusion, Show-o, MonoFormer, TUNA
c-2. 混合编码Janus-Flow, Mogao, BAGEL, LightFusion, EMMA

关键洞察

  • 扩散 vs AR 之争:扩散模型在图像质量上有优势,AR 与 LLM 的结构一致性使其更适合统一建模。
  • 编码策略权衡:像素编码保留细节但缺乏语义;语义编码对齐好但缺少像素级控制;混合编码结合二者但增加复杂度。
  • 关键挑战:tokenization 策略、跨模态注意力、数据构建、模型评估。

与现有 Wiki 的关系

后续问题

  • 该分类体系是否覆盖了所有 UMM?离散扩散模型(如 Lumina-DiMOO)是否应构成第四大类?
  • 各分类之间的性能边界是否随着模型规模增大而模糊?