Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

核心结论

全面综述了统一多模态理解与生成模型（UMMs），提出三分法分类体系：Diffusion-based、Autoregressive-based、Fused AR + Diffusion。
Autoregressive 模型进一步按编码方式分为四类：像素编码、语义编码、可学习查询编码、混合编码。
系统整理了 UMM 相关的数据集、基准和评估方法。

类别	子类	代表模型
Diffusion	a. 纯扩散	Dual Diffusion, UniDisc, FUDOKI, Muddit, MMaDA, UniModel
AR (MLLM)	b-1. 像素编码	Chameleon, Emu3, LWM, OneCat, Show-o
	b-2. 语义编码	Emu2, LaVIT, VILA-U, OmniGen2, Qwen-Image, UniWorld
	b-3. 可学习查询	SEED, MetaQueries, BLIP3-o, Nexus-Gen
	b-4. 伪混合编码	Janus, Janus-Pro, Unifluid, MindOmni
	b-5. 联合混合编码	TokenFlow, VARGPT, Show-o2, ILLUME+
Fused AR+Diff	c-1. 像素编码	Transfusion, Show-o, MonoFormer, TUNA
	c-2. 混合编码	Janus-Flow, Mogao, BAGEL, LightFusion, EMMA