统一多模态模型架构比较

总体路线

1. 集成式（Integrated）

编码器和生成模块共享参数，端到端训练。

BAGEL (MoT)：理解/生成 Expert 分离但共享 self-attention
Tuna-2 (单 Transformer)：完全无编码器，端到端像素空间
Show-o2 (LLM + 双 head)：共享 backbone，不同 head 处理不同任务
Lumina-DiMOO (离散扩散 LLM)：统一 masked modeling 目标

2. 组装式（Assembled）

现有 VLM + Diffusion Model，通过适配器连接。

OmniGen2：VLM 冻结，Diffusion Decoder 随机初始化
UniWorld-V1：VLM 冻结 + SigLIP 额外条件
DreamOmni2：三步数据合成 + VLM 联合训练

关键维度对比

维度	BAGEL	UniWorld-V1	Tuna-2	Lumina-DiMOO	OmniGen2	Show-o2
范式	AR+Diff	AR+Diff	AR+Diff	纯离散Diff	AR+Diff	AR+Diff
编码器	双编码器	语义编码器	无编码器	离散token	VLM隐状态	3D VAE双路径
数据效率	低(5.1T)	极高(2.7M)	中	中	中	中
推理速度	中等	中等	慢(像素)	极快(32x)	中等	中等
视频支持	✓	✗	✗	✗	✗	✓
感知任务	✗	✓	✗	✓	✗	✗
交错生成	✅	❌	❓	❓	❌	❓

深度分析

交错生成：架构决定能力边界

BAGEL 是目前唯一明确支持图文交错生成的 UMM——在单次推理中输出”文本→图像→文本”序列。这不是一个”nice to have”的功能，而是架构选择直接决定的能力边界：

集成式 + Generalized Causal Attention（BAGEL）：✅ 交错生成。MoT 框架中理解和生成 Expert 共享 self-attention，后续 token 可以自然地 attend 到前面的 VAE/ViT token
组装式 VLM + Diffusion（DreamOmni2, OmniGen2）：❌ 交错生成。文本生成和图像生成使用不同模块，无法在同一序列中自由切换
其他集成式（Tuna-2, Lumina-DiMOO, Show-o2）：❓ 理论上可行但论文未验证

这意味着：即使 DreamOmni2 和 OmniGen2 在单个编辑任务上可能比 BAGEL 表现更好，它们永远无法支持”边聊边画”的交互模式。架构选择在今天决定了明天的产品形态。

详见 BAGEL 图文交错生成能力。

编码器之争：有 vs 无

这是当前 UMM 领域最核心的架构分歧。

有编码器派（BAGEL, UniWorld-V1, OmniGen2）：

优势：预训练编码器提供强大的视觉语义理解，可以复用已有基础设施
劣势：编码器-解码器的语义鸿沟需要额外对齐；推理时多一次编码开销
适合场景：需要精准语义理解的任务（感知 + 生成）

无编码器派（Tuna-2）：

优势：端到端简洁，无信息瓶颈，理论上限更高
劣势：需要海量数据（Tuna-2 用了 550M 图文对），训练成本极高
适合场景：纯生成任务，追求上限

我的判断：短期内”有编码器 + 高效对齐”（如 UniWorld-V1 的 2.7M 数据）更实用。长期来看，随着数据规模继续增长，无编码器可能追上来。关键是 BAGEL 的涌现现象——大规模预训练后模型自己学会了推理，这是否与编码器的存在有关，还是一个完全开放的问题。

离散 vs 连续：扩散范式的路线之争

	连续扩散 (SD/FLUX)	离散扩散 (Lumina-DiMOO)
优势	图像质量高、生态成熟	速度极快（32x）、与 LLM 天然统一
劣势	推理慢、与语言模型异质	当前图像质量不如连续扩散
代表	DreamOmni2, OmniGen2, BAGEL	Lumina-DiMOO

我的判断：离散扩散是”正确”的统一方向（与 LLM 共享 token 空间），但在此之前需要解决图像质量问题。Lumina-DiMOO 的 32x 加速已经非常有吸引力。可能的发展路径：先用连续扩散做编辑（质量优先），离散扩散做浏览/预览（速度优先），最终统一。

涌现 vs 高效：两种技术哲学

这是 BAGEL 和 UniWorld-V1 之间最有趣的对比：

	BAGEL（大就是美）	UniWorld-V1（巧就是美）
数据量	5.1T tokens	2.7M 样本
核心发现	规模 → 涌现推理	高质量语义编码器 → 高效
哲学	让数据说话	让架构说话

我的判断：两种路线不是对立的。UniWorld-V1 证明了”精心设计的编码器可以极大降低数据需求”，BAGEL 证明了”数据规模足够大时可以涌现新能力”。理想的统一模型应该两者兼有：好的架构设计 + 尽可能多的数据。但在资源有限的研究场景下，UniWorld-V1 的路线（2.7M → 可工作）更有参考价值。

统一多模态 vs 专用编辑：谁更适合实际应用？

	统一多模态模型	专用编辑模型 (Step1X-Edit, EmoEdit)
能力范围	理解+生成+编辑	专注编辑
编辑质量	通常不如专用模型	通常更好
灵活性	极高	受限于训练任务
部署成本	高（大模型）	中（中等模型 + adapter）

我的判断：对于实际产品，短期应该是”通用感知 + 专用编辑”的组合。用 VLM 理解用户意图，专用编辑模型执行编辑。EmoEdit 的 Emotion adapter（不改基座，只训 adapter）就是这个思路的最佳实践。长期来看，当统一模型足够强时，专用模型会被收编。

我关注的核心问题

BAGEL 的涌现推理是怎么来的？ 是 MoT 架构特有的，还是任何足够大的 UMM 都会涌现？如果能分离出关键因素，就可以不用 5.1T tokens 也能获得推理能力。
DiT 时代 ControlNet 往哪走？ OminiControl 展示了 DiT 极简控制（0.1% 参数），但能否达到 ControlNet 的生态丰富度？ControlNet 的成功不仅在于架构，更在于社区贡献的海量预训练条件模型。
多模态指令编辑的下一步是什么？ DreamOmni2 的多图像+多模态指令已经展现了方向。但真正的突破可能是”世界模型驱动的编辑”——EditWorld 的方向，让模型理解物理因果而非只是像素变换。
情感和审美何时被系统性地整合？ 当前没有任何 UMM 将情感/审美作为一等公民。EmoEdit 的 adapter 方案是务实的，但理想情况是模型在预训练阶段就学习情感-视觉的关联。EmoArt 的 132K 数据集可能是一个起点。

Blog1

探索

统一多模态模型架构比较

统一多模态模型架构比较

总体路线

1. 集成式（Integrated）

2. 组装式（Assembled）

关键维度对比

深度分析

交错生成：架构决定能力边界

编码器之争：有 vs 无

离散 vs 连续：扩散范式的路线之争

涌现 vs 高效：两种技术哲学

统一多模态 vs 专用编辑：谁更适合实际应用？

我关注的核心问题

相关比较

关系图谱

目录

反向链接