统一多模态模型架构比较
总体路线
1. 集成式(Integrated)
编码器和生成模块共享参数,端到端训练。
- BAGEL (MoT):理解/生成 Expert 分离但共享 self-attention
- Tuna-2 (单 Transformer):完全无编码器,端到端像素空间
- Show-o2 (LLM + 双 head):共享 backbone,不同 head 处理不同任务
- Lumina-DiMOO (离散扩散 LLM):统一 masked modeling 目标
2. 组装式(Assembled)
现有 VLM + Diffusion Model,通过适配器连接。
- OmniGen2:VLM 冻结,Diffusion Decoder 随机初始化
- UniWorld-V1:VLM 冻结 + SigLIP 额外条件
- DreamOmni2:三步数据合成 + VLM 联合训练
关键维度对比
| 维度 | BAGEL | UniWorld-V1 | Tuna-2 | Lumina-DiMOO | OmniGen2 | Show-o2 |
|---|---|---|---|---|---|---|
| 范式 | AR+Diff | AR+Diff | AR+Diff | 纯离散Diff | AR+Diff | AR+Diff |
| 编码器 | 双编码器 | 语义编码器 | 无编码器 | 离散token | VLM隐状态 | 3D VAE双路径 |
| 数据效率 | 低(5.1T) | 极高(2.7M) | 中 | 中 | 中 | 中 |
| 推理速度 | 中等 | 中等 | 慢(像素) | 极快(32x) | 中等 | 中等 |
| 视频支持 | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ |
| 感知任务 | ✗ | ✓ | ✗ | ✓ | ✗ | ✗ |
| 交错生成 | ✅ | ❌ | ❓ | ❓ | ❌ | ❓ |
深度分析
交错生成:架构决定能力边界
BAGEL 是目前唯一明确支持图文交错生成的 UMM——在单次推理中输出”文本→图像→文本”序列。这不是一个”nice to have”的功能,而是架构选择直接决定的能力边界:
- 集成式 + Generalized Causal Attention(BAGEL):✅ 交错生成。MoT 框架中理解和生成 Expert 共享 self-attention,后续 token 可以自然地 attend 到前面的 VAE/ViT token
- 组装式 VLM + Diffusion(DreamOmni2, OmniGen2):❌ 交错生成。文本生成和图像生成使用不同模块,无法在同一序列中自由切换
- 其他集成式(Tuna-2, Lumina-DiMOO, Show-o2):❓ 理论上可行但论文未验证
这意味着:即使 DreamOmni2 和 OmniGen2 在单个编辑任务上可能比 BAGEL 表现更好,它们永远无法支持”边聊边画”的交互模式。架构选择在今天决定了明天的产品形态。
详见 BAGEL 图文交错生成能力。
编码器之争:有 vs 无
这是当前 UMM 领域最核心的架构分歧。
有编码器派(BAGEL, UniWorld-V1, OmniGen2):
- 优势:预训练编码器提供强大的视觉语义理解,可以复用已有基础设施
- 劣势:编码器-解码器的语义鸿沟需要额外对齐;推理时多一次编码开销
- 适合场景:需要精准语义理解的任务(感知 + 生成)
无编码器派(Tuna-2):
- 优势:端到端简洁,无信息瓶颈,理论上限更高
- 劣势:需要海量数据(Tuna-2 用了 550M 图文对),训练成本极高
- 适合场景:纯生成任务,追求上限
我的判断:短期内”有编码器 + 高效对齐”(如 UniWorld-V1 的 2.7M 数据)更实用。长期来看,随着数据规模继续增长,无编码器可能追上来。关键是 BAGEL 的涌现现象——大规模预训练后模型自己学会了推理,这是否与编码器的存在有关,还是一个完全开放的问题。
离散 vs 连续:扩散范式的路线之争
| 连续扩散 (SD/FLUX) | 离散扩散 (Lumina-DiMOO) | |
|---|---|---|
| 优势 | 图像质量高、生态成熟 | 速度极快(32x)、与 LLM 天然统一 |
| 劣势 | 推理慢、与语言模型异质 | 当前图像质量不如连续扩散 |
| 代表 | DreamOmni2, OmniGen2, BAGEL | Lumina-DiMOO |
我的判断:离散扩散是”正确”的统一方向(与 LLM 共享 token 空间),但在此之前需要解决图像质量问题。Lumina-DiMOO 的 32x 加速已经非常有吸引力。可能的发展路径:先用连续扩散做编辑(质量优先),离散扩散做浏览/预览(速度优先),最终统一。
涌现 vs 高效:两种技术哲学
这是 BAGEL 和 UniWorld-V1 之间最有趣的对比:
| BAGEL(大就是美) | UniWorld-V1(巧就是美) | |
|---|---|---|
| 数据量 | 5.1T tokens | 2.7M 样本 |
| 核心发现 | 规模 → 涌现推理 | 高质量语义编码器 → 高效 |
| 哲学 | 让数据说话 | 让架构说话 |
我的判断:两种路线不是对立的。UniWorld-V1 证明了”精心设计的编码器可以极大降低数据需求”,BAGEL 证明了”数据规模足够大时可以涌现新能力”。理想的统一模型应该两者兼有:好的架构设计 + 尽可能多的数据。但在资源有限的研究场景下,UniWorld-V1 的路线(2.7M → 可工作)更有参考价值。
统一多模态 vs 专用编辑:谁更适合实际应用?
| 统一多模态模型 | 专用编辑模型 (Step1X-Edit, EmoEdit) | |
|---|---|---|
| 能力范围 | 理解+生成+编辑 | 专注编辑 |
| 编辑质量 | 通常不如专用模型 | 通常更好 |
| 灵活性 | 极高 | 受限于训练任务 |
| 部署成本 | 高(大模型) | 中(中等模型 + adapter) |
我的判断:对于实际产品,短期应该是”通用感知 + 专用编辑”的组合。用 VLM 理解用户意图,专用编辑模型执行编辑。EmoEdit 的 Emotion adapter(不改基座,只训 adapter)就是这个思路的最佳实践。长期来看,当统一模型足够强时,专用模型会被收编。
我关注的核心问题
-
BAGEL 的涌现推理是怎么来的? 是 MoT 架构特有的,还是任何足够大的 UMM 都会涌现?如果能分离出关键因素,就可以不用 5.1T tokens 也能获得推理能力。
-
DiT 时代 ControlNet 往哪走? OminiControl 展示了 DiT 极简控制(0.1% 参数),但能否达到 ControlNet 的生态丰富度?ControlNet 的成功不仅在于架构,更在于社区贡献的海量预训练条件模型。
-
多模态指令编辑的下一步是什么? DreamOmni2 的多图像+多模态指令已经展现了方向。但真正的突破可能是”世界模型驱动的编辑”——EditWorld 的方向,让模型理解物理因果而非只是像素变换。
-
情感和审美何时被系统性地整合? 当前没有任何 UMM 将情感/审美作为一等公民。EmoEdit 的 adapter 方案是务实的,但理想情况是模型在预训练阶段就学习情感-视觉的关联。EmoArt 的 132K 数据集可能是一个起点。