原生多模态模型
定义
原生多模态模型(Native Multimodal Model)是指从预训练阶段就用统一架构和统一目标同时处理多种模态(视觉、语言等)的模型,而非分别训练视觉编码器和语言模型后再拼接(组装式方案)。
核心特征
- 统一架构:整个模型共享同一组参数,不分”视觉编码器”和”语言模型”。
- 统一训练目标:通常使用 next-token prediction(自回归)或离散扩散等统一损失,所有模态的 token 一视同仁。
- 图文交织:原生支持图文交错的输入和输出,可以”看到图后说话、说完话后生成图”。
与组装式方案的对比
| 维度 | 组装式方案(VLM + Diffusion) | 原生多模态方案 |
|---|---|---|
| 训练方式 | 分阶段训练(对比预训练→VLM 微调→扩散模型独立训练) | 端到端统一预训练 |
| 架构 | 视觉编码器 + 投影层 + LLM + 扩散模型 | 单一 Transformer/扩散模型 |
| 图文交错 | 需要特殊架构设计(如 BAGEL 的 MoT) | 天然支持 |
| 训练效率 | 可以利用不同模型的最佳组件 | 需要从头训练整个模型 |
| 推理效率 | 两套推理流水线 | 统一推理(Emu3.5 的 DiDA 可加速 20x) |
| 代表工作 | GPT-4o、Gemini 等 | Emu3.5、BAGEL、Show-o2 |
代表工作
Emu3.5(2025):原生多模态世界模型
- Emu3.5 在超 10 万亿 token 的图文交错数据上做端到端 next-token prediction 预训练。
- 创新性地提出 DiDA(Discrete Diffusion Adaptation):将逐 token 自回归转换为并行扩散预测,加速 20 倍。
- 具备世界建模能力:从视频序列中学习时空一致性,支持 open-world embodied manipulation。
BAGEL(2025):MoT 架构
- BAGEL 的 Mixture of Transformers (MoT) 让视觉和语言共享部分参数又有专门化模块。
- 通过 Diffusion Forcing 实现图文交错生成。
- 大规模预训练后涌现出多模态 reasoning 能力。
Show-o2(2025):原生统一
- Show-o2 使用统一的下一个 token 预测目标处理文本 token 和图像 token(通过 VQ-VAE 离散化)。
- 支持图文交错理解与生成,以及视频生成。
关键洞察
- 原生 vs 组装不是二元的:BAGEL 的 MoT 架构是中间态(共享参数 + 模态专家),说明”统一程度”是一个连续谱。
- 互信息瓶颈:组装式方案在模态间传递信息时存在瓶颈(编码器压缩时信息丢失)。原生方案理论上去除了这个瓶颈。
- 效率是关键瓶颈:原生方案通常推理更慢(完全自回归),Emu3.5 的 DiDA 是第一个有效的加速方案。
- 数据需求:原生方案需要巨量图文交错数据(10T+ tokens),而组装式可以复用已有的视觉编码器和 LLM 预训练权重。
关联
- 对比学习(CLIP/SigLIP)提供的语义对齐是组装式方案的关键组件:多模态对比学习
- 在图像编辑生成中的位置:扩散模型图像编辑与生成
- 统一多模态模型对比:统一多模态模型架构比较
深度分析:统一还是组装?这不是一个技术问题
1. 本质分歧不在技术,在数据
原生方案(如 Emu3.5)追求架构的纯粹和理论的优雅——单一模型、单一目标、端到端。但它需要 10T+ 图文交错数据从头训练。组装方案(CLIP ViT + LLM + Diffusion)在架构上「丑」——多个模型拼接、多阶段训练、信息在模态边界被压缩——但它可以复用大量已有预训练权重(CLIP 视觉编码器、LLM、扩散模型都是独立训练好的)。
这个选择本质上取决于你处于什么资源约束下:
- 如果数据不是瓶颈(你拥有 10T+ 高质量图文交错数据),原生方案理论更优(去除了互信息瓶颈)。
- 如果数据是瓶颈(这是绝大多数团队的实际情况),组装方案更现实。
2. BAGEL 的 MoT 是第三条路——也是最聪明的折中
BAGEL 的 Mixture of Transformers 既不是完全原生(不是端到端单模型),也不是完全组装(不是独立模型的简单拼接)。MoT 的「共享参数 + 模态专家」设计可能是当前最实用的架构选择:共享层学到跨模态通用表示,专家层保留模态特有的归纳偏置(视觉的局部性、语言的长程依赖等)。这承认了一个重要事实:视觉和语言确实需要不同的处理方式,但它们之间也存在可以被共享的通用知识。
3. 互信息瓶颈被夸大了——至少在当前阶段
组装方案的批评者指出视觉编码器在压缩图像时会丢失与语言相关的信息(互信息瓶颈)。这个批评在理论上是正确的。但在实践中,4096 个视觉 token(典型 CLIP ViT 的输出)携带的信息对大多数当前任务已经足够。互信息瓶颈更像是一个「未来的瓶颈」——当模型能力提升到需要更细粒度的视觉理解(如精确的空间关系、细微的纹理差异)时,它才可能成为真正的限制。在当前能力水平上,它更多是理论上的优雅批评。
4. DiDA 的 20x 加速是原生方案的关键转折——但需要独立验证
原生模型的一个关键缺陷是推理效率——完全自回归生成图像 token 极其缓慢。Emu3.5 的 DiDA(Discrete Diffusion Adaptation)声称通过并行扩散预测实现了 20 倍加速。如果这一数字在独立验证中成立,原生方案的理论优势就从「架构优雅」变成了「工程实用」。但目前 DiDA 仅在 Emu3.5 论文中报告,没有被第三方复现。这个 20x 是真实加速还是实验室最优条件下的数字,仍需观察。
5. 未来预测
- 5 年内(~2031):组装式仍为主流。原生方案受限于数据规模和训练成本,组装方案在工程成熟度上领先太多。更多的工作会沿着 BAGEL 的 MoT 思路——在组装的框架内逐步增加统一性。
- 10 年+(~2036+):当数据和算力不再是瓶颈,原生方案的理论优势将不可忽视。但「统一」可能不是回到 Emu3.5 式的纯 next-token prediction,而是某种新的范式——可能是连续-离散混合表示或新的训练目标。参见 统一多模态模型架构比较。