多模态模型的最终形态:原生统一还是模块化组装?

问题背景

当前多模态大模型存在两条对立的技术路线:

  1. 原生统一(Native Unified):用一个模型、一个训练目标处理所有模态。代表:Show-o2、Emu3.5、GPT-4o。
  2. 模块化组装(Assembled):每个模态有专用编码器/解码器,通过共享 Transformer 主干或跨模态注意力连接。代表:LLaVA(视觉编码器+LLM)、Stable Diffusion(CLIP 文本编码器+UNet/DiT)、BAGEL MoT。

哪种路线会成为最终形态?

双方论点

原生统一派的理由

  1. 信息没有瓶颈:组装式方案中,模态间的信息传递受限于连接点的带宽(如 CLIP embedding 只传递高层语义,丢失了细粒度信息)
  2. 更简单的工程栈:一个模型解决所有问题,不需要维护多个编码器/解码器的兼容性
  3. 涌现跨模态能力:Emu3.5 通过 10T token 的统一训练展示了跨模态的涌现行为(图像理解提升时生成也提升)
  4. GPT-4o 证明了可行性:音频、视觉、文本的原生统一在工业产品中已是现实

模块化派的理由

  1. 各模态的最优架构不同:CNN/ViT 最适合视觉编码,Transformer 最适合文本,用单一架构处理所有模态是”削足适履”
  2. 训练数据不同质:图文对齐数据、纯文本、视频的规模和质量差异巨大,统一训练需要复杂的采样策略
  3. 迭代更灵活:可以独立升级视觉编码器而不影响语言能力
  4. BAGEL MoT 证明了混合方案的高效:MoE 式的路由可以选择性地激活不同模态的专家,兼顾了统一和专用
  5. 零视觉 SFT 的反直觉证据:Kimi K2.5 的 zero-vision SFT 暗示,某些”多模态”能力可能并不真的需要视觉模型

深层分析

核心张力:训练效率 vs 推理最优

  • 原生统一在训练时更高效(一个优化目标、一个数据流)
  • 模块化在推理时可能更优(每个模态用最小的必要计算)
  • 但 MoE 架构(如 BAGEL)正在模糊这个边界——一个统一模型内部可以有模态特定的专家路由

被忽视的变量:商业和组织约束

技术路线之争往往被非技术因素决定:

  1. 人才集中度:能做原生统一训练的团队极少(OpenAI、Google),模块化门槛更低
  2. 开源生态惯性:LLaVA、Stable Diffusion 等模块化方案已有庞大生态,迁移成本高
  3. 商业竞争:各模态的专用公司(如专门做语音的 ElevenLabs、专门做图像的 Midjourney)有动力维护模块化路线

一个可能的中间路径

BAGEL 的 MoT(Mixture of Tokens)可能预示了第三种路径:

  • 不是”一个编码器处理所有”,也不是”各自编码器拼装”
  • 而是统一 Transformer 内部有模态化 token 处理——不同模态的 token 在同一个模型中被不同的专家处理
  • 这结合了统一的优化目标和模态特定的计算路径

综合判断

短期(未来 3 年):模块化组装是主流

  • 工程可行性高、迭代快、门槛低
  • 大多数”统一多模态”系统在架构深度上仍是模块化的

中期(未来 5 年):伪统一 → 真统一过渡

  • MoE + 模态路由的方案(类似 BAGEL)成为主流
  • 模型”看起来统一”,但内部仍有模态专用计算

长期(未来 10 年):原生统一可能成为终极形态

  • 如果 scaling 持续,单一 Transformer 的通用能力可能最终覆盖所有模态的最优编码
  • 但这需要数据规模的进一步量级突破

与已有 Wiki 的连接