多模态模型的最终形态:原生统一还是模块化组装?
问题背景
当前多模态大模型存在两条对立的技术路线:
- 原生统一(Native Unified):用一个模型、一个训练目标处理所有模态。代表:Show-o2、Emu3.5、GPT-4o。
- 模块化组装(Assembled):每个模态有专用编码器/解码器,通过共享 Transformer 主干或跨模态注意力连接。代表:LLaVA(视觉编码器+LLM)、Stable Diffusion(CLIP 文本编码器+UNet/DiT)、BAGEL MoT。
哪种路线会成为最终形态?
双方论点
原生统一派的理由
- 信息没有瓶颈:组装式方案中,模态间的信息传递受限于连接点的带宽(如 CLIP embedding 只传递高层语义,丢失了细粒度信息)
- 更简单的工程栈:一个模型解决所有问题,不需要维护多个编码器/解码器的兼容性
- 涌现跨模态能力:Emu3.5 通过 10T token 的统一训练展示了跨模态的涌现行为(图像理解提升时生成也提升)
- GPT-4o 证明了可行性:音频、视觉、文本的原生统一在工业产品中已是现实
模块化派的理由
- 各模态的最优架构不同:CNN/ViT 最适合视觉编码,Transformer 最适合文本,用单一架构处理所有模态是”削足适履”
- 训练数据不同质:图文对齐数据、纯文本、视频的规模和质量差异巨大,统一训练需要复杂的采样策略
- 迭代更灵活:可以独立升级视觉编码器而不影响语言能力
- BAGEL MoT 证明了混合方案的高效:MoE 式的路由可以选择性地激活不同模态的专家,兼顾了统一和专用
- 零视觉 SFT 的反直觉证据:Kimi K2.5 的 zero-vision SFT 暗示,某些”多模态”能力可能并不真的需要视觉模型
深层分析
核心张力:训练效率 vs 推理最优
- 原生统一在训练时更高效(一个优化目标、一个数据流)
- 模块化在推理时可能更优(每个模态用最小的必要计算)
- 但 MoE 架构(如 BAGEL)正在模糊这个边界——一个统一模型内部可以有模态特定的专家路由
被忽视的变量:商业和组织约束
技术路线之争往往被非技术因素决定:
- 人才集中度:能做原生统一训练的团队极少(OpenAI、Google),模块化门槛更低
- 开源生态惯性:LLaVA、Stable Diffusion 等模块化方案已有庞大生态,迁移成本高
- 商业竞争:各模态的专用公司(如专门做语音的 ElevenLabs、专门做图像的 Midjourney)有动力维护模块化路线
一个可能的中间路径
BAGEL 的 MoT(Mixture of Tokens)可能预示了第三种路径:
- 不是”一个编码器处理所有”,也不是”各自编码器拼装”
- 而是统一 Transformer 内部有模态化 token 处理——不同模态的 token 在同一个模型中被不同的专家处理
- 这结合了统一的优化目标和模态特定的计算路径
综合判断
短期(未来 3 年):模块化组装是主流
- 工程可行性高、迭代快、门槛低
- 大多数”统一多模态”系统在架构深度上仍是模块化的
中期(未来 5 年):伪统一 → 真统一过渡
- MoE + 模态路由的方案(类似 BAGEL)成为主流
- 模型”看起来统一”,但内部仍有模态专用计算
长期(未来 10 年):原生统一可能成为终极形态
- 如果 scaling 持续,单一 Transformer 的通用能力可能最终覆盖所有模态的最优编码
- 但这需要数据规模的进一步量级突破
与已有 Wiki 的连接
- 关联概念:原生多模态模型、MoE 混合专家模型、多模态 Agent
- 关联比较:统一多模态模型架构比较
- 关联实体:BAGEL、Show-o2、Emu3.5、GPT-4o
- 关联问题:BAGEL 图文交错生成能力