Blog1

❯

❯

❯

多模态模型的最终形态是原生统一还是模块化组装

多模态模型的最终形态是原生统一还是模块化组装

2026年4月30日6分钟阅读

多模态
原生多模态
架构
统一模型

多模态模型的最终形态：原生统一还是模块化组装？

问题背景

当前多模态大模型存在两条对立的技术路线：

原生统一（Native Unified）：用一个模型、一个训练目标处理所有模态。代表：Show-o2、Emu3.5、GPT-4o。
模块化组装（Assembled）：每个模态有专用编码器/解码器，通过共享 Transformer 主干或跨模态注意力连接。代表：LLaVA（视觉编码器+LLM）、Stable Diffusion（CLIP 文本编码器+UNet/DiT）、BAGEL MoT。

哪种路线会成为最终形态？

双方论点

原生统一派的理由

信息没有瓶颈：组装式方案中，模态间的信息传递受限于连接点的带宽（如 CLIP embedding 只传递高层语义，丢失了细粒度信息）
更简单的工程栈：一个模型解决所有问题，不需要维护多个编码器/解码器的兼容性
涌现跨模态能力：Emu3.5 通过 10T token 的统一训练展示了跨模态的涌现行为（图像理解提升时生成也提升）
GPT-4o 证明了可行性：音频、视觉、文本的原生统一在工业产品中已是现实

模块化派的理由

各模态的最优架构不同：CNN/ViT 最适合视觉编码，Transformer 最适合文本，用单一架构处理所有模态是”削足适履”
训练数据不同质：图文对齐数据、纯文本、视频的规模和质量差异巨大，统一训练需要复杂的采样策略
迭代更灵活：可以独立升级视觉编码器而不影响语言能力
BAGEL MoT 证明了混合方案的高效：MoE 式的路由可以选择性地激活不同模态的专家，兼顾了统一和专用
零视觉 SFT 的反直觉证据：Kimi K2.5 的 zero-vision SFT 暗示，某些”多模态”能力可能并不真的需要视觉模型

深层分析

核心张力：训练效率 vs 推理最优

原生统一在训练时更高效（一个优化目标、一个数据流）
模块化在推理时可能更优（每个模态用最小的必要计算）
但 MoE 架构（如 BAGEL）正在模糊这个边界——一个统一模型内部可以有模态特定的专家路由

被忽视的变量：商业和组织约束

技术路线之争往往被非技术因素决定：

人才集中度：能做原生统一训练的团队极少（OpenAI、Google），模块化门槛更低
开源生态惯性：LLaVA、Stable Diffusion 等模块化方案已有庞大生态，迁移成本高
商业竞争：各模态的专用公司（如专门做语音的 ElevenLabs、专门做图像的 Midjourney）有动力维护模块化路线

一个可能的中间路径

BAGEL 的 MoT（Mixture of Tokens）可能预示了第三种路径：

不是”一个编码器处理所有”，也不是”各自编码器拼装”
而是统一 Transformer 内部有模态化 token 处理——不同模态的 token 在同一个模型中被不同的专家处理
这结合了统一的优化目标和模态特定的计算路径

综合判断

短期（未来 3 年）：模块化组装是主流

工程可行性高、迭代快、门槛低
大多数”统一多模态”系统在架构深度上仍是模块化的

中期（未来 5 年）：伪统一 → 真统一过渡

MoE + 模态路由的方案（类似 BAGEL）成为主流
模型”看起来统一”，但内部仍有模态专用计算

长期（未来 10 年）：原生统一可能成为终极形态

如果 scaling 持续，单一 Transformer 的通用能力可能最终覆盖所有模态的最优编码
但这需要数据规模的进一步量级突破

与已有 Wiki 的连接

关联概念：原生多模态模型、MoE 混合专家模型、多模态 Agent
关联比较：统一多模态模型架构比较
关联实体：BAGEL、Show-o2、Emu3.5、GPT-4o
关联问题：BAGEL 图文交错生成能力

关系图谱

多模态模型的最终形态：原生统一还是模块化组装？
问题背景
双方论点
原生统一派的理由
模块化派的理由
深层分析
核心张力：训练效率 vs 推理最优
被忽视的变量：商业和组织约束
一个可能的中间路径
综合判断
与已有 Wiki 的连接

反向链接

Contradictions
index
log
Emerging Properties in Unified Multimodal Pretraining
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community