Show-o2(NUS Show Lab)

Show-o2 是新加坡国立大学 Show Lab 和字节跳动在 2025 年 6 月发布的改进版原生统一多模态模型。

  • 机构:National University of Singapore、ByteDance
  • 架构:3D Causal VAE + 双路径空间融合 + LLM backbone(AR for text, Flow for image/video)
  • 关键创新:3D Causal VAE 支持图像和视频统一建模;双路径融合结合语义和低层特征
  • 能力范围:文本、图像、视频的理解和生成
  • 扩展策略:1.5B 预训练 flow head 可恢复到大模型(7B)
  • 与 Show-o 的关系:从 Show-o 的离散 token + AR+Diffusion 升级到 3D VAE + 连续 Flow Matching