Show-o2(NUS Show Lab)
Show-o2 是新加坡国立大学 Show Lab 和字节跳动在 2025 年 6 月发布的改进版原生统一多模态模型。
- 机构:National University of Singapore、ByteDance
- 架构:3D Causal VAE + 双路径空间融合 + LLM backbone(AR for text, Flow for image/video)
- 关键创新:3D Causal VAE 支持图像和视频统一建模;双路径融合结合语义和低层特征
- 能力范围:文本、图像、视频的理解和生成
- 扩展策略:1.5B 预训练 flow head 可恢复到大模型(7B)
- 与 Show-o 的关系:从 Show-o 的离散 token + AR+Diffusion 升级到 3D VAE + 连续 Flow Matching