Lumina-DiMOO

核心结论

  • Lumina-DiMOO 是一个纯离散扩散(discrete diffusion) 统一多模态模型,区别于 AR 或 AR+Diffusion 混合范式。
  • 在文本生成速度上比纯 AR 模型(如 Lumina-mGPT 2.0)快 32 倍,加上 ML-Cache 可再快 2 倍。
  • 基于 LLaDA(离散扩散 LLM)初始化,无结构修改即可扩展至多模态。

关键事实

  • 架构:基于 LLaDA-Base 离散扩散 LLM,使用 aMUSEd-VQ tokenizer(16× 下采样),总词表含 126,345 文本 token + 8,192 视觉 token + 特殊 token。
  • 任意分辨率:通过插入 <end-of-line> token 保留二维图像结构,支持任意宽高比。
  • 零样本图像修复:离散扩散的固有能力支持交互式修图(Interactive Retouching)。
  • ML-Cache:无训练加速方法,利用高 logit token 的表示相似性。
  • UniGenBench 榜首:在腾讯混元团队维护的 UniGenBench 开源模型排行榜中排名第一。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • 离散扩散在图像质量上是否最终能赶上连续扩散(如 FLUX、SD3)?
  • aMUSEd-VQ 的 16× 下采样是否丢失过多细节?

后续问题

  • 离散扩散的并行解码优势是否能在长序列(视频)生成中充分体现?
  • ML-Cache 在其他离散扩散模型上的通用性如何?