Lumina-DiMOO

核心结论

Lumina-DiMOO 是一个纯离散扩散（discrete diffusion） 统一多模态模型，区别于 AR 或 AR+Diffusion 混合范式。
在文本生成速度上比纯 AR 模型（如 Lumina-mGPT 2.0）快 32 倍，加上 ML-Cache 可再快 2 倍。
基于 LLaDA（离散扩散 LLM）初始化，无结构修改即可扩展至多模态。

架构：基于 LLaDA-Base 离散扩散 LLM，使用 aMUSEd-VQ tokenizer（16× 下采样），总词表含 126,345 文本 token + 8,192 视觉 token + 特殊 token。
任意分辨率：通过插入 <end-of-line> token 保留二维图像结构，支持任意宽高比。
零样本图像修复：离散扩散的固有能力支持交互式修图（Interactive Retouching）。
ML-Cache：无训练加速方法，利用高 logit token 的表示相似性。
UniGenBench 榜首：在腾讯混元团队维护的 UniGenBench 开源模型排行榜中排名第一。