BAGEL 是否支持图文交错生成？

问题

BAGEL 能否在单次推理中生成文本-图像-文本的交错输出序列？

BAGEL 是目前少数明确支持图文交错生成的统一多模态模型之一。

BAGEL 的 Generalized Causal Attention 机制专门为交错序列设计：

输入/输出序列示例：
[文本] "这是日出的照片" → [图像: 日出] → [文本] "现在改成黄昏风格" → [图像: 黄昏]

序列中后续的 token（无论是文本还是图像）可以通过因果注意力 attend 到前面图像的：

对于连续生成多张图像的交错序列，BAGEL 使用 Diffusion Forcing 策略：

模型	交错输入理解	交错生成输出	实现方式
BAGEL	✅	✅	Generalized Causal Attention + Diffusion Forcing
DreamOmni2	✅	❌	VLM + 扩散解耦，不支持交错输出
OmniGen2	✅	❌	VLM 冻结 + 扩散解码，不支持交错输出
Show-o2	✅	❓	3D VAE 双路径，论文未明确
WEAVE	✅（多轮）	N/A (benchmark)	多轮对话中的上下文编辑

组装式架构（VLM + Diffusion）的固有局限：文本生成和图像生成使用不同的模块，无法在同一序列中自由切换。BAGEL 的 MoT 架构把两种 Expert 放在同一个 decoder-only 框架中，共享 self-attention，天然支持交错序列。

图文交错生成不仅仅是”多了一个功能”——它改变了模型的使用范式：