Tuna-2: Pixel Embeddings Beat Vision Encoders

核心结论

Tuna-2 是一个无编码器（encoder-free） 的统一多模态模型，直接基于像素嵌入（pixel embeddings）进行理解和生成，完全摒弃了 VAE 和表示编码器。
证明预训练的视觉编码器对多模态建模并非必要，端到端像素空间学习是一条可扩展的路径。
无编码器设计在精细视觉感知任务上优于编码器变体 Tuna-R。

架构：单 Transformer decoder（基于 Qwen2.5-7B-Instruct），直接用 patch embedding 层处理图像，移除 VAE 和 SigLIP 等模块。
像素空间生成：采用 JiT 的 $x$ -prediction 和 $v$ -loss 范式进行像素空间 flow matching。
掩码特征学习：随机 mask 部分图像 patch，迫使模型在部分视觉观察下进行多模态推理，学习更鲁棒的视觉表示。
两阶段训练：Stage 1 全模型预训练（550M 图文对，300K steps）；Stage 2 SFT（13M FineVision + 2M OmniEdit）。
受控对比实验：Tuna-2（无编码器）vs Tuna-R（带 SigLIP2 编码器）→ 生成能力相当，理解能力 Tuna-2 更优，尤其是在细粒度感知任务上。