Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

1 Intro

1.1 Motivation

当前 unified multimodal model (UMM) 的主流范式是引入 pretrained vision encoder（如 CLIP、SigLIP 用于理解，VAE 用于生成），但这些 encoder 本身存在局限：

架构复杂度高：需要额外的 connector/alignment stage 将视觉 encoder 与 LLM 对齐
表示瓶颈：pretrained encoder 的表示空间可能不完全适配下游多模态任务
像素级任务受限：CLIP 等 representation encoder 更关注语义，对细粒度像素级理解（如计数、空间推理）能力不足

因此，一个自然的问题是：能否完全抛弃 pretrained vision encoder，直接从原始像素构建统一多模态模型？

1.2 核心主张

Tuna-2 的核心主张是：raw pixel embeddings（通过简单 patch embedding 层）可以完全替代 pretrained vision encoder，在理解和生成两个方向上同时达到甚至超越使用 encoder 的方案。

具体而言，Tuna-2 将原始像素通过 patch embedding 直接转换为 token，送入单一的 unified transformer decoder 处理，无需任何 VAE、CLIP 或 SigLIP。

1.3 贡献

提出 Tuna-2：一个完全无 encoder 的 native UMM，仅使用 raw pixel embeddings + 统一 transformer decoder（7B 参数）
Masking-Based Feature Learning：通过随机 mask 图像 patch，同时提升生成和理解能力，是关键技术创新
系统性消融实验：对比了三种架构演进路径（Tuna → Tuna-R → Tuna-2），证明 encoder-free 方案在规模化训练后可超越 encoder-based 方案
Pixel-space generation：采用 xx-prediction 和 vv-loss 的 flow matching 直接在像素空间生成，遵循 JiT paradigm

Figure 1: Tuna 架构演进与多模态性能对比。从 Tuna（VAE + CLIP）→ Tuna-R（仅 CLIP）→ Tuna-2（无编码器，raw pixel patches），逐步移除视觉编码器组件。

2 Method

2.1 架构

2.1.1 架构演进：从 Tuna 到 Tuna-2

Tuna-2 的设计经历了三代演进：

Tuna（Baseline）：使用 VAE 负责图像生成，representation encoder（CLIP）负责视觉理解，两者通过 connector 与 LLM 对齐
Tuna-R：移除 VAE，仅保留 representation encoder，通过 flow matching 在像素空间直接生成（而非 latent space）
Tuna-2（最终方案）：完全移除 representation encoder，仅使用简单 patch embedding 层将原始像素转换为 token

2.1.2 Pixel Patch Embedding

输入图像（如 256×256）被划分为固定大小的 patch
每个 patch 通过线性投影层（无任何 pretrained 权重）映射为 token embedding
这些 pixel tokens 与 text tokens 拼接后，统一送入 transformer decoder

2.1.3 Unified Transformer Decoder

单一 transformer decoder 处理所有模态（text tokens + pixel tokens）
无需任何模态间的 connector 或 projection module
模型参数量 7B

2.1.4 Masking-Based Feature Learning（核心创新）

Figure 3: Masking-Based Feature Learning 示意。训练时随机将部分图像 patch 替换为可学习的 mask token，同时服务于生成（masked prediction）和理解（regularization）。

训练时随机将部分图像 patch 替换为可学习的 mask token
对生成的作用：创建更困难的 denoising 任务，迫使模型学习更强的视觉先验
对理解的作用：充当 regularization，迫使模型在部分观察条件下进行推理
消融实验表明 masking 对理解和生成均有稳定提升

2.1.5 Pixel-Space Generation

采用 xx-prediction 和 vv-loss 进行 flow matching
直接在像素空间（而非 latent space）执行生成，遵循 JiT paradigm
无需 VAE decoder 将 latent 解码回像素

2.2 Training Mechanism

训练分为两个阶段：

Stage 1: Pretraining

联合训练 300k steps
数据组成：image captioning（70%）、T2I generation（30%）、text-only（占总量 20%）
理解和生成的最优数据比例为 7:3（generation:understanding）

Stage 2: SFT (Supervised Fine-Tuning)

训练 50k steps
数据类型：instruction-following、image editing、high-quality generation

关键优势：Tuna-2 不需要额外的 alignment stage（如 Tuna-R 所需的 connector alignment），训练流程更简洁。

2.3 Data

阶段	数据类型	比例
Stage 1	Image captioning	70%
Stage 1	T2I generation	30%
Stage 1	Text-only	占总量 20%
Stage 2	Instruction-following	—
Stage 2	Image editing	—
Stage 2	High-quality generation	—

最优 generation:understanding 数据比为 7:3。

2.4 Training Strategy

无 connector alignment：区别于 Tuna-R 需要额外对齐阶段，Tuna-2 直接端到端训练
Masking 策略：随机 mask 部分 patch，mask ratio 通过消融确定最优值
Flow matching：使用 xx-prediction 和 vv-loss，在像素空间执行 denoising
训练动态：Tuna-R 初期收敛更快（受益于 semantic priors），但 Tuna-2 在理解任务上逐步追平甚至超越；生成任务上差距在 SFT 后显著缩小

3 实验结果

Figure 2: Tuna-2 的 T2I 生成和图像编辑展示。完全无编码器的架构仍能实现高保真生成和精确编辑。

3.1 多模态理解（Multimodal Understanding）

Tuna-2 在多个理解 benchmark 上超越所有 7B native UMM（Tuna、Show-o2、Janus-Pro），特别是在像素级任务上表现突出。

在通用 benchmark（GQA、RealWorldQA、MMVet、MMMU）上，Tuna-2 与使用预训练 encoder 的 Tuna 持平甚至略优，证明 encoder-free 方案在通用理解上不输 encoder-based 方案。

像素级任务的显著优势是 Tuna-2 最亮眼的发现：在 V*（视觉推理）、CountBench（计数）、VisuLogic（逻辑推理）上，Tuna-2 大幅超越所有对比模型。这说明：

CLIP/SigLIP 等语义编码器在预训练时被优化为”语义压缩”，倾向于丢弃细粒度像素信息
Tuna-2 的 raw pixel embedding 保留了完整的像素信息，让 Transformer 自己决定哪些信息重要
这种”不做预设的表征学习”在需要精细感知的任务上有天然优势

与专用 LMM（如 Qwen2.5-VL）对比：Tuna-2 在通用 benchmark 上略低（Qwen2.5-VL 有更强的预训练），但在像素级任务上反超，说明 unified training 对细粒度理解有正向迁移。

表：多模态理解 Benchmark 对比（Table 1）

Models Size GQA RealWorldQA MMVet MMMU MMVP SEED-Bench2+ AI2D ChartQA OCRBench V* CountBench VisuLogic
Understanding-only Models (LMMs)
LLaVA-1.5 7B 62.0 54.8 32.9 35.7 - - 55.5 17.8 31.8 - - -
Qwen-VL-Chat 7B 57.5 49.3 47.3 37.0 - - 57.7 49.8 48.8 - - -
LLaVA-OV 7B - 69.9 51.9 48.8 77.3 62.2 81.4 80.9 62.2 72.7 76.2 24.8
Qwen2.5-VL 7B 60.7 69.9 61.7 58.6 78.0 70.5 82.7 83.0 83.7 71.2 74.1 20.0
Composite UMMs
TokenFlow-XL 14B 62.5 56.6 - 43.2 - - - - - - - -
BLIP3-o 4B - 60.4 - 46.6 - - - - - - - -
Tar 7B 61.3 - - 39.0 74.3 46.2 - - - 41.4 64.2 24.3
X-Omni 7B 62.8 62.6 - 47.2 - - 76.8 81.5 70.4 - - -
Native UMMs
BAGEL 14B 66.4 72.8 67.2 55.3 85.0 71.9 89.2 78.5 73.3 70.2 82.5 41.7
Ming-UniVision 16B 59.4 59.1 64.2 40.3 71.0 56.8 82.8 76.7 72.4 48.2 76.8 26.7
Harmon 1.5B 58.9 49.8 - 38.9 61.7 41.6 57.0 29.8 11.2 41.9 67.0 25.1
JanusFlow 1.3B 60.3 41.2 36.2 29.3 67.7 39.8 54.2 42.4 53.2 42.9 78.6 22.0
Emu3 8B 60.3 57.4 23.5 31.6 71.0 44.6 70.0 69.4 68.7 53.4 65.2 24.7
VILA-U 7B 60.8 46.8 26.3 31.2 62.7 31.9 49.0 11.4 23.3 38.7 55.2 25.4
Janus-Pro 7B 62.0 58.0 41.1 41.0 73.3 56.3 71.3 25.8 59.0 47.6 53.2 23.8
Show-o2 7B 63.1 64.7 39.6 48.9 76.7 61.3 78.6 52.3 32.4 44.5 63.5 26.9
OneCat 9B 63.1 65.2 52.2 41.9 71.3 61.6 77.8 81.2 79.0 63.4 34.2 24.9
Tuna 7B 63.9 66.1 42.9 49.8 70.7 52.7 79.3 85.8 74.3 52.4 73.5 22.4
Tuna-R 7B 63.5 67.9 46.7 51.1 74.7 58.4 79.4 85.6 78.3 57.6 77.8 26.2
Tuna-2 7B 65.0 67.7 51.7 50.7 77.3 61.1 79.6 85.6 79.7 59.2 81.7 28.8

分析：

通用 benchmark：Tuna-2 (7B) 在 GQA (65.0) 上超越所有 7B 模型，接近 BAGEL (66.4, 14B)

像素级任务优势显著：V* (59.2 vs Janus-Pro 47.6, +24%)、CountBench (81.7 vs 53.2, +54%)、VisuLogic (28.8 vs 23.8, +21%)

与 Tuna/Tuna-R 对比：通用任务持平或略优，像素级任务全面领先（V* 59.2 > 57.6 > 52.4）

Models	Size	GQA	RealWorldQA	MMVet	MMMU	MMVP	SEED-Bench2+	AI2D	ChartQA	OCRBench	V*	CountBench	VisuLogic
Understanding-only Models (LMMs)
LLaVA-1.5	7B	62.0	54.8	32.9	35.7	-	-	55.5	17.8	31.8	-	-	-
Qwen-VL-Chat	7B	57.5	49.3	47.3	37.0	-	-	57.7	49.8	48.8	-	-	-
LLaVA-OV	7B	-	69.9	51.9	48.8	77.3	62.2	81.4	80.9	62.2	72.7	76.2	24.8
Qwen2.5-VL	7B	60.7	69.9	61.7	58.6	78.0	70.5	82.7	83.0	83.7	71.2	74.1	20.0
Composite UMMs
TokenFlow-XL	14B	62.5	56.6	-	43.2	-	-	-	-	-	-	-	-
BLIP3-o	4B	-	60.4	-	46.6	-	-	-	-	-	-	-	-
Tar	7B	61.3	-	-	39.0	74.3	46.2	-	-	-	41.4	64.2	24.3
X-Omni	7B	62.8	62.6	-	47.2	-	-	76.8	81.5	70.4	-	-	-
Native UMMs
BAGEL	14B	66.4	72.8	67.2	55.3	85.0	71.9	89.2	78.5	73.3	70.2	82.5	41.7
Ming-UniVision	16B	59.4	59.1	64.2	40.3	71.0	56.8	82.8	76.7	72.4	48.2	76.8	26.7
Harmon	1.5B	58.9	49.8	-	38.9	61.7	41.6	57.0	29.8	11.2	41.9	67.0	25.1
JanusFlow	1.3B	60.3	41.2	36.2	29.3	67.7	39.8	54.2	42.4	53.2	42.9	78.6	22.0
Emu3	8B	60.3	57.4	23.5	31.6	71.0	44.6	70.0	69.4	68.7	53.4	65.2	24.7
VILA-U	7B	60.8	46.8	26.3	31.2	62.7	31.9	49.0	11.4	23.3	38.7	55.2	25.4
Janus-Pro	7B	62.0	58.0	41.1	41.0	73.3	56.3	71.3	25.8	59.0	47.6	53.2	23.8
Show-o2	7B	63.1	64.7	39.6	48.9	76.7	61.3	78.6	52.3	32.4	44.5	63.5	26.9
OneCat	9B	63.1	65.2	52.2	41.9	71.3	61.6	77.8	81.2	79.0	63.4	34.2	24.9
Tuna	7B	63.9	66.1	42.9	49.8	70.7	52.7	79.3	85.8	74.3	52.4	73.5	22.4
Tuna-R	7B	63.5	67.9	46.7	51.1	74.7	58.4	79.4	85.6	78.3	57.6	77.8	26.2
Tuna-2	7B	65.0	67.7	51.7	50.7	77.3	61.1	79.6	85.6	79.7	59.2	81.7	28.8

3.2 图像生成（Image Generation）

Tuna-2 在 GenEval 和 DPG-Bench 上达到 competitive 水平，且 LLM-Judge 评估显示其在图像多样性上优于 Tuna-R。

关键发现——多样性 vs 质量的 trade-off：LLM-Judge（GPT-5.4 和 Claude Opus 4.7）评估显示 Tuna-2 在图像多样性上优于 Tuna-R，但在某些质量维度上略逊。这反映了一个深层规律：encoder-free 方案因为没有预训练的视觉先验约束，生成结果更多样但可能不够”精致”；而 encoder-based 方案（Tuna-R）因为有 CLIP 的语义先验，生成结果更”安全”但多样性受限。

与 BAGEL 对比：BAGEL 的 GenEval 得分更高（0.88 vs Tuna-2 的 competitive），但 BAGEL 使用了 dual encoder（SigLIP2 + FLUX VAE）和 14B 参数，架构复杂度远高于 Tuna-2 的 7B 单一 Transformer。在参数效率上，Tuna-2 更优。

表：图像生成 Benchmark 对比

Benchmark Tuna-2 (7B) Tuna-R Tuna 其他 UMM
GenEval Competitive — — —
DPG-Bench Competitive — — —
LLM-Judge Diversity ✓ preferred — — —

LLM-Judge 使用 GPT-5.4 和 Claude Opus 4.7 评估，Tuna-2 在图像多样性上优于 Tuna-R。

Benchmark	Tuna-2 (7B)	Tuna-R	Tuna	其他 UMM
GenEval	Competitive	—	—	—
DPG-Bench	Competitive	—	—	—
LLM-Judge Diversity	✓ preferred	—	—	—

3.3 图像编辑（Image Editing）

表：图像编辑 Benchmark 对比（ImgEdit）

方法 ImgEdit
Tuna-2 Strong, 优于 OmniGen 和 BAGEL
Tuna / Tuna-R 略优于 Tuna-2
OmniGen —
BAGEL —

Tuna-2 在图像编辑上表现强劲，超越 OmniGen 和 BAGEL，但略逊于 Tuna/Tuna-R。

方法	ImgEdit
Tuna-2	Strong, 优于 OmniGen 和 BAGEL
Tuna / Tuna-R	略优于 Tuna-2
OmniGen	—
BAGEL	—

3.4 图像重建（Image Reconstruction）

经过轻量级 finetuning 后，Tuna-2 在重建质量上可媲美专用 VAE。

表：图像重建质量对比

指标 Tuna-2 (finetuned) 专用 VAE
rFID Top-tier Comparable
PSNR Top-tier Comparable
SSIM Top-tier Comparable

Tuna-2 经过 lightweight finetuning 后，重建质量（rFID, PSNR, SSIM）可媲美专门训练的 VAE。

指标	Tuna-2 (finetuned)	专用 VAE
rFID	Top-tier	Comparable
PSNR	Top-tier	Comparable
SSIM	Top-tier	Comparable

3.5 Encoder-Free vs Encoder-Based 对比

Figure 4: Attention 可视化对比。Tuna-2 产生更准确鲁棒的 attention maps，即使在误导性文本或视觉上下文下也能正确 localize 物体。

表：Tuna-2 vs Tuna-R 关键对比

维度 Tuna-2 (Encoder-Free) Tuna-R (Encoder-Based)
理解能力（规模化后） ✓ 超越 Tuna-R，尤其细粒度任务初期收敛更快
生成能力 SFT 后差距缩小初期略优（semantic priors）
训练复杂度更简单，无需 alignment stage 需 connector alignment
跨模态对齐 Attention maps 更准确鲁棒 —

维度	Tuna-2 (Encoder-Free)	Tuna-R (Encoder-Based)
理解能力（规模化后）	✓ 超越 Tuna-R，尤其细粒度任务	初期收敛更快
生成能力	SFT 后差距缩小	初期略优（semantic priors）
训练复杂度	更简单，无需 alignment stage	需 connector alignment
跨模态对齐	Attention maps 更准确鲁棒	—

3.6 Masking 消融实验

表：Masking 策略消融

条件理解生成
有 Masking ✓ 提升 ✓ 提升
无 Masking — —

消融实验表明，Masking-Based Feature Learning 对理解和生成均有稳定且一致的提升。

条件	理解	生成
有 Masking	✓ 提升	✓ 提升
无 Masking	—	—

3.7 Data Ratio 消融

表：数据比例消融

Generation:Understanding 比例效果
7:3 ✓ 最优
其他比例低于 7:3

Generation 与 Understanding 数据的最优比例为 7:3。

Generation:Understanding 比例	效果
7:3	✓ 最优
其他比例	低于 7:3

4 结论

Tuna-2 证明了一个重要结论：pretrained vision encoder 并非统一多模态模型的必要组件。通过简单的 patch embedding 层将原始像素转换为 token，配合 masking-based feature learning 和统一 transformer decoder，Tuna-2 在理解和生成两个方向上均达到了与 encoder-based 方案相当甚至更优的性能。

核心发现：

Pixel embeddings 可以替代 vision encoder：无需 VAE、CLIP 或 SigLIP
Masking 是关键技术：同时提升理解和生成
架构越简洁，规模化潜力越大：encoder-free 方案在规模化训练后展现出超越 encoder-based 方案的趋势
像素空间表示在细粒度任务上有天然优势：V*、CountBench、VisuLogic 等像素级任务上优势显著

5 思考

5.1 优点

架构极简：single transformer decoder + patch embedding，无需任何 pretrained vision encoder，极大简化了模型设计和训练流程
Masking-Based Feature Learning 设计精巧：一个简单操作同时服务于理解和生成两个目标，且消融实验充分验证了其有效性
系统性消融：从 Tuna → Tuna-R → Tuna-2 的三代对比非常清晰，每一步改进都有充分实验支撑
像素级任务优势明显：pixel-space representation 在细粒度理解任务上展现出 encoder-based 方案不具备的能力
训练流程简化：无需 alignment stage，端到端训练效率更高
重建能力意外强：finetuning 后可媲美专用 VAE，说明模型学到了很好的像素级表示

5.2 缺点

生成质量仍有差距：虽然 competitive，但与 BAGEL 等专门优化生成的模型相比仍有差距
训练计算成本未知：从零学习像素表示可能需要更多数据和计算，论文未充分讨论 compute budget
图像编辑略逊于 Tuna/Tuna-R：说明完全移除 encoder 在某些任务上仍有代价
Masking 策略的最优性未充分探索：mask ratio、mask 策略的选择是否有更优方案？
缺少与更大规模模型的对比：7B 的结论是否能推广到更大规模？
长尾理解任务未覆盖：如 OCR、图表理解等特殊场景的表现未见讨论

5.3 Wiki Connections

JiT (Joint Image-Text)：Tuna-2 的 pixel-space generation 遵循 JiT paradigm，使用 xx-prediction 和 vv-loss
Flow Matching：Tuna-2 使用 flow matching 进行生成，而非传统的 diffusion
Vision Encoder：Tuna-2 的核心贡献是证明了可以完全抛弃 vision encoder
CLIP：Tuna-2 消除了对 CLIP 的依赖
VAE (Variational Autoencoder)：Tuna-2 消除了对 VAE 的依赖，但仍能在 finetuning 后实现高质量重建
Masked Image Modeling：Tuna-2 的 masking-based feature learning 与 MAE 等方法有思想上的联系
Unified Multimodal Model：Tuna-2 是 native UMM 的重要探索
BAGEL：主要对比对象，采用 MoT + dual encoders 的不同架构路线
Show-o：7B native UMM 对比基线
Janus-Pro：7B native UMM 对比基线
Patch Embedding：ViT 中的基础操作，Tuna-2 将其作为唯一的视觉输入方式
Flow Matching in Pixel Space：直接在像素空间而非 latent space 执行 flow matching 的范式

5.4 与同期统一多模态模型的对比

维度	Tuna-2	BAGEL	OmniGen2	Lumina-DiMOO	UniWorld-V1
架构	单 Transformer，无编码器	MoT（双专家共享注意力）	VLM+DiT（解耦）	单 Transformer（离散扩散）	VLM+SigLIP+FLUX
视觉编码	无（raw pixel patches）	SigLIP2 + FLUX VAE	ViT + FLUX VAE	aMUSEd-VQ（离散）	SigLIP2（语义）
生成范式	Flow Matching（像素空间）	Rectified Flow（latent）	Flow Matching（latent）	离散扩散（masked token）	Flow Matching（latent）
参数	7B	7B/14B	3B+4B	~8B	7B
核心优势	架构最简，像素级理解强	交错数据涌现	RL 对齐，GenEval SOTA	32x 速度，inpainting	数据效率 1/600
核心劣势	生成质量略逊	训练成本高	VLM 冻结	量化损失	模块化瓶颈

关键洞察：

编码器是最大的架构分歧：Tuna-2 完全不要，BAGEL 用两个，OmniGen2/UniWorld 用一个。哪种最优取决于任务——像素级理解选 Tuna-2，生成质量选 BAGEL，指令对齐选 OmniGen2。
生成范式的收敛：除 Lumina-DiMOO 用离散扩散外，其他都用 Flow Matching/Rectified Flow。连续扩散在生成质量上仍有优势。
训练策略的分化：BAGEL 靠数据 scaling，OmniGen2 靠 RL alignment，Tuna-2 靠架构简化。三者互补而非互斥。

Blog1

探索

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

1 Intro

1.1 Motivation

1.2 核心主张

1.3 贡献

2 Method

2.1 架构

2.1.1 架构演进：从 Tuna 到 Tuna-2

2.1.2 Pixel Patch Embedding

2.1.3 Unified Transformer Decoder

2.1.4 Masking-Based Feature Learning（核心创新）

2.1.5 Pixel-Space Generation

2.2 Training Mechanism

2.3 Data

2.4 Training Strategy

3 实验结果

3.1 多模态理解（Multimodal Understanding）

3.2 图像生成（Image Generation）

3.3 图像编辑（Image Editing）

3.4 图像重建（Image Reconstruction）

3.5 Encoder-Free vs Encoder-Based 对比

3.6 Masking 消融实验

3.7 Data Ratio 消融

4 结论

5 思考

5.1 优点

5.2 缺点

5.3 Wiki Connections

5.4 与同期统一多模态模型的对比

关系图谱

目录