OmniGen2: Towards Instruction-Aligned Multimodal Generation

一句话总结：OmniGen2 提出了系统的指令对齐方案——先构建基于 Omni-RoPE 位置编码和 VLM+DiT 解耦架构的强基座模型，再通过 Edit→GenEval→IC 的三阶段 GRPO 渐进式课程进行多任务 RL 对齐，在 T2I 生成（GenEval 0.95）、图像编辑（GEdit 7.21）和 In-Context 生成（OmniContext 7.95）上全面达到 SOTA，并通过严谨消融证明了任务选择和调度顺序的关键性。

Figure 1: OmniGen2 多样化能力总览——包括 T2I 生成、图像编辑、In-Context 生成等。

Intro

Motivation

多模态生成模型需进行指令对齐以确保可控性、语义一致性和生成质量。这涉及两个关键挑战：(1) 构建稳健、通用的基座模型，需具备初始指令遵循能力和广泛世界知识，同时避免过训练；(2) 对齐基座模型需要显式且全面的奖励信号，且需确保所有生成任务间的一致性。现有开源模型要么是专用模型（任务覆盖有限），要么是过度优化到特定美学偏好导致可塑性丧失。

贡献

OmniGen2：系统性指令对齐的多模态生成模型，在 T2I、编辑、IC 上达到 SOTA
端到端指令对齐管线：从强基座模型构建到多任务对齐
Omni-RoPE：统一多模态 3D 位置编码，区分图像实例和空间坐标
OmniContext benchmark：8 类任务评估 In-Context 生成的一致性
严谨消融证明任务选择+调度顺序的关键性

Method 核心方法

OmniGen2 的方法论采用”强基座 + 多任务 RL 对齐”的两阶段设计。基座提供 foundation，GRPO 渐进式课程实现跨任务协同增益。

1. 架构：解耦 VLM + DiT + Omni-RoPE

组件	选型	角色
VLM	Qwen2.5-VL-3B（冻结）	多模态理解、世界知识、指令理解
DiT	Lumina-Image 2.0 架构（随机初始化）	高质量图像合成，参数跨模态共享
图像编码	ViT（VLM 理解）+ Flux-VAE（DiT 像素级细节）	双编码器分工

VLM 处理输入后，其可变长隐藏态直接作为 DiT 条件（非固定大小 query token，无信息瓶颈——这是与 MetaQuery 的关键区别）。

Omni-RoPE：统一 3D 位置编码

每个 token 分配三维位置标识 $(Δ_{I}^{(k)}, h, w)$ ：

$Δ_{I}^{(k)}$ ：图像实例 ID（同图共享），区分不同图像/模态
$(h, w)$ ：局部 2D 空间坐标

关键优势：编辑任务中输入和输出图像对应 patch 获得相同空间编码（编辑一致性）； $Δ_{I}$ 区分多图像（IC 任务）。Toy 实验验证：比 Lumina-Image-2.0 和 Qwen2-VL 的 RoPE 变体收敛快约 3 倍，最终 loss 低约 6 倍。

2. 数据构建管线

数据类型	来源	规模
基础 T2I	开源图文对 + Qwen2.5-VL-72B 标注 + LLaVA-OneVision	140M + 10M
编辑	SEED-Data-Edit + OmniEdit + 自建 inpainting/视频管线	-
In-Context	视频源（SAM2 分割 + VLM 语义过滤）	保证主体一致性
交错/反思	增强时序推理和自校正能力	-

3. 基座模型训练

两阶段：预训练（分辨率课程 256→512→1024，先 T2I 后多任务混合）→ SFT（1024 分辨率，精调推理和组合能力）。Rectified Flow 目标。

4. 渐进式多任务 GRPO 指令对齐（核心创新）

三阶段课程： $T_{1}$ (Edit, EditScore RM) → $T_{2}$ (T2I, GenEval, 可验证奖励) → $T_{3}$ (IC, Qwen2.5-VL-72B 评判)

关键设计原则：

排除易 reward hacking 的奖励（如 HPSv3 美学奖励——导致 PQ 虚高但 SC/IC 崩溃）
排除缺乏协同效应的任务（如 OCR only——降低编辑性能）
编辑优先于 T2I：编辑任务提供更丰富的监督信号，为后续学习奠定更强基础

实验/评估/结果

T2I 生成

Benchmark	OmniGen2	对比
GenEval	0.95	BAGEL 0.88, Qwen-Image 0.91, GPT-4o 0.84
OneIG-Bench	0.47	仅次于 Gemini 2.5 Flash Image 和 Qwen-Image

图像编辑

Benchmark	OmniGen2	对比
GEdit-Bench Overall	7.21	SC 7.58（第二）, PQ 7.94（第一）
Emu-Edit CLIP-Out	0.311	编辑准确性最高
Emu-Edit DINO	0.876	最佳
ImgEdit-Bench	超越 BAGEL	-

In-Context 生成 (OmniContext)

Model	Overall
Qwen-Image-Edit-2509	7.69
Gemini 2.5 Flash Image	7.84
OmniGen2	7.95

Scene 类别 7.86 尤其突出。

消融：RL 策略关键发现

实验	发现
任务选择	技能重叠→协同增益（Edit & GenEval 超单任务）；技能冲突→负迁移（OCR only 降低编辑）
奖励信号	HPSv3 美学奖励→reward hacking（PQ 虚高 8.22，SC/IC 崩溃）
调度顺序	Edit 优先 > T2I 优先（编辑提供更丰富监督）
最终课程	Edit → GenEval → IC 在各指标上均最优

结论

OmniGen2 证明了两阶段设计（强基座 + 多任务 RL 对齐）的有效性。Omni-RoPE 解决了多图像场景的位置对应问题，GRPO 渐进式课程通过精心选择任务和调度顺序实现了跨任务协同增益。指令对齐在所有任务上一致且显著地提升了基座模型性能。

思考

优点

消融实验的高质量：这是 OmniGen2 最亮眼的部分。精确控制了任务选择（Edit/GenEval/IC/OCR/HPSv3）和调度顺序，清晰揭示了 reward hacking（HPSv3）、负迁移（OCR only）和正协同（Edit & GenEval）的因果效应。这种严谨性在 RL for generation 领域较为难得。
Omni-RoPE 设计的简洁有效：三维位置编码同时解决实例区分和空间对应，toy 实验验证收敛速度约 3 倍提升。这是位置编码在统一多模态生成中的一次重要探索。
任务调度的洞察：发现 Edit 优先比 T2I 优先更好——因为编辑任务提供更丰富的监督（源图像+目标图像+指令三元组）。这个发现对后续工作的训练策略设计有指导意义。
OmniContext benchmark 填补空白：In-Context 生成缺乏系统性评估，OmniContext 的 8 类任务设计（Character/Object/Scene x Single/Multiple/Scene）覆盖了 IC 的核心场景。
奖励信号的审慎选择：主动排除 HPSv3 等被确认会 reward hacking 的奖励，体现了工程实践中的深思熟虑。

缺点与待解决问题

中英文表现差异：论文自述中文 prompt 效果明显不如英文，存在编辑不一致的问题。
人体形态修改能力弱：可能因为真实世界中此类数据稀缺。
输入图像质量敏感：低质量输入（如加噪、降采样至 256px）导致生成质量显著下降和指令遵循能力降低。
架构解耦的代价：VLM+DiT 虽然保留了 VLM 的理解能力，但 VLM 冻结意味着它不能从生成任务中学习和改进。真正的统一理解+生成可能需要更强的表征共享。
模型规模有限：VLM 仅 3B，DiT 约 4B。更大规模下 RL 对齐的效果和跨任务迁移规律未知。

与已有 Wiki 的连接

关联概念：指令对齐、GRPO、Omni-RoPE、Flow Matching、Rectified Flow
关联实体：Qwen2.5-VL、FLUX、Lumina-Image 2.0
关联比较：与 BAGEL（AR+FM 统一多模态）和 UniWorld-V1（语义编码器条件）的架构对比，与 Tuna-2（encoder-free）的解耦程度对比

Blog1

探索