DreamOmni2: Multimodal Instruction-based Editing and Generation
多模态指令图像编辑与生成。来源:DreamOmni2 Multimodal Instruction-based Editing and Generation.md
核心结论
- 提出了两个新任务:多模态指令编辑(multimodal instruction-based editing)和多模态指令生成(multimodal instruction-based generation),支持同时使用文本和图像作为指令,并扩展到抽象概念(纹理、材质、姿态、发型、设计风格等)而非仅限具体物体。
- 解决了两个核心挑战:训练数据缺乏和多图像输入框架。提出三步数据合成管线,以及索引编码 + 位置编码偏移 + VLM 联合训练的框架。
- 在自建 benchmark 上,DreamOmni2 在人类评估中超越 GPT-4o 和 Nano Banana 等闭源商业模型,在 concrete object 编辑上人评 0.6098 vs GPT-4o 的 0.5610,abstract attribution 编辑上 0.6829 vs 0.5793。
关键事实
提出的新任务
| 维度 | 传统指令编辑 | 多模态指令编辑(本文) |
|---|
| 指令形式 | 仅文本 | 文本 + 参考图像 |
| 编辑对象 | 具体物体 | 具体物体 + 抽象属性 |
| 参考图像 | 无 | 支持 1-5 张参考图 |
数据合成管线(三阶段)
- Stage 1 — Feature Mixing:双分支结构同时生成源图像和目标图像,交换注意力特征使两张图共享相同物体/属性。相比 UNO 的 diptych 方法,分辨率不减半、无边界混合、质量更高。
- Stage 2 — 编辑数据生成:用 Stage 1 数据训练提取模型 → 从目标图像提取物体/属性生成参考图 → 用指令编辑模型修改目标图像得到源图 → 形成(源图 + 指令 + 参考图 + 目标图)四元组。
- Stage 3 — 生成数据生成:从 Stage 2 的源图中用提取模型生成新参考图,形成(多张参考图 + 指令 + 目标图)训练数据。
框架创新
- 索引编码 + 位置编码偏移:DiT 中位置编码无法区分多张输入图像。索引编码让模型识别”图1""图2”引用;位置编码偏移防止像素混淆和复制粘贴效应。
- VLM 联合训练:用 Qwen2.5-VL 7B 将非结构化用户指令翻译为结构化标准格式,然后输入生成/编辑模型。仅用约 10 A100 小时微调 VLM,384 A100 小时训练 LoRA。
Benchmark
- 205 个多模态指令编辑测试 + 114 个生成测试
- 覆盖 1-5 张参考图像、局部/全局属性、具体物体
- 使用真实图像评估
消融实验关键数据
| 方案 | 编辑(Concrete) | 编辑(Abstract) | 生成(Concrete) | 生成(Abstract) |
|---|
| Base (Kontext) | 0.1220 | 0.0122 | 0.3750 | 0.1222 |
| +数据 | 0.3659 | 0.3171 | 0.4583 | 0.3444 |
| +VLM | 0.2439 | 0.3415 | 0.5417 | 0.4778 |
| +数据+VLM | 0.6585 | 0.6280 | 0.6667 | 0.6333 |
方法或论证路径
- 发现当前指令编辑和主体驱动生成的局限 → 提出多模态指令编辑与生成新任务 → 识别两大挑战(数据、框架) → 三步合成数据管道 → 索引编码 + 位置编码偏移 + VLM 联合训练 → 自建 benchmark 验证。
与现有 Wiki 的关系
可能的矛盾或待核实点
- 人类评估来自”专业工程师”,但未说明具体数量和评价标准,可能存在主观偏差。
- VLM 评估(Gemini 2.5 / 豆包 1.6)与人类评估存在差距(例如 GPT-4o 的 VLM 分数高于 DreamOmni2 但人评低于),说明 VLM 作为评估器可能不够可靠。
- 该工作与 DreamOmni(CVPR 2025,同样来自 CUHK-ByteDance)的关系:DreamOmni 统一生成和编辑,但只处理单图像输入 + 文本指令。DreamOmni2 扩展到多图像输入 + 多模态指令。
- 数据合成依赖多个预训练模型(T2I、编辑模型、提取模型),可能引入复合误差。
后续问题
- Feature mixing 与传统 cross-attention 操作的对比和适用范围?
- 该框架能否扩展到视频编辑?(与 DreamVE 的关系)
- VLM 联合训练是否可以用更小的 VLM(如 0.5B/1.8B)达到类似效果?