DreamOmni2: Multimodal Instruction-based Editing and Generation

多模态指令图像编辑与生成。来源:DreamOmni2 Multimodal Instruction-based Editing and Generation.md

核心结论

  • 提出了两个新任务:多模态指令编辑(multimodal instruction-based editing)和多模态指令生成(multimodal instruction-based generation),支持同时使用文本和图像作为指令,并扩展到抽象概念(纹理、材质、姿态、发型、设计风格等)而非仅限具体物体。
  • 解决了两个核心挑战:训练数据缺乏多图像输入框架。提出三步数据合成管线,以及索引编码 + 位置编码偏移 + VLM 联合训练的框架。
  • 在自建 benchmark 上,DreamOmni2 在人类评估中超越 GPT-4o 和 Nano Banana 等闭源商业模型,在 concrete object 编辑上人评 0.6098 vs GPT-4o 的 0.5610,abstract attribution 编辑上 0.6829 vs 0.5793。

关键事实

提出的新任务

维度传统指令编辑多模态指令编辑(本文)
指令形式仅文本文本 + 参考图像
编辑对象具体物体具体物体 + 抽象属性
参考图像支持 1-5 张参考图

数据合成管线(三阶段)

  1. Stage 1 — Feature Mixing:双分支结构同时生成源图像和目标图像,交换注意力特征使两张图共享相同物体/属性。相比 UNO 的 diptych 方法,分辨率不减半、无边界混合、质量更高。
  2. Stage 2 — 编辑数据生成:用 Stage 1 数据训练提取模型 → 从目标图像提取物体/属性生成参考图 → 用指令编辑模型修改目标图像得到源图 → 形成(源图 + 指令 + 参考图 + 目标图)四元组。
  3. Stage 3 — 生成数据生成:从 Stage 2 的源图中用提取模型生成新参考图,形成(多张参考图 + 指令 + 目标图)训练数据。

框架创新

  1. 索引编码 + 位置编码偏移:DiT 中位置编码无法区分多张输入图像。索引编码让模型识别”图1""图2”引用;位置编码偏移防止像素混淆和复制粘贴效应。
  2. VLM 联合训练:用 Qwen2.5-VL 7B 将非结构化用户指令翻译为结构化标准格式,然后输入生成/编辑模型。仅用约 10 A100 小时微调 VLM,384 A100 小时训练 LoRA。

Benchmark

  • 205 个多模态指令编辑测试 + 114 个生成测试
  • 覆盖 1-5 张参考图像、局部/全局属性、具体物体
  • 使用真实图像评估

消融实验关键数据

方案编辑(Concrete)编辑(Abstract)生成(Concrete)生成(Abstract)
Base (Kontext)0.12200.01220.37500.1222
+数据0.36590.31710.45830.3444
+VLM0.24390.34150.54170.4778
+数据+VLM0.65850.62800.66670.6333

方法或论证路径

  • 发现当前指令编辑和主体驱动生成的局限 → 提出多模态指令编辑与生成新任务 → 识别两大挑战(数据、框架) → 三步合成数据管道 → 索引编码 + 位置编码偏移 + VLM 联合训练 → 自建 benchmark 验证。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • 人类评估来自”专业工程师”,但未说明具体数量和评价标准,可能存在主观偏差。
  • VLM 评估(Gemini 2.5 / 豆包 1.6)与人类评估存在差距(例如 GPT-4o 的 VLM 分数高于 DreamOmni2 但人评低于),说明 VLM 作为评估器可能不够可靠。
  • 该工作与 DreamOmni(CVPR 2025,同样来自 CUHK-ByteDance)的关系:DreamOmni 统一生成和编辑,但只处理单图像输入 + 文本指令。DreamOmni2 扩展到多图像输入 + 多模态指令。
  • 数据合成依赖多个预训练模型(T2I、编辑模型、提取模型),可能引入复合误差。

后续问题

  • Feature mixing 与传统 cross-attention 操作的对比和适用范围?
  • 该框架能否扩展到视频编辑?(与 DreamVE 的关系)
  • VLM 联合训练是否可以用更小的 VLM(如 0.5B/1.8B)达到类似效果?