一句话总结

本文提出了两个新任务——多模态指令驱动的图像编辑和生成,并设计了一个名为 DreamOmni2 的统一框架,通过创新的三阶段数据合成流程、多图像编码方案以及与视觉语言模型(VLM)的联合训练,使其能够根据文本和任意参考图像(包含具体物体或抽象属性)进行复杂的图像创作。

1. 总体介绍

1.1 问题背景

  • 背景对于当前的图像编辑任务可以分为

    • 基于指令的编辑(Instruction-based Editing)仅依赖文本指令,但很多复杂的细节(如特定图案、材质、风格)难以用语言精确描述,需要参考图像。
    • 基于主体的生成(Subject-driven Generation)主要关注于组合具体的、可见的物体或人物,而忽略了从参考图中提取更抽象的属性(如姿态、发型、设计风格、光照条件等)。
  • 现有解决方案及其问题

    • 现有的指令编辑方法(如 InstructP2P)和主体驱动生成方法(如 IP-adapter, Dreambooth)都存在上述局限性。即便是最新的统一模型,也大多只能处理单个图片输入或仅限于具体物体的组合,无法完成基于参考图像的抽象属性编辑/生成。

1.2 论文贡献

  1. 提出两个新任务:首次定义了“多模态指令驱动的编辑”和“生成”任务,允许指令包含文本和任意数量的参考图像,并支持具体物体和抽象属性的引用。
  2. 设计了一个三阶段数据创建流水线:解决了新任务缺乏训练数据的核心难题。这个流水线能系统地生成高质量、大规模的训练数据。
  3. 提出了 DreamOmni2 框架
    • 设计了索引编码位置编码偏移机制,使模能有效处理多张输入图像,区分“图1”、“图2”等指代,并避免内容混淆。
    • 引入了生成/编辑模型与VLM的联合训练机制,让VLM先将用户随意的、复杂的指令“翻译”成模型能理解的标准化格式,提升模型对真实世界指令的理解能力。
  • 构建了新的基准测试 (DreamOmni2 Benchmark):使用真实图像构建了一个全面的评测基准,用于评估模型在真实场景下的泛化能力。