Blog1

❯

❯

❯

DreamOmni2: Multimodal Instruction based Editing and Generation

DreamOmni2: Multimodal Instruction-based Editing and Generation

2025年10月24日4分钟阅读

论文

一句话总结

本文提出了两个新任务——多模态指令驱动的图像编辑和生成，并设计了一个名为 DreamOmni2 的统一框架，通过创新的三阶段数据合成流程、多图像编码方案以及与视觉语言模型（VLM）的联合训练，使其能够根据文本和任意参考图像（包含具体物体或抽象属性）进行复杂的图像创作。

1. 总体介绍

1.1 问题背景

背景对于当前的图像编辑任务可以分为
- 基于指令的编辑（Instruction-based Editing）仅依赖文本指令，但很多复杂的细节（如特定图案、材质、风格）难以用语言精确描述，需要参考图像。
- 基于主体的生成（Subject-driven Generation）主要关注于组合具体的、可见的物体或人物，而忽略了从参考图中提取更抽象的属性（如姿态、发型、设计风格、光照条件等）。
现有解决方案及其问题：
- 现有的指令编辑方法（如 InstructP2P）和主体驱动生成方法（如 IP-adapter, Dreambooth）都存在上述局限性。即便是最新的统一模型，也大多只能处理单个图片输入或仅限于具体物体的组合，无法完成基于参考图像的抽象属性编辑/生成。

1.2 论文贡献

提出两个新任务：首次定义了“多模态指令驱动的编辑”和“生成”任务，允许指令包含文本和任意数量的参考图像，并支持具体物体和抽象属性的引用。
设计了一个三阶段数据创建流水线：解决了新任务缺乏训练数据的核心难题。这个流水线能系统地生成高质量、大规模的训练数据。
提出了 DreamOmni2 框架：
- 设计了索引编码和位置编码偏移机制，使模能有效处理多张输入图像，区分“图1”、“图2”等指代，并避免内容混淆。
- 引入了生成/编辑模型与VLM的联合训练机制，让VLM先将用户随意的、复杂的指令“翻译”成模型能理解的标准化格式，提升模型对真实世界指令的理解能力。

构建了新的基准测试 (DreamOmni2 Benchmark)：使用真实图像构建了一个全面的评测基准，用于评估模型在真实场景下的泛化能力。

关系图谱

1. 总体介绍
1.1 问题背景
1.2 论文贡献

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community