多模态指令编辑与生成
定义
多模态指令编辑(Multimodal Instruction-based Editing)和多模态指令生成(Multimodal Instruction-based Generation)是由 DreamOmni2 提出的两个新任务。
多模态指令编辑
用户通过文本指令 + 参考图像的组合来描述编辑意图。相比传统仅文本的指令编辑,多模态指令可以:
- 指定复杂纹理、图案、材质等难以用文字描述的信息
- 参考图像中的抽象属性(风格、姿态、光照、材质)进行编辑
- 参考图像中的具体物体进行替换或修改
输入:源图像 + 文本指令 + 1 到多张参考图像 输出:编辑后的图像
多模态指令生成
从多张参考图像中提取物体或属性,生成包含这些元素的新图像。相比传统主体驱动生成(subject-driven generation),扩展了:
- 从仅限具体物体 → 同时支持抽象属性
- 从单参考 → 多参考
输入:文本指令 + 1 到多张参考图像(无源图像) 输出:生成的新图像
与传统任务的区别
| 任务 | 指令形式 | 参考图像 | 目标类型 | 与源图关系 |
|---|---|---|---|---|
| 指令编辑 | 仅文本 | 无 | 编辑 | 保留源图结构 |
| 主体驱动生成 | 文本 | 1张物体图 | 生成 | 无源图 |
| 多模态指令编辑 | 文本+图像 | 1-5张 | 编辑 | 保留源图结构 |
| 多模态指令生成 | 文本+图像 | 1-5张 | 生成 | 无源图 |
技术挑战
- 训练数据缺乏:新任务没有现成数据,需要合成
- 多图像输入:DiT 架构的位置编码无法天然区分多张输入图像
- 复杂指令理解:现实用户指令非结构化,需要 VLM 桥接
核心方法
- DreamOmni2 通过三阶段数据合成管线 + 索引编码 + 位置编码偏移 + VLM 联合训练解决上述挑战