多模态指令编辑与生成

定义

多模态指令编辑(Multimodal Instruction-based Editing)和多模态指令生成(Multimodal Instruction-based Generation)是由 DreamOmni2 提出的两个新任务。

多模态指令编辑

用户通过文本指令 + 参考图像的组合来描述编辑意图。相比传统仅文本的指令编辑,多模态指令可以:

  • 指定复杂纹理、图案、材质等难以用文字描述的信息
  • 参考图像中的抽象属性(风格、姿态、光照、材质)进行编辑
  • 参考图像中的具体物体进行替换或修改

输入:源图像 + 文本指令 + 1 到多张参考图像 输出:编辑后的图像

多模态指令生成

从多张参考图像中提取物体或属性,生成包含这些元素的新图像。相比传统主体驱动生成(subject-driven generation),扩展了:

  • 从仅限具体物体 → 同时支持抽象属性
  • 从单参考 → 多参考

输入:文本指令 + 1 到多张参考图像(无源图像) 输出:生成的新图像

与传统任务的区别

任务指令形式参考图像目标类型与源图关系
指令编辑仅文本编辑保留源图结构
主体驱动生成文本1张物体图生成无源图
多模态指令编辑文本+图像1-5张编辑保留源图结构
多模态指令生成文本+图像1-5张生成无源图

技术挑战

  1. 训练数据缺乏:新任务没有现成数据,需要合成
  2. 多图像输入:DiT 架构的位置编码无法天然区分多张输入图像
  3. 复杂指令理解:现实用户指令非结构化,需要 VLM 桥接

核心方法

  • DreamOmni2 通过三阶段数据合成管线 + 索引编码 + 位置编码偏移 + VLM 联合训练解决上述挑战

资料来源