多模态指令编辑与生成

定义

多模态指令编辑（Multimodal Instruction-based Editing）和多模态指令生成（Multimodal Instruction-based Generation）是由 DreamOmni2 提出的两个新任务。

用户通过文本指令 + 参考图像的组合来描述编辑意图。相比传统仅文本的指令编辑，多模态指令可以：

输入：源图像 + 文本指令 + 1 到多张参考图像输出：编辑后的图像

从多张参考图像中提取物体或属性，生成包含这些元素的新图像。相比传统主体驱动生成（subject-driven generation），扩展了：

输入：文本指令 + 1 到多张参考图像（无源图像）输出：生成的新图像

任务	指令形式	参考图像	目标类型	与源图关系
指令编辑	仅文本	无	编辑	保留源图结构
主体驱动生成	文本	1张物体图	生成	无源图
多模态指令编辑	文本+图像	1-5张	编辑	保留源图结构
多模态指令生成	文本+图像	1-5张	生成	无源图