GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing
CUHK MMLab + HKU + SenseTime + Shanghai AI Lab + THU + BUAA,2025。
核心结论
- 提出 Generation Chain-of-Thought (GoT):在生成图像之前先进行显式语言推理,分析语义关系和空间布局。
- 将传统 text-to-image 转变为 reasoning-guided framework。
- 构建 9M+ 样本的 GoT 数据集,含详细推理链(语义-空间关系)。
- 统一框架:Qwen2.5-VL 生成推理链 → Semantic-Spatial Guidance Module 增强的端到端扩散模型。
关键创新
Reasoning Chain 结构
- 输入:文本描述 → 推理分析语义关系 → 规划空间布局 → 生成图像
- 与传统方法的区别:不是直接从文本到像素,而是”先想再画”
Semantic-Spatial Guidance Module
- 将推理链中的语义和空间信息注入扩散模型
- 语义引导:哪些物体在哪,什么属性
- 空间引导:物体的位置关系和布局
与现有 Wiki 的关系
- 关联:扩散模型图像编辑与生成
- Reasoning 先行的思路与 Mind-Brush(think-research-create)和 VisionCreator(UTPC)一致
- 代表了从”端到端生成”到”推理-生成”的范式转变