GoT (Generation Chain-of-Thought)

基本信息

属性
全称GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
作者Rongyao Fang, Chengqi Duan, et al.
机构CUHK MMLab + HKU + SenseTime + Shanghai AI Lab + THU + BUAA
年份2025 (arXiv 2503.10639)
类型推理引导的生成框架

核心创新

首次将 Chain-of-Thought 推理引入图像生成和编辑:在生成像素之前,先显式推理语义关系和空间布局。

传统:文本 → [黑盒] → 图像
GoT: 文本 → 语义推理 → 空间规划 → 图像

架构

  • 推理链生成:Qwen2.5-VL 分析语义关系、规划空间布局
  • Semantic-Spatial Guidance Module:将推理链中的语义和空间信息注入扩散模型
  • 数据集:9M+ 样本,每个含详细推理链

与同类工作的对比

维度GoTMind-BrushVisionCreator
推理方式内部 CoT外部知识检索 + 推理UTPC 全流程
知识来源模型内部先验动态检索内部先验 + 训练
代表场景通用生成/编辑OOD 概念、实时信息自主创建 Agent

在 Wiki 中的关联