GoT (Generation Chain-of-Thought)

基本信息

属性	值
全称	GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
作者	Rongyao Fang, Chengqi Duan, et al.
机构	CUHK MMLab + HKU + SenseTime + Shanghai AI Lab + THU + BUAA
年份	2025 (arXiv 2503.10639)
类型	推理引导的生成框架

首次将 Chain-of-Thought 推理引入图像生成和编辑：在生成像素之前，先显式推理语义关系和空间布局。

传统：文本 → [黑盒] → 图像
GoT： 文本 → 语义推理 → 空间规划 → 图像

维度	GoT	Mind-Brush	VisionCreator
推理方式	内部 CoT	外部知识检索 + 推理	UTPC 全流程
知识来源	模型内部先验	动态检索	内部先验 + 训练
代表场景	通用生成/编辑	OOD 概念、实时信息	自主创建 Agent