Mind-Brush

基本信息

属性	值
全称	Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
作者	Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
年份	2026 (arXiv 2602.01756, ICML 投稿)
类型	Agent 驱动的图像生成框架

将图像生成从”静态文本到像素解码”升级为 think-research-create 动态知识驱动工作流，模拟人类的认知过程。

传统模型：文本 → [黑盒解码] → 图像
Mind-Brush：文本 → Think(理解意图) → Research(检索知识) → Create(生成图像)

阶段	做什么	为什么需要
Think	理解用户隐式意图，分解为子问题	用户说”画一个赛博朋克风格的茶馆”，模型需要知道赛博朋克的视觉特征+茶馆的传统元素
Research	主动检索多模态证据（网络搜索、数据库查询）	模型训练数据中没有”2026年最流行的球鞋”的知识
Create	基于检索到的知识生成图像	接地于真实世界知识的生成

维度	GoT	Mind-Brush	VisionCreator
推理方式	内部 CoT 推理	外部知识检索 + 推理	UTPC 全流程
知识来源	模型内部先验	动态检索外部知识	内部先验 + 训练
核心突破	语义-空间推理链	OOD 概念实时接地	端到端自主创建
代表场景	通用生成/编辑	实时信息、新兴概念	复杂创意任务
Benchmark	无专属	Mind-Bench (500)	VisGenBench (1.2K)

编辑/生成领域的 Agent 化只有三种路：

Mind-Brush 填补了最关键的一环：当模型的知识不够时怎么办？ 答案是像人类一样去查资料。