Mind-Brush

基本信息

属性
全称Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
作者Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
年份2026 (arXiv 2602.01756, ICML 投稿)
类型Agent 驱动的图像生成框架

核心创新

将图像生成从”静态文本到像素解码”升级为 think-research-create 动态知识驱动工作流,模拟人类的认知过程。

传统模型:文本 → [黑盒解码] → 图像
Mind-Brush:文本 → Think(理解意图) → Research(检索知识) → Create(生成图像)

Think-Research-Create 范式

阶段做什么为什么需要
Think理解用户隐式意图,分解为子问题用户说”画一个赛博朋克风格的茶馆”,模型需要知道赛博朋克的视觉特征+茶馆的传统元素
Research主动检索多模态证据(网络搜索、数据库查询)模型训练数据中没有”2026年最流行的球鞋”的知识
Create基于检索到的知识生成图像接地于真实世界知识的生成

能力突破

  • zero-to-one 能力飞跃:Qwen-Image baseline 在 Mind-Bench 上从零到可用
  • OOD 概念接地:实时新闻、新兴概念(模型训练时不存在的事物)
  • 隐式约束推理:数学推理(“画一个对称的六边形花园”)、地理推理(“画出尼罗河三角洲的卫星视角”)

与同类 Agent 模型的对比

维度GoTMind-BrushVisionCreator
推理方式内部 CoT 推理外部知识检索 + 推理UTPC 全流程
知识来源模型内部先验动态检索外部知识内部先验 + 训练
核心突破语义-空间推理链OOD 概念实时接地端到端自主创建
代表场景通用生成/编辑实时信息、新兴概念复杂创意任务
Benchmark无专属Mind-Bench (500)VisGenBench (1.2K)

在思维链/Agent 演进中的位置

编辑/生成领域的 Agent 化只有三种路:

  1. 内部推理(GoT):模型自己思考,不依赖外部信息
  2. 外部检索(Mind-Brush):模型主动获取缺失知识 → 这是最接近人类创作过程的
  3. 全流程自主(VisionCreator):从理解到规划到创建,一步到位

Mind-Brush 填补了最关键的一环:当模型的知识不够时怎么办? 答案是像人类一样去查资料。

在 Wiki 中的关联