Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

2026。ICML 投稿。

核心结论

  • 现有模型本质上是”静态文本到像素的解码器”,无法理解隐式用户意图。
  • 提出 Mind-Brush,将图像生成转变为动态知识驱动工作流,模拟人类的 “think-research-create” 范式。
  • 主动检索多模态证据来接地 out-of-distribution 概念,用推理工具解决隐式视觉约束。
  • 提出 Mind-Bench(500 样本),覆盖实时新闻、新兴概念、数学和地理推理。

关键创新

Think-Research-Create 范式

  1. Think:理解用户意图,分解为子问题
  2. Research:主动检索多模态知识(网络搜索、数据库查询)
  3. Create:基于检索到的知识生成图像

能力突破

  • 对 Qwen-Image baseline 在 Mind-Bench 上实现 zero-to-one 能力飞跃
  • 在 WISE 和 RISE 等 benchmark 上也取得最优

与 GoT 的区别

维度GoTMind-Brush
推理方式内部 CoT 推理外部知识检索 + 推理
知识来源模型内部先验动态检索外部知识
适用场景通用生成/编辑OOD 概念、实时信息

与现有 Wiki 的关系