Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
2026。ICML 投稿。
核心结论
- 现有模型本质上是”静态文本到像素的解码器”,无法理解隐式用户意图。
- 提出 Mind-Brush,将图像生成转变为动态知识驱动工作流,模拟人类的 “think-research-create” 范式。
- 主动检索多模态证据来接地 out-of-distribution 概念,用推理工具解决隐式视觉约束。
- 提出 Mind-Bench(500 样本),覆盖实时新闻、新兴概念、数学和地理推理。
关键创新
Think-Research-Create 范式
- Think:理解用户意图,分解为子问题
- Research:主动检索多模态知识(网络搜索、数据库查询)
- Create:基于检索到的知识生成图像
能力突破
- 对 Qwen-Image baseline 在 Mind-Bench 上实现 zero-to-one 能力飞跃
- 在 WISE 和 RISE 等 benchmark 上也取得最优
与 GoT 的区别
| 维度 | GoT | Mind-Brush |
|---|---|---|
| 推理方式 | 内部 CoT 推理 | 外部知识检索 + 推理 |
| 知识来源 | 模型内部先验 | 动态检索外部知识 |
| 适用场景 | 通用生成/编辑 | OOD 概念、实时信息 |
与现有 Wiki 的关系
- 关联:扩散模型图像编辑与生成
- 代表了从”模型先验”到”外部知识接地”的演进
- Agent + 生成的融合趋势