从指令编辑到 Agent 生成：能力演进对比

演进路线

2022 InstructPix2Pix ─── 首次"听懂指令做编辑"
         ↓
2023 ControlNet ──────── 空间条件控制
         ↓
2024 UltraEdit/AnyEdit ── 数据规模和多样性升级
2024 EditWorld ────────── 物理世界动态感知
2024 EmoEdit ──────────── 情感感知编辑
         ↓
2025 Step1X-Edit ─────── MLLM + Diffusion 混合
2025 GoT ──────────────── Chain-of-Thought 推理生成
2025 RISEBench ────────── 推理编辑标准化评估
         ↓
2026 Mind-Brush ──────── Agent 知识检索生成
2026 VisionCreator ────── UTPC 自主创建 Agent

各代能力矩阵

能力	IP2P (2022)	Step1X-Edit (2025)	EditWorld (2024)	GoT (2025)	Mind-Brush (2026)	VisionCreator (2026)
指令跟随	✅ 基础	✅ 11 类任务	✅ 物理感知	✅ 推理增强	✅ 知识增强	✅ 自主规划
空间控制	❌	✅	✅ 物理合理	✅ 语义-空间	❌	✅ 规划布局
物理理解	❌	❌	✅ 动态模拟	❌	❌	❌ 间接
推理能力	❌	❌ 有限	❌	✅ CoT	✅ 工具推理	✅ UTPC
外部知识	❌	❌	❌	❌	✅ 主动检索	❌
自主规划	❌	❌	❌	❌	✅ 分解子问题	✅ 端到端
多轮迭代	❌	❌	❌	❌	✅ think-research-create	✅ UTPC 流水线
开源性	✅	✅	✅	✅	✅	❌ (Tencent)

关键转折点分析

转折 1：从”执行指令”到”理解指令”

InstructPix2Pix 只能做字面编辑（“加一只猫”）。Step1X-Edit 用 MLLM 编码实现了更深层的指令理解——“让这张图更有氛围感”这种模糊指令也能处理。

背后原因：MLLM 提供了视觉常识和语言理解能力。纯扩散模型只看到像素和文本 token，而 MLLM 在编码指令时已经融入了对场景的理解。

转折 2：从”理解指令”到”推理指令”

GoT 的 CoT 范式是关键：在生成像素之前，先显式推理”这个场景里有什么？它们是什么关系？编辑后应该变成什么样？”

这解决了之前编辑模型的一个根本问题：编辑效果不稳定，因为模型在”猜测”用户意图。显式推理让意图变得确定。

转折 3：从”内部推理”到”外部知识”

Mind-Brush 指出内部先验的局限：你无法从模型参数中”推理”出今天的新闻或最新的设计趋势。外部知识检索让编辑模型可以处理 open-domain 概念。

转折 4（进行中）：从”工具”到”Agent”

VisionCreator 的目标不是做一个更好的编辑工具，而是做一个能自主完成视觉创建任务的 Agent。用户不再需要逐步给出编辑指令——Agent 自己理解需求、思考方案、规划步骤、执行创建。

深度思考

推理的必要性：什么时候需要 CoT？

并不是所有编辑都需要推理。“把猫换成狗”不需要推理，直接执行。但”把这张家居照片改成更符合北欧风格”就需要：理解什么是北欧风格 → 识别当前风格的偏差 → 规划需要改什么 → 执行。

我的判断：推理的 ROI 与编辑的”语义深度”成正比。简单替换（0 推理成本）→ 风格/氛围编辑（需要推理）→ 物理世界编辑（需要因果推理）。用统一的推理框架处理所有编辑是浪费，更好的设计可能是 自适应推理深度——模型判断当前编辑需要多深的推理。

Agent 的边界：自主到什么程度？

VisionCreator 的 UTPC 闭环很理想，但有两个实际问题：

用户的控制欲：设计师不想把完全控制权交给 AI。即使 Agent 能自主完成，用户也想在关键节点确认和调整。UTPC 可能需要变成 UT(P)C——Planning 阶段允许用户介入。
错误的代价：Agent 自主规划并执行了 10 步编辑，但第 3 步就错了。当前的方案是全流程重来，但更好的方案是支持编辑历史的非线性回溯（类似 Git 的 rebase）。

物理世界编辑（EditWorld）为什么重要？

大多数人低估了物理理解对编辑的重要性。看似简单的”把白天变黄昏”需要理解：

太阳位置变化 → 全局光照方向和色温变化
阴影变长 + 角度偏移
天空颜色从蓝到橙的渐变
人工光源（路灯）应该亮起

这不是”加一个滤镜”能解决的。EditWorld 虽然只是起步，但指出了正确方向：编辑的未来不是像素变换，而是场景重模拟。

Blog1

探索

编辑方法能力演进