从指令编辑到 Agent 生成:能力演进对比

演进路线

2022 InstructPix2Pix ─── 首次"听懂指令做编辑"
         ↓
2023 ControlNet ──────── 空间条件控制
         ↓
2024 UltraEdit/AnyEdit ── 数据规模和多样性升级
2024 EditWorld ────────── 物理世界动态感知
2024 EmoEdit ──────────── 情感感知编辑
         ↓
2025 Step1X-Edit ─────── MLLM + Diffusion 混合
2025 GoT ──────────────── Chain-of-Thought 推理生成
2025 RISEBench ────────── 推理编辑标准化评估
         ↓
2026 Mind-Brush ──────── Agent 知识检索生成
2026 VisionCreator ────── UTPC 自主创建 Agent

各代能力矩阵

能力IP2P (2022)Step1X-Edit (2025)EditWorld (2024)GoT (2025)Mind-Brush (2026)VisionCreator (2026)
指令跟随✅ 基础✅ 11 类任务✅ 物理感知✅ 推理增强✅ 知识增强✅ 自主规划
空间控制✅ 物理合理✅ 语义-空间✅ 规划布局
物理理解✅ 动态模拟❌ 间接
推理能力❌ 有限✅ CoT✅ 工具推理✅ UTPC
外部知识✅ 主动检索
自主规划✅ 分解子问题✅ 端到端
多轮迭代✅ think-research-create✅ UTPC 流水线
开源性❌ (Tencent)

关键转折点分析

转折 1:从”执行指令”到”理解指令”

InstructPix2Pix 只能做字面编辑(“加一只猫”)。Step1X-Edit 用 MLLM 编码实现了更深层的指令理解——“让这张图更有氛围感”这种模糊指令也能处理。

背后原因:MLLM 提供了视觉常识和语言理解能力。纯扩散模型只看到像素和文本 token,而 MLLM 在编码指令时已经融入了对场景的理解。

转折 2:从”理解指令”到”推理指令”

GoT 的 CoT 范式是关键:在生成像素之前,先显式推理”这个场景里有什么?它们是什么关系?编辑后应该变成什么样?”

这解决了之前编辑模型的一个根本问题:编辑效果不稳定,因为模型在”猜测”用户意图。显式推理让意图变得确定。

转折 3:从”内部推理”到”外部知识”

Mind-Brush 指出内部先验的局限:你无法从模型参数中”推理”出今天的新闻或最新的设计趋势。外部知识检索让编辑模型可以处理 open-domain 概念。

转折 4(进行中):从”工具”到”Agent”

VisionCreator 的目标不是做一个更好的编辑工具,而是做一个能自主完成视觉创建任务的 Agent。用户不再需要逐步给出编辑指令——Agent 自己理解需求、思考方案、规划步骤、执行创建。

深度思考

推理的必要性:什么时候需要 CoT?

并不是所有编辑都需要推理。“把猫换成狗”不需要推理,直接执行。但”把这张家居照片改成更符合北欧风格”就需要:理解什么是北欧风格 → 识别当前风格的偏差 → 规划需要改什么 → 执行。

我的判断:推理的 ROI 与编辑的”语义深度”成正比。简单替换(0 推理成本)→ 风格/氛围编辑(需要推理)→ 物理世界编辑(需要因果推理)。用统一的推理框架处理所有编辑是浪费,更好的设计可能是 自适应推理深度——模型判断当前编辑需要多深的推理。

Agent 的边界:自主到什么程度?

VisionCreator 的 UTPC 闭环很理想,但有两个实际问题:

  1. 用户的控制欲:设计师不想把完全控制权交给 AI。即使 Agent 能自主完成,用户也想在关键节点确认和调整。UTPC 可能需要变成 UT(P)C——Planning 阶段允许用户介入。

  2. 错误的代价:Agent 自主规划并执行了 10 步编辑,但第 3 步就错了。当前的方案是全流程重来,但更好的方案是支持编辑历史的非线性回溯(类似 Git 的 rebase)。

物理世界编辑(EditWorld)为什么重要?

大多数人低估了物理理解对编辑的重要性。看似简单的”把白天变黄昏”需要理解:

  • 太阳位置变化 → 全局光照方向和色温变化
  • 阴影变长 + 角度偏移
  • 天空颜色从蓝到橙的渐变
  • 人工光源(路灯)应该亮起

这不是”加一个滤镜”能解决的。EditWorld 虽然只是起步,但指出了正确方向:编辑的未来不是像素变换,而是场景重模拟

相关比较