从指令编辑到 Agent 生成:能力演进对比
演进路线
2022 InstructPix2Pix ─── 首次"听懂指令做编辑"
↓
2023 ControlNet ──────── 空间条件控制
↓
2024 UltraEdit/AnyEdit ── 数据规模和多样性升级
2024 EditWorld ────────── 物理世界动态感知
2024 EmoEdit ──────────── 情感感知编辑
↓
2025 Step1X-Edit ─────── MLLM + Diffusion 混合
2025 GoT ──────────────── Chain-of-Thought 推理生成
2025 RISEBench ────────── 推理编辑标准化评估
↓
2026 Mind-Brush ──────── Agent 知识检索生成
2026 VisionCreator ────── UTPC 自主创建 Agent
各代能力矩阵
| 能力 | IP2P (2022) | Step1X-Edit (2025) | EditWorld (2024) | GoT (2025) | Mind-Brush (2026) | VisionCreator (2026) |
|---|---|---|---|---|---|---|
| 指令跟随 | ✅ 基础 | ✅ 11 类任务 | ✅ 物理感知 | ✅ 推理增强 | ✅ 知识增强 | ✅ 自主规划 |
| 空间控制 | ❌ | ✅ | ✅ 物理合理 | ✅ 语义-空间 | ❌ | ✅ 规划布局 |
| 物理理解 | ❌ | ❌ | ✅ 动态模拟 | ❌ | ❌ | ❌ 间接 |
| 推理能力 | ❌ | ❌ 有限 | ❌ | ✅ CoT | ✅ 工具推理 | ✅ UTPC |
| 外部知识 | ❌ | ❌ | ❌ | ❌ | ✅ 主动检索 | ❌ |
| 自主规划 | ❌ | ❌ | ❌ | ❌ | ✅ 分解子问题 | ✅ 端到端 |
| 多轮迭代 | ❌ | ❌ | ❌ | ❌ | ✅ think-research-create | ✅ UTPC 流水线 |
| 开源性 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ (Tencent) |
关键转折点分析
转折 1:从”执行指令”到”理解指令”
InstructPix2Pix 只能做字面编辑(“加一只猫”)。Step1X-Edit 用 MLLM 编码实现了更深层的指令理解——“让这张图更有氛围感”这种模糊指令也能处理。
背后原因:MLLM 提供了视觉常识和语言理解能力。纯扩散模型只看到像素和文本 token,而 MLLM 在编码指令时已经融入了对场景的理解。
转折 2:从”理解指令”到”推理指令”
GoT 的 CoT 范式是关键:在生成像素之前,先显式推理”这个场景里有什么?它们是什么关系?编辑后应该变成什么样?”
这解决了之前编辑模型的一个根本问题:编辑效果不稳定,因为模型在”猜测”用户意图。显式推理让意图变得确定。
转折 3:从”内部推理”到”外部知识”
Mind-Brush 指出内部先验的局限:你无法从模型参数中”推理”出今天的新闻或最新的设计趋势。外部知识检索让编辑模型可以处理 open-domain 概念。
转折 4(进行中):从”工具”到”Agent”
VisionCreator 的目标不是做一个更好的编辑工具,而是做一个能自主完成视觉创建任务的 Agent。用户不再需要逐步给出编辑指令——Agent 自己理解需求、思考方案、规划步骤、执行创建。
深度思考
推理的必要性:什么时候需要 CoT?
并不是所有编辑都需要推理。“把猫换成狗”不需要推理,直接执行。但”把这张家居照片改成更符合北欧风格”就需要:理解什么是北欧风格 → 识别当前风格的偏差 → 规划需要改什么 → 执行。
我的判断:推理的 ROI 与编辑的”语义深度”成正比。简单替换(0 推理成本)→ 风格/氛围编辑(需要推理)→ 物理世界编辑(需要因果推理)。用统一的推理框架处理所有编辑是浪费,更好的设计可能是 自适应推理深度——模型判断当前编辑需要多深的推理。
Agent 的边界:自主到什么程度?
VisionCreator 的 UTPC 闭环很理想,但有两个实际问题:
-
用户的控制欲:设计师不想把完全控制权交给 AI。即使 Agent 能自主完成,用户也想在关键节点确认和调整。UTPC 可能需要变成 UT(P)C——Planning 阶段允许用户介入。
-
错误的代价:Agent 自主规划并执行了 10 步编辑,但第 3 步就错了。当前的方案是全流程重来,但更好的方案是支持编辑历史的非线性回溯(类似 Git 的 rebase)。
物理世界编辑(EditWorld)为什么重要?
大多数人低估了物理理解对编辑的重要性。看似简单的”把白天变黄昏”需要理解:
- 太阳位置变化 → 全局光照方向和色温变化
- 阴影变长 + 角度偏移
- 天空颜色从蓝到橙的渐变
- 人工光源(路灯)应该亮起
这不是”加一个滤镜”能解决的。EditWorld 虽然只是起步,但指出了正确方向:编辑的未来不是像素变换,而是场景重模拟。