扩散模型图像编辑与生成

概述

扩散模型在图像编辑与生成领域的发展经历了多个阶段：从文生图（T2I）→ 指令编辑 → 统一生成编辑 → 统一多模态理解与生成（UMMs）。UMMs 旨在用单一模型同时完成视觉理解和生成，是 2025 年最活跃的研究方向之一。

发展脉络

阶段零：生成模型的底层引擎

DDPM (2020) — 扩散模型奠基：DDPM 扩散模型奠基论文
Flow Matching (2023) — 连续归一化流泛化扩散，OT 路径更高效：Flow Matching 生成建模
详见主题页：扩散模型与 Flow Matching 基础

阶段一：文生图基础

Stable Diffusion（2022）、DiT（2023）奠定了扩散模型在图像生成中的基础地位
FLUX（2024）、SD3 将 rectified flow 和 DiT 推向成熟
Seedream 系列 (2025) — 字节跳动的中英双语生成基础模型，2.0 → 3.0 → 4.0 演进：Seedream 系列模型

阶段二：指令编辑

InstructPix2Pix（UC Berkeley, 2022）— 首个指令编辑范式，GPT-3 + SD 生成配对数据
ControlNet（Stanford, 2023）— 空间条件控制，零卷积，锁定+复制架构
FLUX.1 Kontext（Black Forest Labs, 2025）— Flow Matching + 序列拼接统一生成与编辑，角色一致性突破：FLUX.1 Kontext 上下文编辑
之后涌现了多种数据创建方法：人工标注、inpainting、collage、专家模型等
UltraEdit（PKU, 2024）— ~4M 真实图像数据集
AnyEdit（浙大, 2024）— 2.5M 对，20+ 编辑类型，task-aware routing
Step1X-Edit（StepFun, 2025）— MLLM + Diffusion 混合架构，对标 GPT-4o

阶段 2.5：从编辑到推理

EditWorld（PKU, 2024）— world-instructed editing，物理世界动态理解
GoT（CUHK/SenseTime, 2025）— Generation Chain-of-Thought，先推理再生成
Mind-Brush（2026）— think-research-create，Agent 主动检索知识
VisionCreator（Tencent, 2026）— UTPC 统一 Agent 框架
RISEBench（SJTU, 2025）— 首个推理编辑 benchmark（Temporal/Causal/Spatial/Logical）

阶段 2.6：控制架构演进

OminiControl（NUS, 2024）— DiT 极简控制，仅 0.1% 额外参数，与 ControlNet 互补

阶段三：统一生成与编辑

DreamOmni（CVPR 2025）— 统一图像生成和编辑
OmniGen / OmniGen2 — 统一多模态生成
UniWorld-V1 — VLM + SigLIP 语义编码器统一编辑和感知

阶段四：统一多模态理解与生成（2025）

BAGEL（ByteDance Seed）— MoT 架构，交错数据预训练涌现推理能力
Tuna-2（Meta AI）— 无编码器统一模型，端到端像素空间学习
Lumina-DiMOO（上海 AI Lab）— 纯离散扩散范式，速度 32 倍提升
Show-o2（NUS）— 3D Causal VAE 统一图文视频建模
DreamOmni2（CUHK & ByteDance）— 扩展到多图像 + 多模态指令

关键架构路线

根据统一多模态综述，UMMs 可分为：

类别	代表模型
扩散模型	Lumina-DiMOO, UniDisc
AR 模型（像素编码）	Emu3, Chameleon, OneCat
AR 模型（语义编码）	OmniGen2, UniWorld-V1, Qwen-Image
AR 模型（可学习查询）	MetaQueries, BLIP3-o
AR 模型（混合编码）	Show-o2, TokenFlow, VARGPT
Fused AR+Diff（像素编码）	Transfusion, Show-o
Fused AR+Diff（混合编码）	BAGEL, Janus-Flow, LightFusion

核心设计选择对比

维度	BAGEL	UniWorld-V1	Tuna-2	Lumina-DiMOO	OmniGen2	Show-o2
编码器	双编码器 (SigLIP2+VAE)	语义编码器 (SigLIP2)	无编码器	离散token (aMUSEd-VQ)	VLM 隐状态	3D VAE 双路径
数据量	5.1T tokens	2.7M 样本	550M 图文对	大规模离散扩散	140M+10M 专有	66M+ 高质量
速度	中等	中等	较慢	极快 (32x)	中等	中等
视频	✓	✗	✗	✗	✗	✓
感知任务	✗	✓	✗	✓	✗	✗
涌现推理	✓	✗	✗	✗	✗	✗
交错生成	✅	❌	❓	❓	❌	❓

涌现能力

BAGEL 展示了 UMMs 的关键发现：随着交错多模态预训练规模扩大，模型出现涌现能力：

基本理解和生成（< 1T tokens）
复杂编辑和自由形式操作（~ 2.6T tokens）
长上下文推理和世界建模（> 3.5T tokens）

当前局限与开放问题

编码器 vs 无编码器：哪一个范式最终主导统一模型？
离散 vs 连续扩散：离散扩散在图像质量上能否赶上连续扩散？
数据效率：小样本高效（UniWorld）vs 大样本涌现（BAGEL）
评估基准：统一模型的评估缺乏标准化
从编辑到推理：何时需要显式推理？CoT 对编辑质量的提升可量化吗？
Agent + 生成：外部知识检索 vs 内部先验的边界在哪？
图层分解 vs 像素编辑：Qwen-Image-Layered 提出了一个根本性问题——一致性编辑的瓶颈是编辑算法，还是图像表示本身？

阶段五：图层分解编辑（新范式）

Qwen-Image-Layered（阿里, 2025）—— 核心洞察：传统编辑一致性问题的根源不在于模型设计，而在于栅格图像的纠缠表示。所有视觉内容融合在单一画布上，任何编辑都通过纠缠的像素空间传播。
提出的解决方案：将图像表示为一叠语义解耦的 RGBA 层，每层可独立操作
关键三板斧：
1. RGBA-VAE：统一 RGB 和 RGBA 图像潜在空间
2. VLD-MMDiT：可变层数分解架构，支持一次分解任意数量层
3. Layer3D RoPE：引入层维度位置编码
数据创新：从真实 PSD 文件提取多层图像，解决高质量多层数据稀缺
与 InstructPix2Pix、AnyEdit、Step1X-Edit 的根本区别：不是在像素/潜在空间中修改，而是先分解再编辑——编辑仅作用于目标层，物理隔离其余内容
来源：Qwen-Image-Layered 分层编辑

新范式的意义

Qwen-Image-Layered 代表的「图层分解」范式可能比所有编辑模型的改进都更根本：

它回答了「编辑的一致性上限是什么」：如果图像本身就是可分离的层，一致性是 representation 级别的保证，而非 generation 级别的概率近似
它改变了编辑问题的设定：从「如何生成一致的编辑结果」变成「如何准确分解图像为层」——这是一个更容易定义和评估的问题
它与统一多模态模型互补而非竞争：UMMs 可以解决「理解编辑指令并规划修改」，图层分解解决「执行修改时保证一致性」

但是：

自动分解的质量上限不确定——复杂场景（遮挡、半透明、光影交织）的分解可能始终不完美
用户是否接受「先分解再编辑」的额外步骤？
该范式能否扩展到视频（时序一致的多层分解）？

Benchmark 生态

Benchmark	方向	年份
RISEBench	推理编辑（Temporal/Causal/Spatial/Logical）	2025
GEdit-Bench	真实用户指令编辑	2025
WEAVEBench	多轮上下文交织编辑	2025
ImgEdit	统一编辑 benchmark	2025
Mind-Bench	Agent 知识驱动生成	2026
VisGenBench	Agent 创建能力	2026

审美评估与编辑

Aes-R1（复旦/清华/字节, 2025）：RAPO 联合优化绝对分数 + 相对排序
审美推理可指导编辑方向（“让这张图更美”）

我的思考：这个领域的三个元问题

元问题 1：编辑的本质是什么？

读完这 29 篇论文后，我在思考一个更根本的问题：图像编辑的本质到底是什么？

表面上是”根据指令修改像素”。但深层来看，编辑是 在视觉流形上从一个点导航到另一个点。所有编辑方法都在做同一件事：学习这个流形上的导航规则。

InstructPix2Pix：直接从指令到目标点的映射
ControlNet：在特定约束方向上的导航（沿边缘、沿深度）
EditWorld：需要物理约束的导航（不能违反物理规律）
GoT：先规划路线再导航
VisionCreator：自主决定导航目的地

这个视角统一了所有方法：它们的区别不在于”做什么”，而在于”导航时用了多少先验知识”。

元问题 2：统一模型的终点是什么？

读完 BAGEL 的涌现能力和 Tuna-2 的无编码器设计，我有一个假设：

最终的统一模型可能是一个巨大的自回归 Transformer，直接处理交错的视觉-语言 token，不做任何架构层面的模态区分。 视觉 token 和文本 token 的区别只在训练数据中体现，不在架构中。

支持这个假设的证据：

BAGEL 的涌现说明大规模统一预训练可以自然产生多模态推理
Tuna-2 证明不需要专门的视觉编码器
Lumina-DiMOO 证明离散 token 可以做高质量生成
GPT-4o 的实践说明”一个模型什么都做”在工程上可行

但这对学术研究者来说是个坏消息——这条路需要海量数据和算力，只有少数大公司能走。所以学术界应该聚焦于：小样本效率（UniWorld-V1 路线）、专项任务创新（EmoEdit 路线）、评估和审计（RISEBench 路线）。

元问题 3：Agent 编辑是过度设计还是必然方向？

Mind-Brush 和 VisionCreator 让编辑模型”像人一样思考”。但这是必要的吗？

反方观点：大部分用户只需要”把背景换成海滩”，不需要 Agent 去搜索海滩图片、分析光照、规划步骤。一个简单的端到端模型就够了。Agent 的额外推理成本不值得。

正方观点：用户的真实需求远不止简单替换。“帮我设计一张适合 LinkedIn 首页的职业照背景”——这需要理解 LinkedIn 的设计规范、职业形象、当前流行趋势。单一模型无法覆盖所有这些知识。Agent 可以检索、验证、综合。

我的判断：两种场景共存。90% 的编辑请求不需要 Agent（简单替换/调整），9% 需要轻量推理（风格编辑/氛围调整），1% 需要完整 Agent（跨领域知识综合）。最优系统应该是路由式的：简单请求直接执行，复杂请求自动升级到推理/Agent 模式。AnyEdit 的 task-aware routing 已经是这个方向的雏形。

Blog1

探索

扩散模型图像编辑与生成

扩散模型图像编辑与生成

概述

发展脉络

阶段零：生成模型的底层引擎

阶段一：文生图基础

阶段二：指令编辑

阶段 2.5：从编辑到推理

阶段 2.6：控制架构演进

阶段三：统一生成与编辑

阶段四：统一多模态理解与生成（2025）

关键架构路线

核心设计选择对比

涌现能力

当前局限与开放问题

阶段五：图层分解编辑（新范式）

新范式的意义

Benchmark 生态

审美评估与编辑

相关资料来源

我的思考：这个领域的三个元问题

元问题 1：编辑的本质是什么？

元问题 2：统一模型的终点是什么？

元问题 3：Agent 编辑是过度设计还是必然方向？

关系图谱

目录

反向链接