扩散模型图像编辑与生成
概述
扩散模型在图像编辑与生成领域的发展经历了多个阶段:从文生图(T2I)→ 指令编辑 → 统一生成编辑 → 统一多模态理解与生成(UMMs)。UMMs 旨在用单一模型同时完成视觉理解和生成,是 2025 年最活跃的研究方向之一。
发展脉络
阶段零:生成模型的底层引擎
- DDPM (2020) — 扩散模型奠基:DDPM 扩散模型奠基论文
- Flow Matching (2023) — 连续归一化流泛化扩散,OT 路径更高效:Flow Matching 生成建模
- 详见主题页:扩散模型与 Flow Matching 基础
阶段一:文生图基础
- Stable Diffusion(2022)、DiT(2023)奠定了扩散模型在图像生成中的基础地位
- FLUX(2024)、SD3 将 rectified flow 和 DiT 推向成熟
- Seedream 系列 (2025) — 字节跳动的中英双语生成基础模型,2.0 → 3.0 → 4.0 演进:Seedream 系列模型
阶段二:指令编辑
- InstructPix2Pix(UC Berkeley, 2022)— 首个指令编辑范式,GPT-3 + SD 生成配对数据
- ControlNet(Stanford, 2023)— 空间条件控制,零卷积,锁定+复制架构
- FLUX.1 Kontext(Black Forest Labs, 2025)— Flow Matching + 序列拼接统一生成与编辑,角色一致性突破:FLUX.1 Kontext 上下文编辑
- 之后涌现了多种数据创建方法:人工标注、inpainting、collage、专家模型等
- UltraEdit(PKU, 2024)— ~4M 真实图像数据集
- AnyEdit(浙大, 2024)— 2.5M 对,20+ 编辑类型,task-aware routing
- Step1X-Edit(StepFun, 2025)— MLLM + Diffusion 混合架构,对标 GPT-4o
阶段 2.5:从编辑到推理
- EditWorld(PKU, 2024)— world-instructed editing,物理世界动态理解
- GoT(CUHK/SenseTime, 2025)— Generation Chain-of-Thought,先推理再生成
- Mind-Brush(2026)— think-research-create,Agent 主动检索知识
- VisionCreator(Tencent, 2026)— UTPC 统一 Agent 框架
- RISEBench(SJTU, 2025)— 首个推理编辑 benchmark(Temporal/Causal/Spatial/Logical)
阶段 2.6:控制架构演进
- OminiControl(NUS, 2024)— DiT 极简控制,仅 0.1% 额外参数,与 ControlNet 互补
阶段三:统一生成与编辑
- DreamOmni(CVPR 2025)— 统一图像生成和编辑
- OmniGen / OmniGen2 — 统一多模态生成
- UniWorld-V1 — VLM + SigLIP 语义编码器统一编辑和感知
阶段四:统一多模态理解与生成(2025)
- BAGEL(ByteDance Seed)— MoT 架构,交错数据预训练涌现推理能力
- Tuna-2(Meta AI)— 无编码器统一模型,端到端像素空间学习
- Lumina-DiMOO(上海 AI Lab)— 纯离散扩散范式,速度 32 倍提升
- Show-o2(NUS)— 3D Causal VAE 统一图文视频建模
- DreamOmni2(CUHK & ByteDance)— 扩展到多图像 + 多模态指令
关键架构路线
根据 统一多模态综述,UMMs 可分为:
| 类别 | 代表模型 |
|---|---|
| 扩散模型 | Lumina-DiMOO, UniDisc |
| AR 模型(像素编码) | Emu3, Chameleon, OneCat |
| AR 模型(语义编码) | OmniGen2, UniWorld-V1, Qwen-Image |
| AR 模型(可学习查询) | MetaQueries, BLIP3-o |
| AR 模型(混合编码) | Show-o2, TokenFlow, VARGPT |
| Fused AR+Diff(像素编码) | Transfusion, Show-o |
| Fused AR+Diff(混合编码) | BAGEL, Janus-Flow, LightFusion |
核心设计选择对比
| 维度 | BAGEL | UniWorld-V1 | Tuna-2 | Lumina-DiMOO | OmniGen2 | Show-o2 |
|---|---|---|---|---|---|---|
| 编码器 | 双编码器 (SigLIP2+VAE) | 语义编码器 (SigLIP2) | 无编码器 | 离散token (aMUSEd-VQ) | VLM 隐状态 | 3D VAE 双路径 |
| 数据量 | 5.1T tokens | 2.7M 样本 | 550M 图文对 | 大规模离散扩散 | 140M+10M 专有 | 66M+ 高质量 |
| 速度 | 中等 | 中等 | 较慢 | 极快 (32x) | 中等 | 中等 |
| 视频 | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ |
| 感知任务 | ✗ | ✓ | ✗ | ✓ | ✗ | ✗ |
| 涌现推理 | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ |
| 交错生成 | ✅ | ❌ | ❓ | ❓ | ❌ | ❓ |
涌现能力
BAGEL 展示了 UMMs 的关键发现:随着交错多模态预训练规模扩大,模型出现涌现能力:
- 基本理解和生成(< 1T tokens)
- 复杂编辑和自由形式操作(~ 2.6T tokens)
- 长上下文推理和世界建模(> 3.5T tokens)
当前局限与开放问题
- 编码器 vs 无编码器:哪一个范式最终主导统一模型?
- 离散 vs 连续扩散:离散扩散在图像质量上能否赶上连续扩散?
- 数据效率:小样本高效(UniWorld)vs 大样本涌现(BAGEL)
- 评估基准:统一模型的评估缺乏标准化
- 从编辑到推理:何时需要显式推理?CoT 对编辑质量的提升可量化吗?
- Agent + 生成:外部知识检索 vs 内部先验的边界在哪?
- 图层分解 vs 像素编辑:Qwen-Image-Layered 提出了一个根本性问题——一致性编辑的瓶颈是编辑算法,还是图像表示本身?
阶段五:图层分解编辑(新范式)
- Qwen-Image-Layered(阿里, 2025)—— 核心洞察:传统编辑一致性问题的根源不在于模型设计,而在于栅格图像的纠缠表示。所有视觉内容融合在单一画布上,任何编辑都通过纠缠的像素空间传播。
- 提出的解决方案:将图像表示为一叠语义解耦的 RGBA 层,每层可独立操作
- 关键三板斧:
- RGBA-VAE:统一 RGB 和 RGBA 图像潜在空间
- VLD-MMDiT:可变层数分解架构,支持一次分解任意数量层
- Layer3D RoPE:引入层维度位置编码
- 数据创新:从真实 PSD 文件提取多层图像,解决高质量多层数据稀缺
- 与 InstructPix2Pix、AnyEdit、Step1X-Edit 的根本区别:不是在像素/潜在空间中修改,而是先分解再编辑——编辑仅作用于目标层,物理隔离其余内容
- 来源:Qwen-Image-Layered 分层编辑
新范式的意义
Qwen-Image-Layered 代表的「图层分解」范式可能比所有编辑模型的改进都更根本:
- 它回答了「编辑的一致性上限是什么」:如果图像本身就是可分离的层,一致性是 representation 级别的保证,而非 generation 级别的概率近似
- 它改变了编辑问题的设定:从「如何生成一致的编辑结果」变成「如何准确分解图像为层」——这是一个更容易定义和评估的问题
- 它与统一多模态模型互补而非竞争:UMMs 可以解决「理解编辑指令并规划修改」,图层分解解决「执行修改时保证一致性」
但是:
- 自动分解的质量上限不确定——复杂场景(遮挡、半透明、光影交织)的分解可能始终不完美
- 用户是否接受「先分解再编辑」的额外步骤?
- 该范式能否扩展到视频(时序一致的多层分解)?
Benchmark 生态
| Benchmark | 方向 | 年份 |
|---|---|---|
| RISEBench | 推理编辑(Temporal/Causal/Spatial/Logical) | 2025 |
| GEdit-Bench | 真实用户指令编辑 | 2025 |
| WEAVEBench | 多轮上下文交织编辑 | 2025 |
| ImgEdit | 统一编辑 benchmark | 2025 |
| Mind-Bench | Agent 知识驱动生成 | 2026 |
| VisGenBench | Agent 创建能力 | 2026 |
审美评估与编辑
- Aes-R1(复旦/清华/字节, 2025):RAPO 联合优化绝对分数 + 相对排序
- 审美推理可指导编辑方向(“让这张图更美”)
相关资料来源
- InstructPix2Pix — 指令编辑奠基
- ControlNet — 空间条件控制
- UltraEdit — 大规模编辑数据
- AnyEdit — 统一编辑 + task routing
- EditWorld — 物理世界动态编辑
- Step1X-Edit — MLLM 编辑对标 GPT-4o
- GoT — CoT 推理生成
- Mind-Brush — Agent 知识检索生成
- VisionCreator — UTPC Agent 框架
- RISEBench — 推理编辑 benchmark
- ImgEdit — 统一编辑 benchmark
- WEAVE — 多轮上下文编辑
- OpenGPT-4o-Image — 层级分类编辑数据
- OminiControl — DiT 极简控制
- Aes-R1 — 审美推理
- DreamOmni2
- BAGEL
- UniWorld-V1
- Tuna-2
- Lumina-DiMOO
- OmniGen2
- Show-o2
- Unified Multimodal Survey
我的思考:这个领域的三个元问题
元问题 1:编辑的本质是什么?
读完这 29 篇论文后,我在思考一个更根本的问题:图像编辑的本质到底是什么?
表面上是”根据指令修改像素”。但深层来看,编辑是 在视觉流形上从一个点导航到另一个点。所有编辑方法都在做同一件事:学习这个流形上的导航规则。
- InstructPix2Pix:直接从指令到目标点的映射
- ControlNet:在特定约束方向上的导航(沿边缘、沿深度)
- EditWorld:需要物理约束的导航(不能违反物理规律)
- GoT:先规划路线再导航
- VisionCreator:自主决定导航目的地
这个视角统一了所有方法:它们的区别不在于”做什么”,而在于”导航时用了多少先验知识”。
元问题 2:统一模型的终点是什么?
读完 BAGEL 的涌现能力和 Tuna-2 的无编码器设计,我有一个假设:
最终的统一模型可能是一个巨大的自回归 Transformer,直接处理交错的视觉-语言 token,不做任何架构层面的模态区分。 视觉 token 和文本 token 的区别只在训练数据中体现,不在架构中。
支持这个假设的证据:
- BAGEL 的涌现说明大规模统一预训练可以自然产生多模态推理
- Tuna-2 证明不需要专门的视觉编码器
- Lumina-DiMOO 证明离散 token 可以做高质量生成
- GPT-4o 的实践说明”一个模型什么都做”在工程上可行
但这对学术研究者来说是个坏消息——这条路需要海量数据和算力,只有少数大公司能走。所以学术界应该聚焦于:小样本效率(UniWorld-V1 路线)、专项任务创新(EmoEdit 路线)、评估和审计(RISEBench 路线)。
元问题 3:Agent 编辑是过度设计还是必然方向?
Mind-Brush 和 VisionCreator 让编辑模型”像人一样思考”。但这是必要的吗?
反方观点:大部分用户只需要”把背景换成海滩”,不需要 Agent 去搜索海滩图片、分析光照、规划步骤。一个简单的端到端模型就够了。Agent 的额外推理成本不值得。
正方观点:用户的真实需求远不止简单替换。“帮我设计一张适合 LinkedIn 首页的职业照背景”——这需要理解 LinkedIn 的设计规范、职业形象、当前流行趋势。单一模型无法覆盖所有这些知识。Agent 可以检索、验证、综合。
我的判断:两种场景共存。90% 的编辑请求不需要 Agent(简单替换/调整),9% 需要轻量推理(风格编辑/氛围调整),1% 需要完整 Agent(跨领域知识综合)。最优系统应该是路由式的:简单请求直接执行,复杂请求自动升级到推理/Agent 模式。AnyEdit 的 task-aware routing 已经是这个方向的雏形。