扩散模型图像编辑与生成

概述

扩散模型在图像编辑与生成领域的发展经历了多个阶段:从文生图(T2I)→ 指令编辑 → 统一生成编辑 → 统一多模态理解与生成(UMMs)。UMMs 旨在用单一模型同时完成视觉理解和生成,是 2025 年最活跃的研究方向之一。

发展脉络

阶段零:生成模型的底层引擎

阶段一:文生图基础

  • Stable Diffusion(2022)、DiT(2023)奠定了扩散模型在图像生成中的基础地位
  • FLUX(2024)、SD3 将 rectified flow 和 DiT 推向成熟
  • Seedream 系列 (2025) — 字节跳动的中英双语生成基础模型,2.0 3.0 4.0 演进:Seedream 系列模型

阶段二:指令编辑

  • InstructPix2Pix(UC Berkeley, 2022)— 首个指令编辑范式,GPT-3 + SD 生成配对数据
  • ControlNet(Stanford, 2023)— 空间条件控制,零卷积,锁定+复制架构
  • FLUX.1 Kontext(Black Forest Labs, 2025)— Flow Matching + 序列拼接统一生成与编辑,角色一致性突破:FLUX.1 Kontext 上下文编辑
  • 之后涌现了多种数据创建方法:人工标注、inpainting、collage、专家模型等
  • UltraEdit(PKU, 2024)— ~4M 真实图像数据集
  • AnyEdit(浙大, 2024)— 2.5M 对,20+ 编辑类型,task-aware routing
  • Step1X-Edit(StepFun, 2025)— MLLM + Diffusion 混合架构,对标 GPT-4o

阶段 2.5:从编辑到推理

  • EditWorld(PKU, 2024)— world-instructed editing,物理世界动态理解
  • GoT(CUHK/SenseTime, 2025)— Generation Chain-of-Thought,先推理再生成
  • Mind-Brush(2026)— think-research-create,Agent 主动检索知识
  • VisionCreator(Tencent, 2026)— UTPC 统一 Agent 框架
  • RISEBench(SJTU, 2025)— 首个推理编辑 benchmark(Temporal/Causal/Spatial/Logical)

阶段 2.6:控制架构演进

  • OminiControl(NUS, 2024)— DiT 极简控制,仅 0.1% 额外参数,与 ControlNet 互补

阶段三:统一生成与编辑

  • DreamOmni(CVPR 2025)— 统一图像生成和编辑
  • OmniGen / OmniGen2 — 统一多模态生成
  • UniWorld-V1 — VLM + SigLIP 语义编码器统一编辑和感知

阶段四:统一多模态理解与生成(2025)

  • BAGEL(ByteDance Seed)— MoT 架构,交错数据预训练涌现推理能力
  • Tuna-2(Meta AI)— 无编码器统一模型,端到端像素空间学习
  • Lumina-DiMOO(上海 AI Lab)— 纯离散扩散范式,速度 32 倍提升
  • Show-o2(NUS)— 3D Causal VAE 统一图文视频建模
  • DreamOmni2(CUHK & ByteDance)— 扩展到多图像 + 多模态指令

关键架构路线

根据 统一多模态综述,UMMs 可分为:

类别代表模型
扩散模型Lumina-DiMOO, UniDisc
AR 模型(像素编码)Emu3, Chameleon, OneCat
AR 模型(语义编码)OmniGen2, UniWorld-V1, Qwen-Image
AR 模型(可学习查询)MetaQueries, BLIP3-o
AR 模型(混合编码)Show-o2, TokenFlow, VARGPT
Fused AR+Diff(像素编码)Transfusion, Show-o
Fused AR+Diff(混合编码)BAGEL, Janus-Flow, LightFusion

核心设计选择对比

维度BAGELUniWorld-V1Tuna-2Lumina-DiMOOOmniGen2Show-o2
编码器双编码器 (SigLIP2+VAE)语义编码器 (SigLIP2)无编码器离散token (aMUSEd-VQ)VLM 隐状态3D VAE 双路径
数据量5.1T tokens2.7M 样本550M 图文对大规模离散扩散140M+10M 专有66M+ 高质量
速度中等中等较慢极快 (32x)中等中等
视频
感知任务
涌现推理
交错生成

涌现能力

BAGEL 展示了 UMMs 的关键发现:随着交错多模态预训练规模扩大,模型出现涌现能力

  1. 基本理解和生成(< 1T tokens)
  2. 复杂编辑和自由形式操作(~ 2.6T tokens)
  3. 长上下文推理和世界建模(> 3.5T tokens)

当前局限与开放问题

  • 编码器 vs 无编码器:哪一个范式最终主导统一模型?
  • 离散 vs 连续扩散:离散扩散在图像质量上能否赶上连续扩散?
  • 数据效率:小样本高效(UniWorld)vs 大样本涌现(BAGEL)
  • 评估基准:统一模型的评估缺乏标准化
  • 从编辑到推理:何时需要显式推理?CoT 对编辑质量的提升可量化吗?
  • Agent + 生成:外部知识检索 vs 内部先验的边界在哪?
  • 图层分解 vs 像素编辑:Qwen-Image-Layered 提出了一个根本性问题——一致性编辑的瓶颈是编辑算法,还是图像表示本身?

阶段五:图层分解编辑(新范式)

  • Qwen-Image-Layered(阿里, 2025)—— 核心洞察:传统编辑一致性问题的根源不在于模型设计,而在于栅格图像的纠缠表示。所有视觉内容融合在单一画布上,任何编辑都通过纠缠的像素空间传播。
  • 提出的解决方案:将图像表示为一叠语义解耦的 RGBA 层,每层可独立操作
  • 关键三板斧:
    1. RGBA-VAE:统一 RGB 和 RGBA 图像潜在空间
    2. VLD-MMDiT:可变层数分解架构,支持一次分解任意数量层
    3. Layer3D RoPE:引入层维度位置编码
  • 数据创新:从真实 PSD 文件提取多层图像,解决高质量多层数据稀缺
  • 与 InstructPix2Pix、AnyEdit、Step1X-Edit 的根本区别:不是在像素/潜在空间中修改,而是先分解再编辑——编辑仅作用于目标层,物理隔离其余内容
  • 来源:Qwen-Image-Layered 分层编辑

新范式的意义

Qwen-Image-Layered 代表的「图层分解」范式可能比所有编辑模型的改进都更根本:

  1. 它回答了「编辑的一致性上限是什么」:如果图像本身就是可分离的层,一致性是 representation 级别的保证,而非 generation 级别的概率近似
  2. 它改变了编辑问题的设定:从「如何生成一致的编辑结果」变成「如何准确分解图像为层」——这是一个更容易定义和评估的问题
  3. 它与统一多模态模型互补而非竞争:UMMs 可以解决「理解编辑指令并规划修改」,图层分解解决「执行修改时保证一致性」

但是:

  • 自动分解的质量上限不确定——复杂场景(遮挡、半透明、光影交织)的分解可能始终不完美
  • 用户是否接受「先分解再编辑」的额外步骤?
  • 该范式能否扩展到视频(时序一致的多层分解)?

Benchmark 生态

Benchmark方向年份
RISEBench推理编辑(Temporal/Causal/Spatial/Logical)2025
GEdit-Bench真实用户指令编辑2025
WEAVEBench多轮上下文交织编辑2025
ImgEdit统一编辑 benchmark2025
Mind-BenchAgent 知识驱动生成2026
VisGenBenchAgent 创建能力2026

审美评估与编辑

  • Aes-R1(复旦/清华/字节, 2025):RAPO 联合优化绝对分数 + 相对排序
  • 审美推理可指导编辑方向(“让这张图更美”)

相关资料来源

我的思考:这个领域的三个元问题

元问题 1:编辑的本质是什么?

读完这 29 篇论文后,我在思考一个更根本的问题:图像编辑的本质到底是什么?

表面上是”根据指令修改像素”。但深层来看,编辑是 在视觉流形上从一个点导航到另一个点。所有编辑方法都在做同一件事:学习这个流形上的导航规则。

  • InstructPix2Pix:直接从指令到目标点的映射
  • ControlNet:在特定约束方向上的导航(沿边缘、沿深度)
  • EditWorld:需要物理约束的导航(不能违反物理规律)
  • GoT:先规划路线再导航
  • VisionCreator:自主决定导航目的地

这个视角统一了所有方法:它们的区别不在于”做什么”,而在于”导航时用了多少先验知识”。

元问题 2:统一模型的终点是什么?

读完 BAGEL 的涌现能力和 Tuna-2 的无编码器设计,我有一个假设:

最终的统一模型可能是一个巨大的自回归 Transformer,直接处理交错的视觉-语言 token,不做任何架构层面的模态区分。 视觉 token 和文本 token 的区别只在训练数据中体现,不在架构中。

支持这个假设的证据:

  • BAGEL 的涌现说明大规模统一预训练可以自然产生多模态推理
  • Tuna-2 证明不需要专门的视觉编码器
  • Lumina-DiMOO 证明离散 token 可以做高质量生成
  • GPT-4o 的实践说明”一个模型什么都做”在工程上可行

但这对学术研究者来说是个坏消息——这条路需要海量数据和算力,只有少数大公司能走。所以学术界应该聚焦于:小样本效率(UniWorld-V1 路线)、专项任务创新(EmoEdit 路线)、评估和审计(RISEBench 路线)。

元问题 3:Agent 编辑是过度设计还是必然方向?

Mind-Brush 和 VisionCreator 让编辑模型”像人一样思考”。但这是必要的吗?

反方观点:大部分用户只需要”把背景换成海滩”,不需要 Agent 去搜索海滩图片、分析光照、规划步骤。一个简单的端到端模型就够了。Agent 的额外推理成本不值得。

正方观点:用户的真实需求远不止简单替换。“帮我设计一张适合 LinkedIn 首页的职业照背景”——这需要理解 LinkedIn 的设计规范、职业形象、当前流行趋势。单一模型无法覆盖所有这些知识。Agent 可以检索、验证、综合。

我的判断:两种场景共存。90% 的编辑请求不需要 Agent(简单替换/调整),9% 需要轻量推理(风格编辑/氛围调整),1% 需要完整 Agent(跨领域知识综合)。最优系统应该是路由式的:简单请求直接执行,复杂请求自动升级到推理/Agent 模式。AnyEdit 的 task-aware routing 已经是这个方向的雏形。