Denoising Diffusion Probabilistic Models

一句话总结：DDPM 提出了去噪扩散概率模型，证明了扩散模型能够生成高质量图像样本——在 CIFAR10 上达到 FID 3.17、IS 9.46，并建立了扩散模型与去噪得分匹配、Langevin 动力学之间的理论联系，奠定了现代扩散生成模型的理论和实践基础。

Figure 1: DDPM 在 CelebA-HQ 256x256（左）和 unconditional CIFAR10（右）上的生成样本。

Intro

Motivation

扩散概率模型（diffusion probabilistic models）是一类受非平衡热力学启发的潜变量模型。虽然扩散模型概念上简洁优雅，但在此工作之前，没有证据表明它们能生成高质量的样本。在此之前，GANs、自回归模型、流模型和 VAE 已经在图像和音频合成上取得显著成果，但扩散模型在图像生成上的潜力未被充分发掘。

核心主张

扩散模型确实能够生成高质量样本，有时甚至优于已发表的其它类型生成模型
特定的参数化方式（预测噪声而非预测均值）揭示了扩散模型与去噪得分匹配（denoising score matching）的等价性，以及采样过程与退火 Langevin 动力学的联系
扩散模型的采样过程可以被理解为一种渐进式有损解码，泛化了自回归解码的概念

贡献

首次证明扩散模型能生成高质量图像样本（CIFAR10 FID 3.17，超过当时大多数无条件模型）
提出噪声预测（ϵ-prediction）参数化，建立了与 denoising score matching 和 Langevin dynamics 的理论联系
提出简化训练目标 L_simple，在实践中显著优于完整变分下界
分析了扩散模型的率失真行为：超过一半的 lossless codelength 用于描述人眼不可察觉的图像细节

Method 核心方法

DDPM 的方法论由四个紧密关联的组件构成：扩散过程的数学定义 → 变分训练目标的推导 → 重参数化技巧 → 网络架构设计。以下按数学推导的自然顺序展开。

1. 扩散模型的数学框架

扩散模型定义了一个 T 步潜变量模型 p_θ(x_0) = ∫ p_θ(x_0:T) dx_1:T，其中 x_1, …, x_T 是与数据 x_0 同维度的隐变量。

1.1 前向过程（扩散过程）

前向过程是一个固定的马尔可夫链（无学习参数），逐步向数据添加高斯噪声，将数据分布 q(x_0) 逐渐转化为标准高斯分布：

$q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I)$

其中 β_t ∈ (0,1) 是方差 schedule，控制每步添加的噪声量。论文使用从 β_1=10^{-4} 到 β_T=0.02 的线性 schedule，共 T=1000 步。

重参数化技巧：令 α_t = 1-β_t，ᾱ_t = ∏_{s=1}^t α_s，利用高斯分布的可加性，可以直接从 x_0 采样任意时间步 t 的 x_t，无需迭代 T 步：

$q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α}{ˉ}_{t} x_{0}, (1 - \overset{α}{ˉ}_{t}) I)$

等价地： $x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ε$ ，其中 $ε \sim N (0, I)$ 。

这一性质是扩散模型高效训练的关键——训练时无需模拟完整的前向链，只需采样 t 和 ε 即可直接计算 x_t。

边界条件：当 T→∞ 时 β_t 的累积使 ᾱ_T→0，因此 $q (x_{T} ∣ x_{0}) \approx N (0, I)$ 。

1.2 反向过程（生成过程）

反向过程是一个学习的马尔可夫链，从标准高斯噪声 x_T ~ N(0, I) 开始，逐步去噪重建数据：

$p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I)$

其中 μ_θ 由神经网络预测，σ_t 设为固定值（β_t 或 (1-ᾱ_{t-1})/(1-ᾱ_t)·β_t，两者效果相近）。

关键问题：如何训练 μ_θ 以逆转扩散过程？ 这需要推导训练目标。

2. 变分下界的推导与分解

训练目标是最大化数据对数似然 log p_θ(x_0) 的变分下界（VLB）：

$E_{q (x_{0})} [- lo g p_{θ} (x_{0})] \leq E_{q} [- lo g p (x_{T}) - \sum_{t \geq 1} lo g \frac{p _{θ} ( x _{t - 1} ∣ x _{t} )}{q ( x _{t} ∣ x _{t - 1} )}] =: L$

经过代数变换，将 VLB 分解为三个可解释的 KL 散度项：

$L = L_{T} : 先验匹配 D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T})) + \sum_{t = 2}^{T} L_{t - 1} : 去噪匹配 D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - L_{0} : 解码 lo g p_{θ} (x_{0} ∣ x_{1})$

其中最关键的是 L_{t-1} 项——将学习问题从”预测前向过程的逆”转化为”匹配真实后验 q(x_{t-1}|x_t, x_0)”。

真实后验的闭式解：利用贝叶斯规则和前向过程的性质，可得：

$q (x_{t - 1} ∣ x_{t}, x_{0}) = N (x_{t - 1}; \tilde{μ}_{t} (x_{t}, x_{0}), \tilde{β}_{t} I)$

其中： $\tilde{μ}_{t} (x_{t}, x_{0}) = \frac{α ˉ _{t - 1} β _{t}}{1 - α ˉ _{t}} x_{0} + \frac{α _{t} ( 1 - α ˉ _{t - 1} )}{1 - α ˉ _{t}} x_{t}$

$\tilde{β}_{t} = \frac{1 - α ˉ _{t - 1}}{1 - α ˉ _{t}} β_{t}$

于是每个 L_{t-1} 项变成两个高斯分布之间的 KL 散度，可闭式计算。

3. 重参数化：预测噪声而非均值（核心创新）

将 μ_θ 参数化为预测 μ̃_t 是一种自然选择，但 DDPM 发现了一个更好的方案。

三种可能的参数化方式（按效果从劣到优排列）：

参数化	预测目标	问题
直接预测 x_0	$\overset{x}{^}_{0} = f_{θ} (x_{t}, t)$	在 t 接近 T 时，x_t 几乎是纯噪声，预测 x_0 极不稳定
预测 μ̃_t	$μ_{θ} = f_{θ} (x_{t}, t)$	均值预测的损失面不平滑，收敛慢
预测噪声 ε（DDPM 选择）	$ε_{θ} (x_{t}, t)$	目标 ε 始终来自 N(0,I)，尺度稳定，损失面平滑

噪声预测参数化的数学形式。将 x_0 用 x_t 和 ε 表示： $x_{0} = \frac{1}{α ˉ _{t}} (x_{t} - 1 - \overset{α}{ˉ}_{t} ε)$ ，代入 μ̃_t 公式得：

$μ_{θ} (x_{t}, t) = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α ˉ _{t}} ε_{θ} (x_{t}, t))$

此时 L_{t-1} 的 KL 散度简化为：

$L_{t - 1} = \frac{β _{t}^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α ˉ _{t} )} ∥ ε - ε_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ε, t) ∥^{2}$

4. 简化训练目标 L_simple——“魔鬼在权重里”

DDPM 最关键的实验发现是：去掉 VLB 中 t 相关的权重系数，使用不加权的 MSE 目标，样本质量反而大幅提升。

$L_{simple} (θ) = E_{t, x_{0}, ε} [∥ ε - ε_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ε, t) ∥^{2}]$

其中 t 在 {1, …, T} 中均匀采样。

为什么 L_simple 更好？ VLB 中的权重 $\frac{β _{t}^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α ˉ _{t} )}$ 随 t 剧烈变化：小 t（噪声很少）时权重极大，大 t（噪声很大）时权重极小。L_simple 的均匀权重相当于：

下调小 t 的权重：小 t 时去噪任务过于简单（几乎只需复制输入），不应主导训练
上调大 t 的权重：大 t 时的去噪才是真正困难的生成任务

这一发现深刻影响了后续所有扩散模型——L_simple 成为训练扩散模型的事实标准，包括 Stable Diffusion、FLUX、DALL-E 等。

5. 训练与采样算法

完整的训练与采样流程可以形式化地描述如下：

训练算法（重复直到收敛）：

采样数据点 $x_{0} \sim q (x_{0})$
采样时间步 $t \sim Uniform ({1, ..., T})$
采样噪声 $ε \sim N (0, I)$
前向加噪： $x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ε$
梯度下降： $\nabla_{θ} ∥ ε - ε_{θ} (x_{t}, t) ∥^{2}$

采样算法（生成图像）：

$x_{T} \sim N (0, I)$
对于 t = T, T-1, …, 1：
- 采样 $z \sim N (0, I)$ （当 t > 1，否则 z = 0）
- $x_{t - 1} = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α ˉ _{t}} ε_{θ} (x_{t}, t)) + σ_{t} z$
输出 $x_{0}$

Figure 2: DDPM 的马尔可夫链结构。前向过程 q（右→左）逐步加噪 x_0 → x_T，反向过程 p（左→右）逐步去噪 x_T → x_0，每步是一个高斯变换。训练时只需采样 t 和 ε 直接计算 x_t；采样时需迭代 T 步。

6. 网络架构：U-Net 的扩散适配

DDPM 使用基于 U-Net 的主干网络，针对扩散任务做了若干关键适配：

组件	设计选择	原因
主干	U-Net（类似 unmasked PixelCNN++）	多尺度特征对去噪至关重要（大尺度结构 + 细粒度纹理）
归一化	Group Normalization（32组）	比 Batch Norm 更适合小 batch 训练
注意力	在 16×16 分辨率处插入自注意力层	全局一致性对生成质量关键（如对称性、结构连贯性）
时间嵌入	Transformer 式正弦位置编码	将离散时间步 t 映射为连续向量，注入每层的特征图
参数共享	所有时间步共享同一网络	用时间嵌入区分不同 t，大幅减少参数量
上采样/下采样	带残差连接的卷积	保持信息流动，避免梯度消失
激活函数	SiLU (Swish)	比 ReLU 平滑，利于梯度传播

时间步 t 的嵌入通过与每层特征图相加（或 FiLM 调制）注入网络，这使得单个网络能够处理从几乎无噪声（t≈1）到纯噪声（t≈T）的全部去噪难度范围。

7. 与 Score Matching 和 Langevin Dynamics 的理论联系

DDPM 建立了扩散模型与两个独立理论框架之间的深刻联系：

与 Denoising Score Matching 的联系： Score Matching 学习数据分布的得分函数 $\nabla_{x} lo g p (x)$ 。在扩散模型中，ε-预测与得分函数存在精确对应：

$\nabla_{x_{t}} lo g q (x_{t} ∣ x_{0}) = - \frac{ε}{1 - α ˉ _{t}}$

因此 $ε_{θ} (x_{t}, t)$ 本质上是在预测（缩放的）得分函数。DDPM 的 L_simple 与 Denoising Score Matching 的损失函数等价（仅差一个常数因子）。

与 Langevin Dynamics 的联系：采样过程 $x_{t - 1} = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α ˉ _{t}} ε_{θ}) + σ_{t} z$ 在连续极限下退化为 Langevin 动力学：

$d x = - \frac{1}{2} \nabla_{x} U (x) d t + d W_{t}$

这意味着扩散模型的采样过程可以理解为在数据分布的”势能面”上执行退火 Langevin 动力学——从高温（大噪声）逐步降温，最终落入数据分布的典型样本区域。

这两个理论联系解释了扩散模型的优异生成质量：ε-预测参数化将复杂的生成问题转化为简单的去噪问题，而 Langevin 动力学的退火性质则保证了采样过程的稳定性。

实验/评估/结果

生成质量

CIFAR10 无条件生成：

IS（Inception Score）：9.46 —— 超越多数条件生成模型
FID：3.17 —— state-of-the-art，超越当时的大多数无条件模型
使用 L_simple 训练的模型显著优于使用完整变分下界训练的模型

CelebA-HQ 256x256：生成质量与 ProgressiveGAN 相当。

LSUN 256x256：Church 类别 FID = 7.89。

消融实验：参数化与目标函数

参数化	目标函数	IS	FID
μ̃ 预测	L, fixed Σ	8.06	13.22
ε 预测	L, fixed Σ	7.67	13.51
ε 预测	L_simple	9.46	3.17

关键发现：

ε-预测 + L_simple 的组合远优于其他选项
学习方差（learned Σ）导致训练不稳定
预测 x_0 效果较差

渐进式有损压缩

超过一半的 lossless codelength 描述了人眼不可察觉的图像细节（RMSE = 0.95 on 0-255 scale）
扩散模型的采样过程天然可解释为一种渐进式解码，与自回归解码共享相似的位序结构
提出了一种利用扩散模型进行渐进式有损压缩的算法

结论

DDPM 首次证明扩散模型能够生成高质量图像样本，并建立了扩散模型与变分推断、去噪得分匹配、退火 Langevin 动力学、自回归模型和渐进式有损压缩之间的理论联系。扩散模型对图像数据具有优良的归纳偏置，作者期待其在其他数据模态中也能发挥作用。

思考

优点

理论与实践的完美结合：从非平衡热力学出发，经过严谨的数学推导，得出简洁优美的 ε-预测+L_simple 方案，理论和实验高度一致。
开创性贡献：DDPM 是扩散模型领域的奠基性工作。从 2020 年至今，几乎所有扩散模型（Stable Diffusion、DALL-E 2、FLUX 等）都建立在 DDPM 的框架之上。L_simple 目标已成为扩散模型训练的事实标准。
洞察深刻：“噪声预测 v.s. 均值预测”的分析非常精妙。预测噪声不仅使训练目标简化，还建立了与 score matching 的理论联系，这是连接扩散模型和能量模型的桥梁。
实验严谨：详细的消融实验验证了每个设计选择的必要性——参数化方式、学习率、目标函数权重。
率失真分析：对扩散模型压缩行为的分析角度独特，揭示了模型将大量码率用于不可察觉细节的有趣现象。

缺点与局限

采样速度慢：T=1000 步的串行采样过程极为缓慢，生成一张图可能需要数分钟。这使得 DDPM 在实时应用中不可行。虽然后来的 DDIM 等方法解决了这个问题，但这是 DDPM 的内在局限。
对数似然不具竞争力：与自回归模型等基于似然的生成模型相比，DDPM 的 log-likelihood 明显较差，意味着在无损压缩任务上不占优。
小型数据集的验证：实验主要在 CIFAR10（32x32）、LSUN（256x256）、CelebA-HQ（256x256）上进行，与后来在 LAION 等大规模数据集上的工作相比，其泛化能力的边界不明确。
Variance schedule 恒定性：β_t 被设为常量（无学习），但后来的工作证明学习 β_t 或使用 cosine schedule 能进一步提升性能。

与已有 Wiki 的连接

关联概念：扩散模型、Score Matching、Langevin Dynamics、变分推断、U-Net
关联实体：DDPM、DDIM、Stable Diffusion
关联论文：Flow Matching（Flow Matching 是扩散模型的泛化）
关联比较：扩散模型架构比较 UNet vs DiT

Blog1

探索