扩散模型原理

概述

扩散模型是一类基于马尔可夫链的隐变量生成模型，灵感来自非平衡热力学。其核心思想分为两个过程：(1) 固定的前向过程逐步向数据添加噪声；(2) 学得的反向过程从噪声逐步恢复数据。

前向过程（扩散过程）

固定马尔可夫链： $q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I)$
${β_{t}}_{t = 1}^{T}$ 是预设的噪声方差调度（variance schedule），通常线性递增。
关键性质：任意时间步 $t$ 可从干净数据 $x_{0}$ 以闭式直接采样： $x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ$ ，其中 $α_{t} = 1 - β_{t}$ ， $\overset{α}{ˉ}_{t} = \prod_{s = 1}^{t} α_{s}$ 。

反向过程（去噪过程）

学得的参数化 Markov 链： $p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I)$
训练目标为变分下界（ELBO），DDPM 简化等价于去噪分数匹配： $L_{simple} = E_{t, x_{0}, ϵ} [∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$
采样时从高斯噪声 $x_{T} \sim N (0, I)$ 出发，逐步去噪 $T$ 步得到 $x_{0}$ 。

噪声调度

$β_{t}$ 的选择直接影响生成质量：噪声添加过快会导致信号丢失，过慢导致训练低效。
常见调度：线性调度（DDPM 原文）、余弦调度（IDDPM 改进）。
log-SNR $λ_{t} = lo g \frac{α ˉ _{t}}{1 - α ˉ _{t}}$ 是统一描述噪声程度的核心量。

与 Flow Matching 的关系

Flow Matching 将扩散模型视为其特殊情形（扩散条件概率路径）。
FM 的 Diffusion 路径：VP 路径恢复为 $α_{1 - t} x_{1}$ 的均值和 $1 - α_{1 - t}^{2}$ 的标准差。
DDPM 的 $ϵ$ -预测等价于 score matching，FM 的 $v$ -预测等价于向量场回归。
核心洞察：FM 不必从 SDE 推导概率路径，可直接设计 $μ_{t} (x_{1})$ 和 $σ_{t} (x_{1})$ 。

从 DDPM 到现代生成模型

发展	核心创新
DDPM (2020)	奠基：前向/反向过程、简化目标
DDIM (2021)	确定性采样、采样加速
LDM (2022)	潜在空间扩散，大幅降低计算
DiT (2023)	Transformer 替代 U-Net 主干
Flow Matching (2023)	统一框架，OT 路径更高效
Rectified Flow (2024)	直线路径，1-step 生成
FLUX / SD3 (2024)	工业级 rectified flow MMDiT
Seedream 系列 (2025)	双语、多模态、推理加速的 flow matching 模型