扩散模型原理
概述
扩散模型是一类基于马尔可夫链的隐变量生成模型,灵感来自非平衡热力学。其核心思想分为两个过程:(1) 固定的前向过程逐步向数据添加噪声;(2) 学得的反向过程从噪声逐步恢复数据。
前向过程(扩散过程)
- 固定马尔可夫链:
- 是预设的噪声方差调度(variance schedule),通常线性递增。
- 关键性质:任意时间步 可从干净数据 以闭式直接采样: ,其中 ,。
反向过程(去噪过程)
- 学得的参数化 Markov 链:
- 训练目标为变分下界(ELBO),DDPM 简化等价于去噪分数匹配:
- 采样时从高斯噪声 出发,逐步去噪 步得到 。
噪声调度
- 的选择直接影响生成质量:噪声添加过快会导致信号丢失,过慢导致训练低效。
- 常见调度:线性调度(DDPM 原文)、余弦调度(IDDPM 改进)。
- log-SNR 是统一描述噪声程度的核心量。
与 Flow Matching 的关系
- Flow Matching 将扩散模型视为其特殊情形(扩散条件概率路径)。
- FM 的 Diffusion 路径:VP 路径恢复为 的均值和 的标准差。
- DDPM 的 -预测等价于 score matching,FM 的 -预测等价于向量场回归。
- 核心洞察:FM 不必从 SDE 推导概率路径,可直接设计 和 。
从 DDPM 到现代生成模型
| 发展 | 核心创新 |
|---|---|
| DDPM (2020) | 奠基:前向/反向过程、简化目标 |
| DDIM (2021) | 确定性采样、采样加速 |
| LDM (2022) | 潜在空间扩散,大幅降低计算 |
| DiT (2023) | Transformer 替代 U-Net 主干 |
| Flow Matching (2023) | 统一框架,OT 路径更高效 |
| Rectified Flow (2024) | 直线路径,1-step 生成 |
| FLUX / SD3 (2024) | 工业级 rectified flow MMDiT |
| Seedream 系列 (2025) | 双语、多模态、推理加速的 flow matching 模型 |