扩散模型原理

概述

扩散模型是一类基于马尔可夫链的隐变量生成模型,灵感来自非平衡热力学。其核心思想分为两个过程:(1) 固定的前向过程逐步向数据添加噪声;(2) 学得的反向过程从噪声逐步恢复数据。

前向过程(扩散过程)

  • 固定马尔可夫链:
  • 是预设的噪声方差调度(variance schedule),通常线性递增。
  • 关键性质:任意时间步 可从干净数据 以闭式直接采样: ,其中

反向过程(去噪过程)

  • 学得的参数化 Markov 链:
  • 训练目标为变分下界(ELBO),DDPM 简化等价于去噪分数匹配:
  • 采样时从高斯噪声 出发,逐步去噪 步得到

噪声调度

  • 的选择直接影响生成质量:噪声添加过快会导致信号丢失,过慢导致训练低效。
  • 常见调度:线性调度(DDPM 原文)、余弦调度(IDDPM 改进)。
  • log-SNR 是统一描述噪声程度的核心量。

与 Flow Matching 的关系

  • Flow Matching 将扩散模型视为其特殊情形(扩散条件概率路径)。
  • FM 的 Diffusion 路径:VP 路径恢复为 的均值和 的标准差。
  • DDPM 的 -预测等价于 score matching,FM 的 -预测等价于向量场回归。
  • 核心洞察:FM 不必从 SDE 推导概率路径,可直接设计

从 DDPM 到现代生成模型

发展核心创新
DDPM (2020)奠基:前向/反向过程、简化目标
DDIM (2021)确定性采样、采样加速
LDM (2022)潜在空间扩散,大幅降低计算
DiT (2023)Transformer 替代 U-Net 主干
Flow Matching (2023)统一框架,OT 路径更高效
Rectified Flow (2024)直线路径,1-step 生成
FLUX / SD3 (2024)工业级 rectified flow MMDiT
Seedream 系列 (2025)双语、多模态、推理加速的 flow matching 模型