ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

Stanford,2023。可控生成的里程碑工作

核心结论

  • 提出 ControlNet 架构,为大规模预训练扩散模型添加空间条件控制(边缘、深度、分割、姿态等)。
  • 锁定预训练模型权重,复用其深度编码层作为骨干,训练可训练副本 + 零卷积(zero convolution) 逐步从零增长参数。
  • 支持小数据集(<50K)和大数据集(>1M)训练,鲁棒性强。
  • 支持单条件、多条件、有/无文本 prompt。

关键设计

Zero Convolution

  • 初始化为零的 1×1 卷积层
  • 训练初期不引入噪声,参数从零逐步增长
  • 保护预训练权重的完整性

锁定 + 复制架构

  • 锁定原始 SD 编码器 → 保留大规模预训练知识
  • 复制可训练副本 → 学习条件控制信号
  • 零卷积连接副本到原始解码器

支持的条件类型

Canny 边缘、HED 边界、深度图、法线图、人体姿态、语义分割、涂鸦等

历史地位

  • 被引超千次,成为扩散模型可控生成的标准范式
  • 催生了 T2I-Adapter、IP-Adapter、UniControl 等大量后续工作
  • ControlNet 的 “锁定基座 + 轻量适配” 思路被 EmoEdit 的 Emotion adapter 等沿用

与现有 Wiki 的关系

  • 关联:扩散模型图像编辑与生成
  • EmoEdit 引用了 ControlNet 作为对比 baseline,Emotion adapter 的设计哲学类似(锁定基座,训练 adapter)
  • Step1X-Edit 等 MLLM 编辑方法也使用了类似的空间控制思路

局限性

  • 依赖预定义条件类型(边缘、深度等),无法处理抽象条件(情感、风格描述)
  • 每种条件需单独训练一个 ControlNet