OminiControl: Minimal and Universal Control for Diffusion Transformer

新加坡国立大学 (NUS),2024。

核心结论

  • 重新思考图像条件如何集成到 Diffusion Transformer (DiT) 架构。
  • 三大创新:(1) 极简架构:仅 0.1% 额外参数,利用 DiT 自身 VAE encoder + transformer blocks;(2) 统一序列处理:条件 token 与图像 token 统一处理;(3) 动态位置编码:适配空间对齐和非对齐控制任务。
  • 引入 Subjects200K 数据集:用 DiT 自身合成的身份一致性图像对。

与 ControlNet 的对比

维度ControlNetOminiControl
基座UNet (SD)DiT
额外参数较多(复制编码器)0.1%
控制类型空间条件为主空间 + 主体驱动
设计哲学锁定 + 复制融入已有架构

历史意义

  • 代表了从 UNet-based ControlNet 到 DiT-based 控制的架构演进
  • 与 SD3/FLUX 等 DiT 架构的普及同步
  • “Minimal but universal” 的设计哲学影响后续工作

与现有 Wiki 的关系