FLUX

简介

FLUX(也称 FLUX.1)是 Black Forest Labs(BFL,Stable Diffusion 原团队)于 2024 年发布的文本到图像生成模型系列。它基于 Flow MatchingDiT(Diffusion Transformer) 架构,在图像质量和 prompt 跟随方面显著超越了当时的 SD3 和 Midjourney,成为 2024 年下半年最受关注的开源图像生成模型之一。

BFL 团队包括 Robin Rombach、Andreas Blattmann 等 Stable Diffusion 的核心作者,FLUX 可以看作是他们离开 Stability AI 后的”重做版”——吸收了 Diffusion 社区的全部经验教训,从零构建。

技术架构

Flow Matching Backbone

  • 采用 rectified flow 的 ODE 路径(从噪声到图像的直线插值)
  • 相比 DDPM 的随机微分方程,Flow 路径步数更少、训练更稳定

DiT Backbone

  • 使用标准的 DiT 架构作为去噪网络
  • 条件注入方式:T5 文本编码器 + CLIP 文本编码器的双文本条件
  • 相比 SD3 的 MMDiT(多模态 DiT),FLUX 的设计更简洁

双文本编码器

  • T5-XXL:提供深层语义理解
  • CLIP-L:提供视觉-语言对齐
  • 双编码器配合:CLIP 提供粗略的语义对齐,T5 提供精细的文本理解

模型变体

变体定位特点
FLUX.1 [pro]商用 API最高质量,通过 API 访问
FLUX.1 [dev]开源研究非商用许可,蒸馏版
FLUX.1 [schnell]快速推理Apache 2.0 开源,4 步采样,速度极快

FLUX.1 Kontext

FLUX 的一个扩展方向:通过序列拼接将参考图像和编辑指令同时输入 DiT,实现上下文感知的 in-context 图像编辑。不需要额外控制网络(如 ControlNet),编辑质量高且架构统一。

关键特性:

FLUX 的定位与影响

相比 SD3

  • SD3 的发布遭遇了严重的人体结构生成问题(争议很大)
  • FLUX 解决了这些问题(prompt 跟随、人体结构、文字渲染)
  • 但 FLUX [dev] 的非商用许可限制了其开源生态的扩展

相比 Seedream 系列

  • Seedream 2.0/3.0 在中英双语、美学质量上有独特优势
  • FLUX 在开源社区的渗透更深(大量社区 LoRA 和 ControlNet 变体)
  • Seedream 4.0 的多模态统一能力是 FLUX 尚不具备的

相比 Midjourney

  • Midjourney 是闭源美学之王,FLUX 是开源技术标杆
  • FLUX 的技术透明性使其成为研究社区的首选 backbone

开源生态

FLUX 催生了庞大的社区生态:

  • 大量社区训练的 LoRA(角色、风格、概念)
  • 多种 ControlNet 变体
  • 视频生成扩展(AnimateDiff FLUX 等)
  • ComfyUI 优先支持

与已有 Wiki 的连接

批判性评估

FLUX 的真正创新是”重新做的勇气”

FLUX 架构上并没有根本性突破——Flow Matching 来自 Meta,DiT 来自 Peebles & Xie。但 BFL 团队的价值在于:(1) 有了 SD 系列的全部经验教训,(2) 不受 Stability AI 内部政治和商业压力的影响,(3) 从零重新设计训练配方。

FLUX 告诉我们一个道理:在 AI 领域,有时候”知道不要做什么”比”发明新东西”更重要

开源策略的两难

FLUX [dev] 的非商用许可(非 Apache 2.0)限制了其成为”行业标准 backbone”。相比之下,Seedream 4.0、SD3 Medium 等 Apache 2.0 模型在商业部署上更有吸引力。FLUX 在”开源影响力”和”商业可持续性”之间的张力,是所有开源 AI 公司面临的经典困境。

从 SD 到 FLUX 的产业启示

SD 团队离开 Stability AI 后创建的 FLUX 反而超越了 SD3,这是一个耐人寻味的”分叉叙事”:有时创新不是来自持续积累,而是来自放下包袱重新开始。FLUX 在 2024 年下半年的成功,某种程度上也是对 Stability AI 管理混乱的间接批评。