FLUX

简介

FLUX（也称 FLUX.1）是 Black Forest Labs（BFL，Stable Diffusion 原团队）于 2024 年发布的文本到图像生成模型系列。它基于 Flow Matching 和 DiT（Diffusion Transformer） 架构，在图像质量和 prompt 跟随方面显著超越了当时的 SD3 和 Midjourney，成为 2024 年下半年最受关注的开源图像生成模型之一。

BFL 团队包括 Robin Rombach、Andreas Blattmann 等 Stable Diffusion 的核心作者，FLUX 可以看作是他们离开 Stability AI 后的”重做版”——吸收了 Diffusion 社区的全部经验教训，从零构建。

技术架构

Flow Matching Backbone

采用 rectified flow 的 ODE 路径（从噪声到图像的直线插值）
相比 DDPM 的随机微分方程，Flow 路径步数更少、训练更稳定

DiT Backbone

使用标准的 DiT 架构作为去噪网络
条件注入方式：T5 文本编码器 + CLIP 文本编码器的双文本条件
相比 SD3 的 MMDiT（多模态 DiT），FLUX 的设计更简洁

双文本编码器

T5-XXL：提供深层语义理解
CLIP-L：提供视觉-语言对齐
双编码器配合：CLIP 提供粗略的语义对齐，T5 提供精细的文本理解

模型变体

变体	定位	特点
FLUX.1 [pro]	商用 API	最高质量，通过 API 访问
FLUX.1 [dev]	开源研究	非商用许可，蒸馏版
FLUX.1 [schnell]	快速推理	Apache 2.0 开源，4 步采样，速度极快

FLUX.1 Kontext

FLUX 的一个扩展方向：通过序列拼接将参考图像和编辑指令同时输入 DiT，实现上下文感知的 in-context 图像编辑。不需要额外控制网络（如 ControlNet），编辑质量高且架构统一。

关键特性：

参考图像 + 文本指令 → 编辑图像
支持多图参考、风格迁移、ID 保持等多种任务
来源：FLUX.1 Kontext 上下文编辑

FLUX 的定位与影响

相比 SD3

SD3 的发布遭遇了严重的人体结构生成问题（争议很大）
FLUX 解决了这些问题（prompt 跟随、人体结构、文字渲染）
但 FLUX [dev] 的非商用许可限制了其开源生态的扩展

相比 Seedream 系列

Seedream 2.0/3.0 在中英双语、美学质量上有独特优势
FLUX 在开源社区的渗透更深（大量社区 LoRA 和 ControlNet 变体）
Seedream 4.0 的多模态统一能力是 FLUX 尚不具备的

相比 Midjourney

Midjourney 是闭源美学之王，FLUX 是开源技术标杆
FLUX 的技术透明性使其成为研究社区的首选 backbone

开源生态

FLUX 催生了庞大的社区生态：

大量社区训练的 LoRA（角色、风格、概念）
多种 ControlNet 变体
视频生成扩展（AnimateDiff FLUX 等）
ComfyUI 优先支持

与已有 Wiki 的连接

关联概念：Flow Matching、DiT 扩散 Transformer、扩散模型原理
关联实体：Seedream 系列模型
所在主题：扩散模型与 Flow Matching 基础

批判性评估

FLUX 的真正创新是”重新做的勇气”

FLUX 架构上并没有根本性突破——Flow Matching 来自 Meta，DiT 来自 Peebles & Xie。但 BFL 团队的价值在于：(1) 有了 SD 系列的全部经验教训，(2) 不受 Stability AI 内部政治和商业压力的影响，(3) 从零重新设计训练配方。

FLUX 告诉我们一个道理：在 AI 领域，有时候”知道不要做什么”比”发明新东西”更重要。

开源策略的两难

FLUX [dev] 的非商用许可（非 Apache 2.0）限制了其成为”行业标准 backbone”。相比之下，Seedream 4.0、SD3 Medium 等 Apache 2.0 模型在商业部署上更有吸引力。FLUX 在”开源影响力”和”商业可持续性”之间的张力，是所有开源 AI 公司面临的经典困境。

从 SD 到 FLUX 的产业启示

SD 团队离开 Stability AI 后创建的 FLUX 反而超越了 SD3，这是一个耐人寻味的”分叉叙事”：有时创新不是来自持续积累，而是来自放下包袱重新开始。FLUX 在 2024 年下半年的成功，某种程度上也是对 Stability AI 管理混乱的间接批评。

Blog1

探索

FLUX

FLUX

简介

技术架构

Flow Matching Backbone

DiT Backbone

双文本编码器

模型变体

FLUX.1 Kontext

FLUX 的定位与影响

相比 SD3

相比 Seedream 系列

相比 Midjourney

开源生态

与已有 Wiki 的连接

批判性评估

FLUX 的真正创新是”重新做的勇气”

开源策略的两难

从 SD 到 FLUX 的产业启示

关系图谱

目录

反向链接