Seedream 系列模型

概述

Seedream 是字节跳动 Seed 团队开发的中英双语图像生成基础模型系列，从 2.0 到 4.0（含 4.5），经历了从 T2I 专用模型到多模态生成统一框架的演进。三条核心路线贯穿始终：中英双语文化理解、flow matching + MMDiT 架构、工业级推理加速。

版本演进

Seedream 2.0 (2025 年初)

定位：原生中英双语图像生成基础模型。
核心创新：
- 自研双语 LLM 作为文本编码器，原生学习中文文化知识。
- Glyph-Aligned ByT5 实现字符级文本渲染。
- Scaled RoPE 泛化到未训练分辨率。
- 多阶段后训练：CT → SFT → RLHF → PE → Refiner。
局限：仍需 Refiner 超分处理高分辨率；严格数据过滤损失 35% 潜在训练数据。

Seedream 3.0 (2025 年 4 月)

定位：全面能力提升 + 工业部署。
核心创新：
- 缺陷感知训练范式（扩大 21.7% 有效数据）。
- 双轴协同数据采样（视觉+语义）。
- 混合分辨率训练 + 跨模态 RoPE + REPA 对齐损失 + 分辨率感知时间步采样。
- VLM 驱动的奖励模型（展现缩放效应）。
- 一致噪声期望 + 重要性采样实现 4-8 倍加速。
- 原生 2K 输出，1K 推理 3.0 秒。
关键突破：文本渲染 94% 可用率（中文+16%），照片级真实感肖像与 Midjourney 并列第一。
部署：接入豆包、即梦，Artificial Analysis Arena ELO 1158 排名第一。

Seedream 4.0 (2025 年 9 月)

定位：多模态图像生成统一框架（T2I + 编辑 + 多图合成）。
核心创新：
- 重新设计的 DiT backbone + 高压缩 VAE，算力效率提升 10 倍以上。
- 知识数据专业处理（PDF 公式、图表等）。
- 多模态联合后训练：CT → SFT → RLHF 同时优化 T2I 和编辑。
- VLM (Seed1.5-VL) 作为 PE 模型：任务路由、自动思考、自适应宽高比。
- 加速体系：ADP + ADM + 混合量化 + 推测解码 → 2K 推理 1.4 秒。
新增能力：精确编辑、灵活参考、视觉信号控制、上下文推理、多图输入/输出（>10 张）、自适应宽高比 4K。
性能：Artificial Analysis Arena T2I 和图像编辑双赛道第一。

Seedream 4.5

进一步扩大模型和数据，在所有维度超越 4.0，特别是编辑一致性和密集文本排版。

技术演进主线

维度	2.0	3.0	4.0
任务范围	T2I	T2I	T2I + 编辑 + 多图
架构	MMDiT	MMDiT (更大)	重新设计的 DiT + 高压缩 VAE
文本编码	双语 LLM + ByT5	继承 2.0	VLM 驱动的 PE 模型
后训练	CT+SFT+RLHF+PE	继承 + VLM 奖励模型	多模态联合后训练
最高分辨率	需 Refiner 超分	原生 2K	原生 4K
推理速度	量化减半	3.0s @ 1K	1.4s @ 2K
特色能力	中文文本渲染	照片级肖像、密集文本	多图编辑、推理生成
加速方法	量化	轨迹定制 + 重要性采样	ADP+ADM+量化+推测解码

核心架构共性

均基于 Flow Matching (rectified flow) 训练目标： $L = E_{t, x_{0}, ϵ} ∥ v_{θ} (x_{t}, t) - (ϵ - x_{0}) ∥_{2}^{2}$
均采用 MMDiT 架构（双流+单流混合 attenion blocks）
均经过 CT → SFT → RLHF → PE 后训练管线

竞争对比

vs FLUX/SD3：Seedream 中文理解和文本渲染显著更优。
vs Midjourney：Seedream 3.0+ 在提示对齐和结构正确性上领先，美学上追赶。
vs GPT-4o：Seedream 中文文本渲染和图像质量更优，GPT-4o 英文密集文本和 LaTeX 有优势。
vs Gemini 2.5 Flash：Seedream 编辑一致性更强。

相关主题