Seedream 系列模型

概述

Seedream 是字节跳动 Seed 团队开发的中英双语图像生成基础模型系列,从 2.0 到 4.0(含 4.5),经历了从 T2I 专用模型到多模态生成统一框架的演进。三条核心路线贯穿始终:中英双语文化理解、flow matching + MMDiT 架构、工业级推理加速。

版本演进

Seedream 2.0 (2025 年初)

  • 定位:原生中英双语图像生成基础模型。
  • 核心创新
    • 自研双语 LLM 作为文本编码器,原生学习中文文化知识。
    • Glyph-Aligned ByT5 实现字符级文本渲染。
    • Scaled RoPE 泛化到未训练分辨率。
    • 多阶段后训练:CT SFT RLHF PE Refiner。
  • 局限:仍需 Refiner 超分处理高分辨率;严格数据过滤损失 35% 潜在训练数据。

Seedream 3.0 (2025 年 4 月)

  • 定位:全面能力提升 + 工业部署。
  • 核心创新
    • 缺陷感知训练范式(扩大 21.7% 有效数据)。
    • 双轴协同数据采样(视觉+语义)。
    • 混合分辨率训练 + 跨模态 RoPE + REPA 对齐损失 + 分辨率感知时间步采样。
    • VLM 驱动的奖励模型(展现缩放效应)。
    • 一致噪声期望 + 重要性采样实现 4-8 倍加速。
    • 原生 2K 输出,1K 推理 3.0 秒。
  • 关键突破:文本渲染 94% 可用率(中文+16%),照片级真实感肖像与 Midjourney 并列第一。
  • 部署:接入豆包、即梦,Artificial Analysis Arena ELO 1158 排名第一。

Seedream 4.0 (2025 年 9 月)

  • 定位:多模态图像生成统一框架(T2I + 编辑 + 多图合成)。
  • 核心创新
    • 重新设计的 DiT backbone + 高压缩 VAE,算力效率提升 10 倍以上。
    • 知识数据专业处理(PDF 公式、图表等)。
    • 多模态联合后训练:CT SFT RLHF 同时优化 T2I 和编辑。
    • VLM (Seed1.5-VL) 作为 PE 模型:任务路由、自动思考、自适应宽高比。
    • 加速体系:ADP + ADM + 混合量化 + 推测解码 2K 推理 1.4 秒。
  • 新增能力:精确编辑、灵活参考、视觉信号控制、上下文推理、多图输入/输出(>10 张)、自适应宽高比 4K。
  • 性能:Artificial Analysis Arena T2I 和图像编辑双赛道第一。

Seedream 4.5

  • 进一步扩大模型和数据,在所有维度超越 4.0,特别是编辑一致性和密集文本排版。

技术演进主线

维度2.03.04.0
任务范围T2IT2IT2I + 编辑 + 多图
架构MMDiTMMDiT (更大)重新设计的 DiT + 高压缩 VAE
文本编码双语 LLM + ByT5继承 2.0VLM 驱动的 PE 模型
后训练CT+SFT+RLHF+PE继承 + VLM 奖励模型多模态联合后训练
最高分辨率需 Refiner 超分原生 2K原生 4K
推理速度量化减半3.0s @ 1K1.4s @ 2K
特色能力中文文本渲染照片级肖像、密集文本多图编辑、推理生成
加速方法量化轨迹定制 + 重要性采样ADP+ADM+量化+推测解码

核心架构共性

  • 均基于 Flow Matching (rectified flow) 训练目标:
  • 均采用 MMDiT 架构(双流+单流混合 attenion blocks)
  • 均经过 CT SFT RLHF PE 后训练管线

竞争对比

  • vs FLUX/SD3:Seedream 中文理解和文本渲染显著更优。
  • vs Midjourney:Seedream 3.0+ 在提示对齐和结构正确性上领先,美学上追赶。
  • vs GPT-4o:Seedream 中文文本渲染和图像质量更优,GPT-4o 英文密集文本和 LaTeX 有优势。
  • vs Gemini 2.5 Flash:Seedream 编辑一致性更强。

相关主题