Seedream 4.0
核心结论
Seedream 4.0 是从文生图迈向多模态图像生成的重大跃迁:统一 T2I、图像编辑和多图合成于单一框架。通过高效 DiT backbone 和高压缩 VAE,实现训练和推理算力相对 Seedream 3.0 提升 10 倍以上,同时性能大幅提升。引入 VLM 驱动的多模态后训练联合优化 T2I 和编辑任务。加速方面整合对抗蒸馏、分布匹配、量化和推测解码(speculative decoding),2K 图像推理仅需 1.4 秒(不含 PE)。Artificial Analysis Arena 在 T2I 和图像编辑双赛道排名第一。Seedream 4.5 通过进一步扩大模型和数据在所有维度超越 4.0。
关键方法
-
高效架构:
- 高效 DiT backbone:大幅增加模型容量同时降低训练/推理 FLOPs。
- 高压缩 VAE:显著减少 latent token 数量,支持原生 1K-4K 生成。
-
预训练数据升级:
- 知识数据专项设计:分类自然/合成知识数据,难度分级采样。
- 模块级升级:文本质量分类器、语义+低层视觉联合去重、精细化标注、更强跨模态检索嵌入。
-
多模态联合后训练:
- 基于 SeedEdit 3.0 架构扩展,CT → SFT → RLHF 联合训练 T2I + 单图编辑 + 多图参考/输出。
- VLM (Seed1.5-VL) 作为 PE 模型:任务路由、自动思考 prompt 改写、最优宽高比估计。
-
推理加速体系:
- Adversarial Distillation Post-training (ADP):混合判别器确保稳定初始化。
- Adversarial Distribution Matching (ADM):可学习扩散判别器细粒度匹配。
- 硬件感知 4/8-bit 混合量化。
- 推测解码加速 PE 模型。
-
新能力:
- 精确编辑、灵活参考生成、视觉信号可控、上下文推理生成、多图输入/输出、多图合成。
- 高级文本渲染:公式、图表、UI 设计。
- 自适应宽高比与 4K 输出。
与现有 Wiki 的关系
- 系列终结(当前):Seedream 系列模型
- 流程匹配基础:Flow Matching
- 编辑能力评估:扩散模型图像编辑与生成
- 加速框架 Hyper-SD / RayFlow / APT / ADM 集成
可能的矛盾或待核实点
- Seedream 4.0 统一了生成和编辑,与 FLUX.1 Kontext 类似但任务覆盖更广(多图、推理生成)。
- 多图编辑中其他模型(GPT-Image-1)指令遵循更强但一致性弱,这是编辑领域的核心 trade-off。
后续问题
- 4.5 版本展现进一步缩放潜力,架构可扩展性验证成功。
- 推理生成(in-context reasoning)能力的边界尚待探索。