Seedream 4.0

核心结论

Seedream 4.0 是从文生图迈向多模态图像生成的重大跃迁：统一 T2I、图像编辑和多图合成于单一框架。通过高效 DiT backbone 和高压缩 VAE，实现训练和推理算力相对 Seedream 3.0 提升 10 倍以上，同时性能大幅提升。引入 VLM 驱动的多模态后训练联合优化 T2I 和编辑任务。加速方面整合对抗蒸馏、分布匹配、量化和推测解码（speculative decoding），2K 图像推理仅需 1.4 秒（不含 PE）。Artificial Analysis Arena 在 T2I 和图像编辑双赛道排名第一。Seedream 4.5 通过进一步扩大模型和数据在所有维度超越 4.0。

关键方法

高效架构：
- 高效 DiT backbone：大幅增加模型容量同时降低训练/推理 FLOPs。
- 高压缩 VAE：显著减少 latent token 数量，支持原生 1K-4K 生成。
预训练数据升级：
- 知识数据专项设计：分类自然/合成知识数据，难度分级采样。
- 模块级升级：文本质量分类器、语义+低层视觉联合去重、精细化标注、更强跨模态检索嵌入。
多模态联合后训练：
- 基于 SeedEdit 3.0 架构扩展，CT → SFT → RLHF 联合训练 T2I + 单图编辑 + 多图参考/输出。
- VLM (Seed1.5-VL) 作为 PE 模型：任务路由、自动思考 prompt 改写、最优宽高比估计。
推理加速体系：
- Adversarial Distillation Post-training (ADP)：混合判别器确保稳定初始化。
- Adversarial Distribution Matching (ADM)：可学习扩散判别器细粒度匹配。
- 硬件感知 4/8-bit 混合量化。
- 推测解码加速 PE 模型。
新能力：
- 精确编辑、灵活参考生成、视觉信号可控、上下文推理生成、多图输入/输出、多图合成。
- 高级文本渲染：公式、图表、UI 设计。
- 自适应宽高比与 4K 输出。

与现有 Wiki 的关系

系列终结（当前）：Seedream 系列模型
流程匹配基础：Flow Matching
编辑能力评估：扩散模型图像编辑与生成
加速框架 Hyper-SD / RayFlow / APT / ADM 集成

可能的矛盾或待核实点

Seedream 4.0 统一了生成和编辑，与 FLUX.1 Kontext 类似但任务覆盖更广（多图、推理生成）。
多图编辑中其他模型（GPT-Image-1）指令遵循更强但一致性弱，这是编辑领域的核心 trade-off。

后续问题

4.5 版本展现进一步缩放潜力，架构可扩展性验证成功。
推理生成（in-context reasoning）能力的边界尚待探索。

Blog1

探索

Seedream 4.0: Toward Next-generation Multimodal Image Generation