Seedream 4.0

核心结论

Seedream 4.0 是从文生图迈向多模态图像生成的重大跃迁:统一 T2I、图像编辑和多图合成于单一框架。通过高效 DiT backbone 和高压缩 VAE,实现训练和推理算力相对 Seedream 3.0 提升 10 倍以上,同时性能大幅提升。引入 VLM 驱动的多模态后训练联合优化 T2I 和编辑任务。加速方面整合对抗蒸馏、分布匹配、量化和推测解码(speculative decoding),2K 图像推理仅需 1.4 秒(不含 PE)。Artificial Analysis Arena 在 T2I 和图像编辑双赛道排名第一。Seedream 4.5 通过进一步扩大模型和数据在所有维度超越 4.0。

关键方法

  1. 高效架构

    • 高效 DiT backbone:大幅增加模型容量同时降低训练/推理 FLOPs。
    • 高压缩 VAE:显著减少 latent token 数量,支持原生 1K-4K 生成。
  2. 预训练数据升级

    • 知识数据专项设计:分类自然/合成知识数据,难度分级采样。
    • 模块级升级:文本质量分类器、语义+低层视觉联合去重、精细化标注、更强跨模态检索嵌入。
  3. 多模态联合后训练

    • 基于 SeedEdit 3.0 架构扩展,CT SFT RLHF 联合训练 T2I + 单图编辑 + 多图参考/输出。
    • VLM (Seed1.5-VL) 作为 PE 模型:任务路由、自动思考 prompt 改写、最优宽高比估计。
  4. 推理加速体系

    • Adversarial Distillation Post-training (ADP):混合判别器确保稳定初始化。
    • Adversarial Distribution Matching (ADM):可学习扩散判别器细粒度匹配。
    • 硬件感知 4/8-bit 混合量化。
    • 推测解码加速 PE 模型。
  5. 新能力

    • 精确编辑、灵活参考生成、视觉信号可控、上下文推理生成、多图输入/输出、多图合成。
    • 高级文本渲染:公式、图表、UI 设计。
    • 自适应宽高比与 4K 输出。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • Seedream 4.0 统一了生成和编辑,与 FLUX.1 Kontext 类似但任务覆盖更广(多图、推理生成)。
  • 多图编辑中其他模型(GPT-Image-1)指令遵循更强但一致性弱,这是编辑领域的核心 trade-off。

后续问题

  • 4.5 版本展现进一步缩放潜力,架构可扩展性验证成功。
  • 推理生成(in-context reasoning)能力的边界尚待探索。