Seedance 2.0: Advancing Video Generation for World Complexity

基本信息

  • 标题: Seedance 2.0: Advancing Video Generation for World Complexity
  • 作者: ByteDance Seed Team(Team Seedance,按姓氏字母序排列)
  • 机构: ByteDance(字节跳动)
  • 年份: 2026
  • arXiv: 2604.14148
  • 发布时间: 2026 年 2 月初在中国首发
  • 模型 ID: doubao-seedance-2-0-260128
  • 可用平台: 豆包、即梦、火山引擎

核心论点

  1. 从短片段到世界复杂性建模的范式转移:Seedance 2.0 标志着视频生成从”有限可控性的短视频片段”向”鲁棒、高可控、原生支持多模态信号的视频合成”的转变,核心目标是高保真重建真实世界复杂性。
  2. 统一多模态音视频联合生成架构:采用统一、高效、大规模的架构,支持文本、图像、音频、视频四种输入模态,是业界最全面的多模态内容参考与编辑能力套件之一。
  3. 运动质量与物理真实性的显著提升:在人体运动建模、物理规律遵循、复杂交互场景方面取得突破性进展,大幅减少结构畸变和视觉伪影。
  4. 音频能力的全面领先:原生双耳音频生成,支持多轨输出(背景音、环境音效、角色旁白),音视频精确时间对齐,方言、戏曲、歌唱等场景指令遵循准确率显著提升。
  5. 在所有评估维度全面领先竞品:在 SeedVideoBench 2.0 和 Arena.AI 排行榜上,T2V、I2V、R2V 三项任务的所有评估维度均排名第一。

关键技术方法

模型架构

  • 统一多模态音视频联合生成框架:继承并扩展 Seedance 1.5 的音视频同步生成能力,建立统一的多模态音视频联合生成架构。
  • 四种输入模态:文本、图像、音频、视频,支持单模态和组合输入。
  • 原生音频-视频联合生成:音频不是后处理添加,而是在生成过程中同步产出。

支持的生成能力

  • 参考生成:主体参考、运动参考、视觉特效参考、风格参考(图像/视频/音频多种输入形式)
  • 视频编辑:主体编辑、风格编辑、场景编辑、音频内容编辑
  • 视频续写与延展:情节续写、前向/后向时间线无缝延展
  • 组合任务:参考+编辑等复合工作流

生成规格

  • 时长:4-15 秒直接生成
  • 分辨率:原生 480p 和 720p 输出
  • 多模态参考输入上限:最多 3 个视频片段、9 张图像、3 个音频片段
  • 快速版本:提供 Seedance 2.0 Fast 变体,面向低延迟场景

评估框架

  • SeedVideoBench 2.0:升级版评估基准,新增多模态生成、叙事质量、多语言覆盖评估,细分音频表现力评估。包含客观指标(运动稳定性等自动化流水线)和主观指标(美学等专家盲评)。
  • 六维评估体系:运动质量、视频指令遵循、美学、音频质量、音视频同步、音频指令遵循。
  • Arena.AI 排名:基于真实用户偏好的 Elo 排行榜,Dreamina Seedance 2.0 720p 在 T2V(1450 分)和 I2V(1449 分)均排名第一。

主要结果

T2V(文本生成视频)

  • 在 SeedVideoBench 2.0 六个维度上均排名第一,每维得分均超过 3.4,平均比 Seedance 1.5 提升 0.86 分。
  • 运动质量 3.75,音视频同步 3.75,均领先第二名至少 0.65 分。
  • 可用率(得分 >= 3)在所有维度超过 83%,运动质量达 97.55%。
  • 满意度(得分 >= 4)在所有维度超过 51%,竞品无一在任何单一维度超过 44%。
  • 在 30 个细粒度运动类别中 29 项排名第一;音频 17 个类别全部第一。

I2V(图像生成视频)

  • 六个维度均排名第一(3.31-3.70),竞品无一超过 3.18。
  • 运动质量满意度 43.88%,是第二名 Kling 3.0(12.00%)的 3 倍以上。
  • 音频质量可用率 97.42%,满意度 57.08%;竞品可用率普遍低于 28%。

R2V(参考生成视频)

  • 五个维度均排名第一,支持 22 种输入模态中的 20 种,覆盖面最广。
  • 7 种任务类型为 Seedance 2.0 独有(视觉特效/创意参考、续写/延展)。
  • 参考对齐得分 3.03,领先竞品 0.66-1.24 分。
  • 视频编辑一致性 3.75,领先第二名 0.66 分。

Arena.AI 排行榜

  • T2V 排名第一(1450 分),领先第二名 Veo 3.1 79 分。
  • I2V 排名第一(1449 分),领先第二名 Grok Imagine Video 29 分。
  • 以 720p 分辨率超越 1080p 竞品,说明运动动态和视觉连贯性的提升比分辨率更具感知意义。

竞品对比

模型运动质量指令遵循美学音频质量音视频同步音频指令遵循
Seedance 2.03.753.433.673.633.753.56
Kling 3.03.102.783.362.742.782.54
Sora 2 Pro2.692.812.822.762.652.92
Veo 3.12.732.592.882.622.542.24

局限性

论文明确承认以下不足:

  1. 偶发形变伪影:仍存在轻微的形变工件。
  2. 边缘场景运动合理性:在极端或边缘案例中,运动物理合理性仍有提升空间。
  3. 高频视觉噪声:生成视频中偶见高频视觉噪声。
  4. 音频失真与噪声:音频输出偶有失真和噪声问题。
  5. 多人场景唇形同步误差:多说话人场景中唇形同步可能出现错误。
  6. 视频延展任务较弱:R2V 中视频延展是得分最低的任务(任务遵循 1.93),明显落后于 Veo 3.1(2.78)。
  7. 多主体一致性:多主体一致性、文字还原准确率、复杂编辑任务仍有优化空间。
  8. 颜色一致性:视频续写中存在颜色一致性、多主体遗漏、主体重复等问题。

与相关工作的关系

Seedance 系列演进

  • Seedance 1.0 [Gao et al., 2025]:系列奠基之作,探索视频生成模型的边界。
  • Seedance 1.5 Pro [Team Seedance, 2025]:实现音视频同步生成,建立音视频联合生成基础模型。
  • Seedance 2.0:统一多模态音视频联合生成框架,从 1.5 的音视频同步升级为四种模态的全面联合生成,核心承诺是高保真重建世界复杂性。

Seedream 图像生成系列

  • Seedream 2.0/3.0/4.0:字节跳动的图像生成基础模型系列,Seedance 2.0 在其技术积累之上扩展到视频领域。
  • SeedEdit:图像编辑技术,与 Seedance 2.0 的视频编辑能力形成互补。

其他相关技术栈

  • Seed-VL:多模态视觉语言模型,为 Seedance 2.0 提供跨模态语义理解能力。
  • Seaweed-7B:视频生成基础模型的高效训练方案。
  • RewardDance / DanceGRPO:视觉生成中的奖励缩放与强化学习方法。

竞品关系

  • Kling 2.6/3.0/O1(快手):Seedance 2.0 在所有维度上全面领先,Kling 3.0 是综合最均衡的竞品。
  • Sora 2 Pro(OpenAI):在指令遵循和创意解读方面有优势,但运动质量和音频较弱。
  • Veo 3.1(Google):在视频延展方面领先,但音频能力是主要短板。
  • Wan 2.6(阿里):综合表现最弱,运动质量和音频均低于竞品。
  • Vidu Q2 Pro(生数科技):R2V 任务中得分最低。