Seedance 2.0: Advancing Video Generation for World Complexity
基本信息
- 标题: Seedance 2.0: Advancing Video Generation for World Complexity
- 作者: ByteDance Seed Team(Team Seedance,按姓氏字母序排列)
- 机构: ByteDance(字节跳动)
- 年份: 2026
- arXiv: 2604.14148
- 发布时间: 2026 年 2 月初在中国首发
- 模型 ID:
doubao-seedance-2-0-260128 - 可用平台: 豆包、即梦、火山引擎
核心论点
- 从短片段到世界复杂性建模的范式转移:Seedance 2.0 标志着视频生成从”有限可控性的短视频片段”向”鲁棒、高可控、原生支持多模态信号的视频合成”的转变,核心目标是高保真重建真实世界复杂性。
- 统一多模态音视频联合生成架构:采用统一、高效、大规模的架构,支持文本、图像、音频、视频四种输入模态,是业界最全面的多模态内容参考与编辑能力套件之一。
- 运动质量与物理真实性的显著提升:在人体运动建模、物理规律遵循、复杂交互场景方面取得突破性进展,大幅减少结构畸变和视觉伪影。
- 音频能力的全面领先:原生双耳音频生成,支持多轨输出(背景音、环境音效、角色旁白),音视频精确时间对齐,方言、戏曲、歌唱等场景指令遵循准确率显著提升。
- 在所有评估维度全面领先竞品:在 SeedVideoBench 2.0 和 Arena.AI 排行榜上,T2V、I2V、R2V 三项任务的所有评估维度均排名第一。
关键技术方法
模型架构
- 统一多模态音视频联合生成框架:继承并扩展 Seedance 1.5 的音视频同步生成能力,建立统一的多模态音视频联合生成架构。
- 四种输入模态:文本、图像、音频、视频,支持单模态和组合输入。
- 原生音频-视频联合生成:音频不是后处理添加,而是在生成过程中同步产出。
支持的生成能力
- 参考生成:主体参考、运动参考、视觉特效参考、风格参考(图像/视频/音频多种输入形式)
- 视频编辑:主体编辑、风格编辑、场景编辑、音频内容编辑
- 视频续写与延展:情节续写、前向/后向时间线无缝延展
- 组合任务:参考+编辑等复合工作流
生成规格
- 时长:4-15 秒直接生成
- 分辨率:原生 480p 和 720p 输出
- 多模态参考输入上限:最多 3 个视频片段、9 张图像、3 个音频片段
- 快速版本:提供 Seedance 2.0 Fast 变体,面向低延迟场景
评估框架
- SeedVideoBench 2.0:升级版评估基准,新增多模态生成、叙事质量、多语言覆盖评估,细分音频表现力评估。包含客观指标(运动稳定性等自动化流水线)和主观指标(美学等专家盲评)。
- 六维评估体系:运动质量、视频指令遵循、美学、音频质量、音视频同步、音频指令遵循。
- Arena.AI 排名:基于真实用户偏好的 Elo 排行榜,Dreamina Seedance 2.0 720p 在 T2V(1450 分)和 I2V(1449 分)均排名第一。
主要结果
T2V(文本生成视频)
- 在 SeedVideoBench 2.0 六个维度上均排名第一,每维得分均超过 3.4,平均比 Seedance 1.5 提升 0.86 分。
- 运动质量 3.75,音视频同步 3.75,均领先第二名至少 0.65 分。
- 可用率(得分 >= 3)在所有维度超过 83%,运动质量达 97.55%。
- 满意度(得分 >= 4)在所有维度超过 51%,竞品无一在任何单一维度超过 44%。
- 在 30 个细粒度运动类别中 29 项排名第一;音频 17 个类别全部第一。
I2V(图像生成视频)
- 六个维度均排名第一(3.31-3.70),竞品无一超过 3.18。
- 运动质量满意度 43.88%,是第二名 Kling 3.0(12.00%)的 3 倍以上。
- 音频质量可用率 97.42%,满意度 57.08%;竞品可用率普遍低于 28%。
R2V(参考生成视频)
- 五个维度均排名第一,支持 22 种输入模态中的 20 种,覆盖面最广。
- 7 种任务类型为 Seedance 2.0 独有(视觉特效/创意参考、续写/延展)。
- 参考对齐得分 3.03,领先竞品 0.66-1.24 分。
- 视频编辑一致性 3.75,领先第二名 0.66 分。
Arena.AI 排行榜
- T2V 排名第一(1450 分),领先第二名 Veo 3.1 79 分。
- I2V 排名第一(1449 分),领先第二名 Grok Imagine Video 29 分。
- 以 720p 分辨率超越 1080p 竞品,说明运动动态和视觉连贯性的提升比分辨率更具感知意义。
竞品对比
| 模型 | 运动质量 | 指令遵循 | 美学 | 音频质量 | 音视频同步 | 音频指令遵循 |
|---|---|---|---|---|---|---|
| Seedance 2.0 | 3.75 | 3.43 | 3.67 | 3.63 | 3.75 | 3.56 |
| Kling 3.0 | 3.10 | 2.78 | 3.36 | 2.74 | 2.78 | 2.54 |
| Sora 2 Pro | 2.69 | 2.81 | 2.82 | 2.76 | 2.65 | 2.92 |
| Veo 3.1 | 2.73 | 2.59 | 2.88 | 2.62 | 2.54 | 2.24 |
局限性
论文明确承认以下不足:
- 偶发形变伪影:仍存在轻微的形变工件。
- 边缘场景运动合理性:在极端或边缘案例中,运动物理合理性仍有提升空间。
- 高频视觉噪声:生成视频中偶见高频视觉噪声。
- 音频失真与噪声:音频输出偶有失真和噪声问题。
- 多人场景唇形同步误差:多说话人场景中唇形同步可能出现错误。
- 视频延展任务较弱:R2V 中视频延展是得分最低的任务(任务遵循 1.93),明显落后于 Veo 3.1(2.78)。
- 多主体一致性:多主体一致性、文字还原准确率、复杂编辑任务仍有优化空间。
- 颜色一致性:视频续写中存在颜色一致性、多主体遗漏、主体重复等问题。
与相关工作的关系
Seedance 系列演进
- Seedance 1.0 [Gao et al., 2025]:系列奠基之作,探索视频生成模型的边界。
- Seedance 1.5 Pro [Team Seedance, 2025]:实现音视频同步生成,建立音视频联合生成基础模型。
- Seedance 2.0:统一多模态音视频联合生成框架,从 1.5 的音视频同步升级为四种模态的全面联合生成,核心承诺是高保真重建世界复杂性。
Seedream 图像生成系列
- Seedream 2.0/3.0/4.0:字节跳动的图像生成基础模型系列,Seedance 2.0 在其技术积累之上扩展到视频领域。
- SeedEdit:图像编辑技术,与 Seedance 2.0 的视频编辑能力形成互补。
其他相关技术栈
- Seed-VL:多模态视觉语言模型,为 Seedance 2.0 提供跨模态语义理解能力。
- Seaweed-7B:视频生成基础模型的高效训练方案。
- RewardDance / DanceGRPO:视觉生成中的奖励缩放与强化学习方法。
竞品关系
- Kling 2.6/3.0/O1(快手):Seedance 2.0 在所有维度上全面领先,Kling 3.0 是综合最均衡的竞品。
- Sora 2 Pro(OpenAI):在指令遵循和创意解读方面有优势,但运动质量和音频较弱。
- Veo 3.1(Google):在视频延展方面领先,但音频能力是主要短板。
- Wan 2.6(阿里):综合表现最弱,运动质量和音频均低于竞品。
- Vidu Q2 Pro(生数科技):R2V 任务中得分最低。