Seedance 2.0: Advancing Video Generation for World Complexity

基本信息

标题: Seedance 2.0: Advancing Video Generation for World Complexity
作者: ByteDance Seed Team（Team Seedance，按姓氏字母序排列）
机构: ByteDance（字节跳动）
年份: 2026
arXiv: 2604.14148
发布时间: 2026 年 2 月初在中国首发
模型 ID: doubao-seedance-2-0-260128
可用平台: 豆包、即梦、火山引擎

核心论点

从短片段到世界复杂性建模的范式转移：Seedance 2.0 标志着视频生成从”有限可控性的短视频片段”向”鲁棒、高可控、原生支持多模态信号的视频合成”的转变，核心目标是高保真重建真实世界复杂性。
统一多模态音视频联合生成架构：采用统一、高效、大规模的架构，支持文本、图像、音频、视频四种输入模态，是业界最全面的多模态内容参考与编辑能力套件之一。
运动质量与物理真实性的显著提升：在人体运动建模、物理规律遵循、复杂交互场景方面取得突破性进展，大幅减少结构畸变和视觉伪影。
音频能力的全面领先：原生双耳音频生成，支持多轨输出（背景音、环境音效、角色旁白），音视频精确时间对齐，方言、戏曲、歌唱等场景指令遵循准确率显著提升。
在所有评估维度全面领先竞品：在 SeedVideoBench 2.0 和 Arena.AI 排行榜上，T2V、I2V、R2V 三项任务的所有评估维度均排名第一。

关键技术方法

模型架构

统一多模态音视频联合生成框架：继承并扩展 Seedance 1.5 的音视频同步生成能力，建立统一的多模态音视频联合生成架构。
四种输入模态：文本、图像、音频、视频，支持单模态和组合输入。
原生音频-视频联合生成：音频不是后处理添加，而是在生成过程中同步产出。

支持的生成能力

参考生成：主体参考、运动参考、视觉特效参考、风格参考（图像/视频/音频多种输入形式）
视频编辑：主体编辑、风格编辑、场景编辑、音频内容编辑
视频续写与延展：情节续写、前向/后向时间线无缝延展
组合任务：参考+编辑等复合工作流

生成规格

时长：4-15 秒直接生成
分辨率：原生 480p 和 720p 输出
多模态参考输入上限：最多 3 个视频片段、9 张图像、3 个音频片段
快速版本：提供 Seedance 2.0 Fast 变体，面向低延迟场景

评估框架

SeedVideoBench 2.0：升级版评估基准，新增多模态生成、叙事质量、多语言覆盖评估，细分音频表现力评估。包含客观指标（运动稳定性等自动化流水线）和主观指标（美学等专家盲评）。
六维评估体系：运动质量、视频指令遵循、美学、音频质量、音视频同步、音频指令遵循。
Arena.AI 排名：基于真实用户偏好的 Elo 排行榜，Dreamina Seedance 2.0 720p 在 T2V（1450 分）和 I2V（1449 分）均排名第一。

主要结果

T2V（文本生成视频）

在 SeedVideoBench 2.0 六个维度上均排名第一，每维得分均超过 3.4，平均比 Seedance 1.5 提升 0.86 分。
运动质量 3.75，音视频同步 3.75，均领先第二名至少 0.65 分。
可用率（得分 >= 3）在所有维度超过 83%，运动质量达 97.55%。
满意度（得分 >= 4）在所有维度超过 51%，竞品无一在任何单一维度超过 44%。
在 30 个细粒度运动类别中 29 项排名第一；音频 17 个类别全部第一。

I2V（图像生成视频）

六个维度均排名第一（3.31-3.70），竞品无一超过 3.18。
运动质量满意度 43.88%，是第二名 Kling 3.0（12.00%）的 3 倍以上。
音频质量可用率 97.42%，满意度 57.08%；竞品可用率普遍低于 28%。

R2V（参考生成视频）

五个维度均排名第一，支持 22 种输入模态中的 20 种，覆盖面最广。
7 种任务类型为 Seedance 2.0 独有（视觉特效/创意参考、续写/延展）。
参考对齐得分 3.03，领先竞品 0.66-1.24 分。
视频编辑一致性 3.75，领先第二名 0.66 分。

Arena.AI 排行榜

T2V 排名第一（1450 分），领先第二名 Veo 3.1 79 分。
I2V 排名第一（1449 分），领先第二名 Grok Imagine Video 29 分。
以 720p 分辨率超越 1080p 竞品，说明运动动态和视觉连贯性的提升比分辨率更具感知意义。

竞品对比

模型	运动质量	指令遵循	美学	音频质量	音视频同步	音频指令遵循
Seedance 2.0	3.75	3.43	3.67	3.63	3.75	3.56
Kling 3.0	3.10	2.78	3.36	2.74	2.78	2.54
Sora 2 Pro	2.69	2.81	2.82	2.76	2.65	2.92
Veo 3.1	2.73	2.59	2.88	2.62	2.54	2.24

局限性

论文明确承认以下不足：

偶发形变伪影：仍存在轻微的形变工件。
边缘场景运动合理性：在极端或边缘案例中，运动物理合理性仍有提升空间。
高频视觉噪声：生成视频中偶见高频视觉噪声。
音频失真与噪声：音频输出偶有失真和噪声问题。
多人场景唇形同步误差：多说话人场景中唇形同步可能出现错误。
视频延展任务较弱：R2V 中视频延展是得分最低的任务（任务遵循 1.93），明显落后于 Veo 3.1（2.78）。
多主体一致性：多主体一致性、文字还原准确率、复杂编辑任务仍有优化空间。
颜色一致性：视频续写中存在颜色一致性、多主体遗漏、主体重复等问题。

与相关工作的关系

Seedance 系列演进

Seedance 1.0 [Gao et al., 2025]：系列奠基之作，探索视频生成模型的边界。
Seedance 1.5 Pro [Team Seedance, 2025]：实现音视频同步生成，建立音视频联合生成基础模型。
Seedance 2.0：统一多模态音视频联合生成框架，从 1.5 的音视频同步升级为四种模态的全面联合生成，核心承诺是高保真重建世界复杂性。

Seedream 图像生成系列

Seedream 2.0/3.0/4.0：字节跳动的图像生成基础模型系列，Seedance 2.0 在其技术积累之上扩展到视频领域。
SeedEdit：图像编辑技术，与 Seedance 2.0 的视频编辑能力形成互补。

其他相关技术栈

Seed-VL：多模态视觉语言模型，为 Seedance 2.0 提供跨模态语义理解能力。
Seaweed-7B：视频生成基础模型的高效训练方案。
RewardDance / DanceGRPO：视觉生成中的奖励缩放与强化学习方法。

竞品关系

Kling 2.6/3.0/O1（快手）：Seedance 2.0 在所有维度上全面领先，Kling 3.0 是综合最均衡的竞品。
Sora 2 Pro（OpenAI）：在指令遵循和创意解读方面有优势，但运动质量和音频较弱。
Veo 3.1（Google）：在视频延展方面领先，但音频能力是主要短板。
Wan 2.6（阿里）：综合表现最弱，运动质量和音频均低于竞品。
Vidu Q2 Pro（生数科技）：R2V 任务中得分最低。