一句话总结:ByteDance 提出 OneTrans,一个统一所有特征交互和用户行为序列建模的单一 Transformer 架构,通过混合参数化(序列特征共享参数、非序列特征 token-specific 参数)、金字塔层级结构和跨请求 KV 缓存,在抖音广告场景实现 5.68% GMV/u 提升,并验证了 CTR 预估的 Scaling Law(log-linear 趋势)。
Intro
Motivation
CTR 预估模型的架构日趋复杂:
- 特征交互建模:从 FM、DeepFM、DCN 到 DLRM,单独处理特征间的交互
- 序列建模:从 DIN、DIEN 到 SIM、HSTU,单独处理用户历史行为序列
- 两者分离:特征交互模块和序列建模模块独立设计、独立调参
这种”两个模块拼接”的架构变得复杂而低效。
核心主张
用一个单一 Transformer 统一完成所有任务——用统一 tokenizer 将所有特征(序列特征和非序列特征)转化为 token,用同一个 Transformer 同时建模特征交互和序列依赖。
贡献
- 统一 Transformer 架构:单一模型替代”特征交互模块 + 序列建模模块”的组合
- 混合参数化:序列特征 token(S-tokens)共享参数,非序列特征 token(NS-tokens)使用 token-specific 参数
- 金字塔层级结构:上层处理全局交互,下层处理细粒度信息
- 跨请求 KV 缓存:广告场景下同一用户在短时间内的多次请求共享 KV cache
- CTR Scaling Law:首次验证 CTR 场景下的缩放定律
Method 核心方法
1. 统一 Tokenizer
将所有输入特征转化为统一的 token 序列:
- 序列特征 token (S-tokens):用户历史行为中的每个 item(如过去点击的广告),用 item embedding 表示
- 非序列特征 token (NS-tokens):用户画像、上下文、广告特征等,每种特征类型一个 token
- 所有 token 拼接为一个长序列输入 Transformer
2. 混合参数化
不应所有 token 共享参数:
- 序列特征 token(如 50 个历史广告):相互之间语义相似,应该共享参数(类似 NLP 中同一词表的 token)
- 非序列特征 token(如用户年龄、广告主行业):语义完全不同,应该用 token-specific 参数
实现:
- S-tokens:用共享的 embedding + 共享的 projection 参数
- NS-tokens:每种特征类型有独立的 embedding 和 projection 参数
- 在 Transformer 的 FFN 层中,NS-tokens 也可能使用独立的参数
3. 金字塔层级结构
受到视觉 Transformer 中金字塔结构(如 Swin Transformer)的启发:
- 底层:token 数量多,细粒度信息丰富,但交互范围有限
- 高层:通过 token 合并减少数量,扩大感受野,进行全局交互
- 实现方式:类似 Swin 的 patch merging,但针对序列特征做 adaption
4. 跨请求 KV 缓存
广告场景的特殊优化:
- 用户打开 App 后,短时间内(如 10 分钟)会产生多次广告请求
- 这些请求共享同一用户的历史行为序列
- KV cache 复用:用户的 S-tokens 部分的 KV cache 可以在多次请求间复用
- 效果:在线推理延迟大幅下降
实验/评估/结果
离线
- AUC 超越组合架构(特征交互 + 序列建模分离)的基线
- 消融实验:
- 混合参数化 vs 全共享参数:显著提升
- 金字塔 vs 平面 Transformer:提升
- 跨请求 KV cache:延迟降低明显
在线 A/B
- 抖音广告场景:GMV/u +5.68%
- 验证了统一 Transformer 在工业 CTR 预估中的有效性
Scaling Law
- CTR 预估任务:AUC 随模型规模的增加呈 log-linear 提升
- 表明更大的模型可以期待更好的效果(在数据量充足的前提下)
结论
OneTrans 证明了用一个 Transformer 统一特征交互和序列建模是可行的、高效的和可扩展的。混合参数化解决了不同类型 token 不应共享参数的矛盾,金字塔结构保证了高效的全局建模。
思考
优点
- 架构统一:用一个 Transformer 替代两个独立模块,是”大道至简”的工业实践
- 混合参数化精巧:S-tokens vs NS-tokens 的区分解决了”序列特征语义相似而上下文特征语义不同”的本质矛盾
- 工业实用性强:跨请求 KV cache 是切实可行且收益大的工程优化
- CTR Scaling Law 有价值:为推荐模型的规模扩展提供了经验指导
缺点与待解决问题
- 与 OneRec 的关系不清晰:OneTrans 专注 CTR 预估(判别式),OneRec 专注生成式推荐(生成式)。两者能否用一个模型统一?
- 序列长度限制:金字塔合并可能丢失序列中的细粒度信息(如用户特定行为的时间间隔)
- 离线 + 在线特征的时效性:跨请求 KV cache 要求用户行为在短时间内不变,对实时特征更新受限
- 缺乏公开 benchmark 对比:只在内部数据上评估
与已有 Wiki 的连接
- 关联概念:CTR预估、序列建模、Feature Interaction
- 关联实体:ByteDance
- 关联比较:HyFormer(也统一了特征交互和序列建模,但在搜索场景)、InterFormer(双向信息流)