一句话总结:ByteDance 搜索团队提出 HyFormer,一个混合 Transformer 架构统一 CTR 预估中的序列建模和特征交互。通过 Query Decoding(交叉注意力处理长序列)和 Query Boosting(MLP-Mixer 做 token 混合)交替的层叠设计,以及 Global Tokens 作为语义接口,在抖音搜索广告场景实现 0.293% 观看时长和 1.111% 完播数提升。
Intro
Motivation
CTR 预估中存在两个核心子问题:
- 用户行为序列建模:从用户历史行为中提取兴趣表征
- 特征交互:建模不同特征(用户、广告、上下文)之间的高阶交互
现有方法通常将两者视为独立模块:
- 序列建模:DIN/DIEN/SIM 等,用 target attention 从行为序列中提取兴趣
- 特征交互:DCN/DLRM 等,用 cross network 或交互层建模特征间关系
这种设计的根本问题是:序列建模和特征交互之间的关系被忽略了——“用户对什么类型的广告感兴趣”本身就依赖于”广告特征”和”用户历史行为”的交互。
核心主张
用一个统一的 Hybrid Transformer 同时完成两个任务,通过交替的 Query Decoding(序列→特征)和 Query Boosting(特征↔特征)层,让序列建模和特征交互相互增强。
贡献
- 混合 Transformer:Query Decoding + Query Boosting 交替层叠架构
- Global Tokens:充当序列信息和特征交互之间的语义接口
- 工业部署:抖音搜索广告场景 0.293%/1.111% 提升
- 效率优化:比分离式架构更简洁,参数利用率更高
Method 核心方法
架构对比:分离式 vs 统一式序列建模
| 维度 | DIN/DIEN + DCN | HyFormer |
|---|---|---|
| 序列建模 | 独立 target attention(embedding 层) | Query Decoding(多层交叉注意力) |
| 特征交互 | 独立 cross network | Query Boosting(MLP-Mixer token mixing) |
| 序列-特征关系 | 单向:序列→特征 | 双向:Global Tokens 交换 |
| 参数利用 | 两套独立参数 | 统一 Transformer 堆叠 |
目的:从用户行为序列中提取与当前候选广告相关的兴趣信息。
- 使用交叉注意力(cross-attention)
- Query:广告特征 token(当前候选广告的表示)
- Key/Value:用户行为序列 token(历史点击/浏览的广告)
- 输出:融合了历史兴趣的增强特征表示
与传统 target attention(如 DIN)的区别:
- DIN 在 embedding 层做 attention,HyFormer 在多层 Transformer 中重复做
- 注意力可以随着层深越来越精细
2. Query Boosting
目的:在特征 token 之间进行交互建模。
- 使用 MLP-Mixer 风格的 token mixing
- 将不同特征 token 在特征维度(而非序列维度)上进行混合
- 所有特征 token(用户画像、广告特征、上下文等)相互交互
为什么不用 self-attention:
- self-attention 计算复杂度 O(n^2),但在 token 数量不多的特征交互场景中,MLP-Mixer 更高效
- MLP-Mixer 通过跨 token 的全连接和跨 channel 的全连接交替实现高效交互
3. Global Tokens
核心设计:在 token 序列中插入一组可学习的 global tokens。
- Global tokens 参与 Query Decoding 和 Query Boosting
- 它们作为”语义接口”,承载序列信息和特征交互之间的信息传递
- 类比 ViT 中的 [CLS] token,但数量更多(多维度语义)
工作流程:
- Query Decoding 层:global tokens 作为额外的 query,从行为序列中提取全局兴趣
- Query Boosting 层:global tokens 与特征 token 一起做 MLP-Mixer
- 最终,global tokens 汇总所有信息,输入到预测层
4. 交替层叠设计
HyFormer 的每一层是 Query Decoding 和 Query Boosting 的交替:
Layer_i = [Query_Decoding + Query_Boosting]
这种交替设计保证了:
- 序列信息 → 特征交互:解码出的兴趣信息可以进入特征交互
- 特征交互 → 序列建模:更丰富的特征表示可以在下一层的解码中做更好的 query
实验/评估/结果
离线评估
- AUC 超越分离式架构的多个基线
- 消融实验:
- Query Decoding + Query Boosting > 仅 Query Decoding:证明特征交互的互补作用
- Global Tokens > 无 Global Tokens:证明语义接口的价值
- 交替层叠 > 堆叠相同层型:证明双向信息流的必要性
在线 A/B
- 抖音搜索广告:
- 观看时长 +0.293%
- 完播数 +1.111%
- 在搜索场景的效果显著(搜索场景下用户意图明确,序列建模和特征交互的结合更重要)
结论
HyFormer 通过 Query Decoding(交叉注意力处理序列)和 Query Boosting(MLP-Mixer 做特征交互)的交替设计,实现了序列建模和特征交互的深度统一。Global tokens 提供了一种优雅的信息交换接口。该架构在搜索广告场景获得了显著的实验验证。
思考
优点
- 架构设计有洞察:认识到序列建模和特征交互应该相互增强,不是独立任务;交替层叠设计让这个洞察落到了实处
- Global Tokens 设计精巧:用一组可学习的 token 作为两个子任务之间的信息接口,简洁而有效
- 搜索场景的适配:搜索场景下 query-ad-user 三方的交互比信息流更复杂,HyFormer 的架构天然适合
- 工业验证:0.293%/1.111% 的提升在搜索广告场景是显著的
缺点与待解决问题
- 与 OneTrans 的关系:ByteDance 同时有 OneTrans(信息流)和 HyFormer(搜索),两者是否能统一?
- MLP-Mixer 的扩展性:当特征维度增加时,MLP-Mixer 的 cross-channel 混合可能成为瓶颈
- Global Tokens 个数的最优选择:论文可能缺少对 global token 数量的详细消融
- 搜索场景专属优化:是否在信息流场景下也有同样的优势,需要验证