一句话总结:Meta 提出 InterFormer,通过引入双向信息流架构(Interaction Arch / Sequence Arch / Cross Arch),让非序列特征和序列特征在建模过程中相互增强——而非各自独立处理再拼接。在 Meta Ads 场景实现 0.15% NE(Normalized Entropy)降低和 24% QPS(吞吐量)提升。
Intro
Motivation
CTR 预估中两类特征的根本不对称性:
- 非序列特征(Non-Sequence):用户画像、广告特征、上下文——语义独立,每类特征通常 1 个 token
- 序列特征(Sequence):用户历史行为——每类特征 50-200 个 token,语义相似(都是 item)
现有方法的典型做法:
- 两个独立模块:DLRM(处理非序列特征)+ HSTU/DIN(处理序列特征)
- 最后拼接两次的输出
- 信息只在最终层交汇,损失了大量中间交互机会
核心主张
通过三个子架构的双向信息流——Interaction Arch(非序列特征的个性化特征交互)、Sequence Arch(序列特征建模)、Cross Arch(两类特征的交叉注意力互增强)——让异构特征在每一层都相互学习。
贡献
- 双向信息流架构:Interaction Arch + Sequence Arch + Cross Arch 的三模块设计
- PFFN(Personalized FFN):让 FFN 的参数受用户特征条件化
- PMA Tokens:可学习的聚合 token 作为跨模块信息桥梁
- 工业部署:Meta Ads 0.15% NE 降低 + 24% QPS 提升
Method 核心方法
1. 整体架构三模块
Input → [Interaction Arch | Sequence Arch | Cross Arch] × L → Prediction
- Interaction Arch:处理非序列特征的混合交互(PFFN + PMA tokens)
- Sequence Arch:处理序列特征的时序依赖(Transformer + PMA tokens)
- Cross Arch:两类特征的交叉注意力互增强
2. Interaction Arch:个性化特征交互
核心理念:非序列特征之间的交互应该与当前用户相关。
PFFN(Personalized FFN):
- 标准 FFN:输出 = MLP(input)
- 个性化 FFN:MLP 的权重(或偏置)受用户特征条件化
- 实现:用户特征通过一个小型网络生成 FFN 层的参数调整向量
意义:
- 同一广告对不同用户的意义不同
- 传统的 feature interaction(如 DCN)对所有用户一视同仁
3. Sequence Arch:序列特征建模
- 用户的历史行为序列(如过去 50 个点击广告)
- 用 Transformer 的双向注意力建模序列内的依赖关系
- 输出通过 PMA tokens 聚合为固定长度的表示
4. Cross Arch:双向信息流
这是 InterFormer 最核心的创新:
非序列 → 序列方向:
- 用非序列特征的表示(用户画像 + 广告特征)作为 query
- Attend 到序列特征(历史行为)作为 key/value
- 使得”在给定当前候选广告的条件下,用户哪些历史行为最相关”可以建模
序列 → 非序列方向:
- 用聚合的用户行为表示(从 Sequence Arch 输出)作为上下文
- 注入到 Interaction Arch 中,调节特征交互的方式
- 使得”用户历史偏好”可以影响特征之间的交互模式
5. PMA Tokens
可学习的聚合 token(类似 ViT 中的 [CLS] token 但更通用):
- Sequence Arch 的 PMA tokens:将变长的行为序列压缩为固定长度表示
- Interaction Arch 的 PMA tokens:作为非序列特征交互的”语义汇聚点”
- Cross Arch 通过 PMA tokens 实现信息交换
6. 效率提升
- 24% QPS 提升的原因:
- 通过 PMA tokens 压缩序列表示,在 Cross Arch 中避免了对长序列的全连接
- 特征交互的个性化(PFFN)比增加更多特征交互层更高效
实验/评估/结果
离线评估
-
Meta 内部数据:
- NE (Normalized Entropy) 降低 0.15%(在 CTR 预估中这是显著提升)
- 超越 DLRM + HSTU 的组合基线
-
消融实验:
- Cross Arch 的贡献:双向信息流 > 单向信息流 > 无信息流
- PFFN 的贡献:个性化 FFN > 标准 FFN
- PMA Tokens:聚合表示同时保持效果和效率
在线 A/B
- Meta Ads:0.15% NE 降低 + 24% QPS 提升
- 部署在 Meta 广告系统的关键位置
结论
InterFormer 通过架构创新(三类 Arch + 双向信息流)解决了 CTR 预估中异构特征交互的长期问题。PFFN 带来了”特征交互应该因人而异”的关键洞察。在实际部署中同时实现了效果提升和吞吐量优化。
思考
优点
- 理念先进:认识到非序列特征和序列特征不应独立处理——双向信息流比”最后拼接”更合理
- PFFN 的设计有启发:个性化特征交互是一个被低估的方向——“广告对不同用户意味着不同的事”
- 效率与效果的平衡:24% QPS 提升同时 0.15% NE 降低,表明架构设计是精炼而非堆砌
- Meta 的工业验证:在 Meta Ads 的规模下部署,证明了有效性
缺点与待解决问题
- 三层 Arch 的复杂性:Interaction + Sequence + Cross 三层架构的参数量和调参难度可能较高
- 与 HyFormer/OneTrans 的对比:三者都在解决同一类问题(统一序列建模和特征交互),但设计理念不同,缺乏公平对比
- PFFN 的计算开销:每个样本都要计算个性化的 FFN 权重调整,在网络规模大时开销显著
- 跨 Arch 的信息瓶颈:通过 PMA tokens 交换信息虽然高效,但可能存在信息压缩瓶颈