CTR 预估 (CTR Prediction)

定义

CTR 预估是推荐系统的核心任务之一:给定用户、候选 item 和上下文信息,预测用户点击该 item 的概率。它属于判别式任务(预测概率),而非生成式任务。CTR 预估通常位于推荐管线的排序(ranking)阶段,直接决定最终返回给用户的内容。

核心问题

1. 特征交互 (Feature Interaction)

学习不同特征(用户画像、物品属性、上下文信号)之间的高阶交叉关系。

经典方法

  • FM (Factorization Machine):通过隐向量的内积捕获二阶特征交互
  • DeepFM / xDeepFM:结合 FM 的低阶交互和 DNN 的高阶交互
  • DCN / DCNv2:Cross Network 显式建模有界阶数的特征交叉
  • DHEN:层次化集成多种异构交互模块
  • Wukong:堆叠 FM 层 + 线性压缩,建立交互学习的 scaling law
  • RankMixer:硬件友好的 token-mixing + per-token FFN

核心挑战:随着特征数量增加(工业级数百个特征),高阶交互的组合爆炸和高计算开销。

2. 序列建模 (Sequence Modeling)

从用户行为序列中捕获动态兴趣偏好。

经典方法

  • DIN:使用 target attention 从序列中提取候选相关的兴趣表示
  • SIM / ETA:扩展序列长度至数千个行为,通过检索式 attention 降低计算
  • LONGER:工业级长序列建模,因果 Transformer + KV caching + 服务优化
  • HSTU:生成式推荐场景的高效长序列 backbone

核心挑战:超长序列(千级甚至万级行为)的计算效率和实时延迟。

3. 特征交互 + 序列建模的融合

传统方法采用分离式 pipeline:

用户行为序列 -> 序列编码器 -> 压缩向量
                                    ↓ (拼接)
非序列特征 ----------------> 特征交互模块 -> 预测

这种 encode-then-interaction 模式的问题是:

  • 单向信息流:非序列特征可以指导序列建模,但序列信息难以反向塑造特征表示
  • 延迟融合:序列信息被压缩后(如平均池化)才与其他特征交互,损失了大量信息

统一架构:CTR 预估的新方向

新一代工作试图用统一 Transformer 替代分离式 pipeline:

InterFormer (Meta, 2024)

  • 三层架构:Interaction Arch ↔ Sequence Arch ↔ Cross Arch
  • 双向信息流:非序列 序列(PFFN)、序列 非序列(交互模块)
  • 避免过早聚合:使用 MHA 保持序列的 one-to-one 映射
  • 工业部署:0.15% NE 增益 + 24% QPS 增益

OneTrans (字节跳动, 2025)

  • Unified Causal Transformer:S-tokens + NS-tokens 统一输入
  • Mixed Parameterization:S-tokens 共享参数(同质),NS-tokens 各自 token-specific(异质)
  • Pyramid Compression:逐层剪枝序列 token 的 query 范围
  • Cross-Request KV Caching:推理 O(C) O(1)
  • 工业部署:5.68% GMV/u 提升

HyFormer (字节跳动, 2025)

  • 交替迭代:Query Decoding(序列解码) ⇄ Query Boosting(特征交互增强)
  • Global Tokens:作为序列和特征之间的共享语义接口
  • 三种序列编码策略:Full Transformer / LONGER-style / Lightweight
  • 工业部署:全量部署,服务数十亿用户

演进路线总结

传统分离式 pipeline
├── 序列:DIN -> SIM/ETA -> LONGER
├── 交互:FM -> DCNv2 -> DHEN -> Wukong/RankMixer
└── 融合:拼接/池化 -> Target Attention -> ?
             ↓
双向交互(InterFormer):Interaction Arch ↔ Sequence Arch
             ↓
统一 Transformer(OneTrans):单一 causal backbone 联合建模
             ↓
交替迭代(HyFormer):Query Decoding ⇄ Query Boosting

与生成式推荐的对比

维度CTR 预估生成式推荐
任务性质判别式(估计概率)生成式(生成 item ID)
输出空间标量 p(click)离散语义 ID 序列
架构位置排序阶段端到端(替代全流程)
与 LLM 关系借鉴 Transformer 设计与 LLM 范式深度对齐
工业成熟度高度成熟快速演进
代表工作OneTrans, HyFormer, InterFormerOneRec, OpenOneRec

交融趋势:统一 Transformer 虽用于 CTR 预估,但架构思想和具体技术(KV cache、mixed attention、pyramid compression)与生成式推荐高度互通。两者的技术栈正在融合。

相关页面