CTR 预估 (CTR Prediction)

定义

CTR 预估是推荐系统的核心任务之一：给定用户、候选 item 和上下文信息，预测用户点击该 item 的概率。它属于判别式任务（预测概率），而非生成式任务。CTR 预估通常位于推荐管线的排序（ranking）阶段，直接决定最终返回给用户的内容。

核心问题

1. 特征交互 (Feature Interaction)

学习不同特征（用户画像、物品属性、上下文信号）之间的高阶交叉关系。

经典方法：

FM (Factorization Machine)：通过隐向量的内积捕获二阶特征交互
DeepFM / xDeepFM：结合 FM 的低阶交互和 DNN 的高阶交互
DCN / DCNv2：Cross Network 显式建模有界阶数的特征交叉
DHEN：层次化集成多种异构交互模块
Wukong：堆叠 FM 层 + 线性压缩，建立交互学习的 scaling law
RankMixer：硬件友好的 token-mixing + per-token FFN

核心挑战：随着特征数量增加（工业级数百个特征），高阶交互的组合爆炸和高计算开销。

2. 序列建模 (Sequence Modeling)

从用户行为序列中捕获动态兴趣偏好。

经典方法：

DIN：使用 target attention 从序列中提取候选相关的兴趣表示
SIM / ETA：扩展序列长度至数千个行为，通过检索式 attention 降低计算
LONGER：工业级长序列建模，因果 Transformer + KV caching + 服务优化
HSTU：生成式推荐场景的高效长序列 backbone

核心挑战：超长序列（千级甚至万级行为）的计算效率和实时延迟。

3. 特征交互 + 序列建模的融合

传统方法采用分离式 pipeline：

用户行为序列 -> 序列编码器 -> 压缩向量
                                    ↓ (拼接)
非序列特征 ----------------> 特征交互模块 -> 预测

这种 encode-then-interaction 模式的问题是：

单向信息流：非序列特征可以指导序列建模，但序列信息难以反向塑造特征表示
延迟融合：序列信息被压缩后（如平均池化）才与其他特征交互，损失了大量信息

统一架构：CTR 预估的新方向

新一代工作试图用统一 Transformer 替代分离式 pipeline：

InterFormer (Meta, 2024)

三层架构：Interaction Arch ↔ Sequence Arch ↔ Cross Arch
双向信息流：非序列 → 序列（PFFN）、序列 → 非序列（交互模块）
避免过早聚合：使用 MHA 保持序列的 one-to-one 映射
工业部署：0.15% NE 增益 + 24% QPS 增益

OneTrans (字节跳动, 2025)

Unified Causal Transformer：S-tokens + NS-tokens 统一输入
Mixed Parameterization：S-tokens 共享参数（同质），NS-tokens 各自 token-specific（异质）
Pyramid Compression：逐层剪枝序列 token 的 query 范围
Cross-Request KV Caching：推理 O(C) → O(1)
工业部署：5.68% GMV/u 提升

HyFormer (字节跳动, 2025)

交替迭代：Query Decoding（序列解码） ⇄ Query Boosting（特征交互增强）
Global Tokens：作为序列和特征之间的共享语义接口
三种序列编码策略：Full Transformer / LONGER-style / Lightweight
工业部署：全量部署，服务数十亿用户

演进路线总结

传统分离式 pipeline
├── 序列：DIN -> SIM/ETA -> LONGER
├── 交互：FM -> DCNv2 -> DHEN -> Wukong/RankMixer
└── 融合：拼接/池化 -> Target Attention -> ?
             ↓
双向交互（InterFormer）：Interaction Arch ↔ Sequence Arch
             ↓
统一 Transformer（OneTrans）：单一 causal backbone 联合建模
             ↓
交替迭代（HyFormer）：Query Decoding ⇄ Query Boosting

与生成式推荐的对比

维度	CTR 预估	生成式推荐
任务性质	判别式（估计概率）	生成式（生成 item ID）
输出空间	标量 p(click)	离散语义 ID 序列
架构位置	排序阶段	端到端（替代全流程）
与 LLM 关系	借鉴 Transformer 设计	与 LLM 范式深度对齐
工业成熟度	高度成熟	快速演进
代表工作	OneTrans, HyFormer, InterFormer	OneRec, OpenOneRec

交融趋势：统一 Transformer 虽用于 CTR 预估，但架构思想和具体技术（KV cache、mixed attention、pyramid compression）与生成式推荐高度互通。两者的技术栈正在融合。

Blog1

探索

CTR 预估