生成式推荐系统
概述
生成式推荐系统是近年来推荐领域最深刻的一场范式变革,其核心思想是将推荐任务重新定义为自回归生成问题:给定用户历史行为上下文,模型直接生成用户可能感兴趣的下一个 item(或 item 列表),替代传统的多级级联架构(召回 → 粗排 → 精排)。这一范式与 LLM 的 next token prediction 高度一致,使得推荐系统能够继承 LLM 社区的大量基础设施优化和模型设计经验。
两大研究方向
1. 端到端生成式推荐(End-to-End Generative Recommendation)
代表工作:OneRec 系列(快手),将整个推荐 pipeline 统一为单一的生成模型。
核心要素:
- Semantic ID Tokenization:通过 RQ-Kmeans 等残差量化方法,将 item 的多模态语义压缩为层次化离散 ID(如 3 层码本),这些语义 ID 就是模型的”token”。
- Encoder-Decoder / Decoder-Only 架构:V1 使用 encoder-decoder(T5 风格),V2 演进为 lazy decoder-only(消除 encoder 瓶颈,降低 94% 计算量)。
- Scaling Laws:推荐领域验证了类似 Chinchilla 的 scaling law,但参数-数据关系不同(推荐更偏”数据饥渴”)。
- RL 对齐:通过 reward model(V1)、真实用户反馈(V2)或 GRPO(OpenOneRec)进行偏好对齐。
- CoT 推理:OneRec-Think 引入推理能力,模型先生成文本推理路径,再生成推荐 item。
关键优势:
- 端到端优化最终目标,消除多级级联的 objective collision
- OPEX 降至传统管线的 10.6%
- MFU 从 4.6% 提升至 28.8%,接近 LLM 水平
2. CTR 预估中的统一架构(Unified Ranking Models)
代表工作:OneTrans(字节)、HyFormer(字节)、InterFormer(Meta),仍在传统排序范式下,但用统一 Transformer 替代分离式 pipeline。
核心演进路径:
传统分离式:序列编码 -> 特征交互 -> 预测
↓
InterFormer (Meta):双向交互 | Interaction Arch ↔ Sequence Arch
↓
OneTrans (字节):统一 Causal Transformer | S-tokens + NS-tokens 联合建模
↓
HyFormer (字节):交替迭代 | Query Decoding ⇄ Query Boosting
关键技术创新:
- Mixed Parameterization(OneTrans):序列 token 共享参数,非序列 token 各自拥有 token-specific 参数
- Pyramid Compression(OneTrans):逐层剪枝序列 token 的 query 范围
- Query Decoding + Query Boosting 交替(HyFormer):重新定义序列建模和特征交互的角色
- Bidirectional Cross Arch(InterFormer):双向信息交换,避免过早信息聚合
- Cross-Request KV Caching(OneTrans):复用用户侧计算,O(C) → O(1)
与传统推荐的关系
| 维度 | 传统级联推荐 | 生成式推荐 |
|---|---|---|
| 架构 | 多级独立模型 | 单模型端到端 |
| 优化目标 | 各阶段独立优化 | 统一最终目标 |
| 计算效率 | 低 MFU(~5%) | 高 MFU(~29%) |
| 与 LLM 生态 | 隔离 | 高度集成 |
| 可解释性 | 弱 | 可引入 CoT(OneRec-Think) |
| 工业成熟度 | 成熟 | 快速演进中 |
与 AI 主流知识的连接
- Transformer / Attention:生成式推荐和统一 CTR 模型都基于 Transformer 架构,与 LLM 共享 self-attention、cross-attention、KV cache 等基础模块
- Scaling Laws:推荐领域验证了 scaling law 的有效性,但数据-参数的最优配比与 NLP 不同
- RLHF / RL:DPO、GRPO 等 LLM 对齐技术被成功迁移到推荐场景
- MoE:稀疏 MoE 用于扩展推荐模型容量而不按比例增加计算
- Chain-of-Thought:OneRec-Think 展示了 CoT 在推荐中的有效性
当前挑战
- 语义 ID 的质量直接影响生成质量,tokenization 策略仍是核心瓶颈
- Scaking laws 在更大规模下的外推可靠性未经验证
- 真实用户反馈 RL 的 reward hacking 风险
- 与现有多级级联架构的渐进式迁移策略
- 在线推理延迟 vs 离线推理质量(如 OneRec-Think 的 Think-Ahead 设计)