生成式推荐系统

概述

生成式推荐系统是近年来推荐领域最深刻的一场范式变革,其核心思想是将推荐任务重新定义为自回归生成问题:给定用户历史行为上下文,模型直接生成用户可能感兴趣的下一个 item(或 item 列表),替代传统的多级级联架构(召回 粗排 精排)。这一范式与 LLM 的 next token prediction 高度一致,使得推荐系统能够继承 LLM 社区的大量基础设施优化和模型设计经验。

两大研究方向

1. 端到端生成式推荐(End-to-End Generative Recommendation)

代表工作:OneRec 系列(快手),将整个推荐 pipeline 统一为单一的生成模型。

核心要素

  • Semantic ID Tokenization:通过 RQ-Kmeans 等残差量化方法,将 item 的多模态语义压缩为层次化离散 ID(如 3 层码本),这些语义 ID 就是模型的”token”。
  • Encoder-Decoder / Decoder-Only 架构:V1 使用 encoder-decoder(T5 风格),V2 演进为 lazy decoder-only(消除 encoder 瓶颈,降低 94% 计算量)。
  • Scaling Laws:推荐领域验证了类似 Chinchilla 的 scaling law,但参数-数据关系不同(推荐更偏”数据饥渴”)。
  • RL 对齐:通过 reward model(V1)、真实用户反馈(V2)或 GRPO(OpenOneRec)进行偏好对齐。
  • CoT 推理:OneRec-Think 引入推理能力,模型先生成文本推理路径,再生成推荐 item。

关键优势

  • 端到端优化最终目标,消除多级级联的 objective collision
  • OPEX 降至传统管线的 10.6%
  • MFU 从 4.6% 提升至 28.8%,接近 LLM 水平

2. CTR 预估中的统一架构(Unified Ranking Models)

代表工作:OneTrans(字节)、HyFormer(字节)、InterFormer(Meta),仍在传统排序范式下,但用统一 Transformer 替代分离式 pipeline。

核心演进路径

传统分离式:序列编码 -> 特征交互 -> 预测
       ↓
InterFormer (Meta):双向交互 | Interaction Arch ↔ Sequence Arch
       ↓
OneTrans (字节):统一 Causal Transformer | S-tokens + NS-tokens 联合建模
       ↓
HyFormer (字节):交替迭代 | Query Decoding ⇄ Query Boosting

关键技术创新

  • Mixed Parameterization(OneTrans):序列 token 共享参数,非序列 token 各自拥有 token-specific 参数
  • Pyramid Compression(OneTrans):逐层剪枝序列 token 的 query 范围
  • Query Decoding + Query Boosting 交替(HyFormer):重新定义序列建模和特征交互的角色
  • Bidirectional Cross Arch(InterFormer):双向信息交换,避免过早信息聚合
  • Cross-Request KV Caching(OneTrans):复用用户侧计算,O(C) O(1)

与传统推荐的关系

维度传统级联推荐生成式推荐
架构多级独立模型单模型端到端
优化目标各阶段独立优化统一最终目标
计算效率低 MFU(~5%)高 MFU(~29%)
与 LLM 生态隔离高度集成
可解释性可引入 CoT(OneRec-Think)
工业成熟度成熟快速演进中

与 AI 主流知识的连接

  • Transformer / Attention:生成式推荐和统一 CTR 模型都基于 Transformer 架构,与 LLM 共享 self-attention、cross-attention、KV cache 等基础模块
  • Scaling Laws:推荐领域验证了 scaling law 的有效性,但数据-参数的最优配比与 NLP 不同
  • RLHF / RL:DPO、GRPO 等 LLM 对齐技术被成功迁移到推荐场景
  • MoE:稀疏 MoE 用于扩展推荐模型容量而不按比例增加计算
  • Chain-of-Thought:OneRec-Think 展示了 CoT 在推荐中的有效性

当前挑战

  1. 语义 ID 的质量直接影响生成质量,tokenization 策略仍是核心瓶颈
  2. Scaking laws 在更大规模下的外推可靠性未经验证
  3. 真实用户反馈 RL 的 reward hacking 风险
  4. 与现有多级级联架构的渐进式迁移策略
  5. 在线推理延迟 vs 离线推理质量(如 OneRec-Think 的 Think-Ahead 设计)

相关页面