生成式推荐系统

概述

生成式推荐系统是近年来推荐领域最深刻的一场范式变革，其核心思想是将推荐任务重新定义为自回归生成问题：给定用户历史行为上下文，模型直接生成用户可能感兴趣的下一个 item（或 item 列表），替代传统的多级级联架构（召回 → 粗排 → 精排）。这一范式与 LLM 的 next token prediction 高度一致，使得推荐系统能够继承 LLM 社区的大量基础设施优化和模型设计经验。

两大研究方向

1. 端到端生成式推荐（End-to-End Generative Recommendation）

代表工作：OneRec 系列（快手），将整个推荐 pipeline 统一为单一的生成模型。

核心要素：

Semantic ID Tokenization：通过 RQ-Kmeans 等残差量化方法，将 item 的多模态语义压缩为层次化离散 ID（如 3 层码本），这些语义 ID 就是模型的”token”。
Encoder-Decoder / Decoder-Only 架构：V1 使用 encoder-decoder（T5 风格），V2 演进为 lazy decoder-only（消除 encoder 瓶颈，降低 94% 计算量）。
Scaling Laws：推荐领域验证了类似 Chinchilla 的 scaling law，但参数-数据关系不同（推荐更偏”数据饥渴”）。
RL 对齐：通过 reward model（V1）、真实用户反馈（V2）或 GRPO（OpenOneRec）进行偏好对齐。
CoT 推理：OneRec-Think 引入推理能力，模型先生成文本推理路径，再生成推荐 item。

关键优势：

端到端优化最终目标，消除多级级联的 objective collision
OPEX 降至传统管线的 10.6%
MFU 从 4.6% 提升至 28.8%，接近 LLM 水平

2. CTR 预估中的统一架构（Unified Ranking Models）

代表工作：OneTrans（字节）、HyFormer（字节）、InterFormer（Meta），仍在传统排序范式下，但用统一 Transformer 替代分离式 pipeline。

核心演进路径：

传统分离式：序列编码 -> 特征交互 -> 预测
       ↓
InterFormer (Meta)：双向交互 | Interaction Arch ↔ Sequence Arch
       ↓
OneTrans (字节)：统一 Causal Transformer | S-tokens + NS-tokens 联合建模
       ↓
HyFormer (字节)：交替迭代 | Query Decoding ⇄ Query Boosting

关键技术创新：

Mixed Parameterization（OneTrans）：序列 token 共享参数，非序列 token 各自拥有 token-specific 参数
Pyramid Compression（OneTrans）：逐层剪枝序列 token 的 query 范围
Query Decoding + Query Boosting 交替（HyFormer）：重新定义序列建模和特征交互的角色
Bidirectional Cross Arch（InterFormer）：双向信息交换，避免过早信息聚合
Cross-Request KV Caching（OneTrans）：复用用户侧计算，O(C) → O(1)

与传统推荐的关系

维度	传统级联推荐	生成式推荐
架构	多级独立模型	单模型端到端
优化目标	各阶段独立优化	统一最终目标
计算效率	低 MFU（~5%）	高 MFU（~29%）
与 LLM 生态	隔离	高度集成
可解释性	弱	可引入 CoT（OneRec-Think）
工业成熟度	成熟	快速演进中

与 AI 主流知识的连接

Transformer / Attention：生成式推荐和统一 CTR 模型都基于 Transformer 架构，与 LLM 共享 self-attention、cross-attention、KV cache 等基础模块
Scaling Laws：推荐领域验证了 scaling law 的有效性，但数据-参数的最优配比与 NLP 不同
RLHF / RL：DPO、GRPO 等 LLM 对齐技术被成功迁移到推荐场景
MoE：稀疏 MoE 用于扩展推荐模型容量而不按比例增加计算
Chain-of-Thought：OneRec-Think 展示了 CoT 在推荐中的有效性

当前挑战

语义 ID 的质量直接影响生成质量，tokenization 策略仍是核心瓶颈
Scaking laws 在更大规模下的外推可靠性未经验证
真实用户反馈 RL 的 reward hacking 风险
与现有多级级联架构的渐进式迁移策略
在线推理延迟 vs 离线推理质量（如 OneRec-Think 的 Think-Ahead 设计）

Blog1

探索

生成式推荐系统

生成式推荐系统

概述

两大研究方向

1. 端到端生成式推荐（End-to-End Generative Recommendation）

2. CTR 预估中的统一架构（Unified Ranking Models）

与传统推荐的关系

与 AI 主流知识的连接

当前挑战

相关页面

关系图谱

目录

反向链接