OneRec-Think: In-Text Reasoning for Generative Recommendation

核心结论

OneRec-Think 将 Chain-of-Thought 推理能力引入生成式推荐，使模型能够生成可解释的文本推理路径。在快手部署后实现 App Stay Time 提升 0.159%。

三阶段训练框架：(1) Itemic Alignment：通过多任务预训练将 item 语义映射到 LLM 文本空间；(2) Reasoning Activation：从剪枝后的用户上下文中蒸馏推理轨迹，再用于引导原始噪声序列的推理生成；(3) Reasoning Enhancement：使用推荐特化的 reward 函数（Rollout-Beam reward）进行 RL 优化。
Itemic Token：将 item 表示为离散的语义丰富 token，类似于自然语言的 word token，统一推荐和推理的输入空间。
Rollout-Beam Reward：针对推荐场景中标准 pass reward 稀疏的问题（大部分 rollout 命中不了目标 item，都得到零 reward），设计 beam search 内的最优匹配作为 reward，解决 GRPO 等 RL 算法在推荐场景中的 reward 稀疏挑战。
Think-Ahead 架构：为满足工业级延迟要求，将推理分为离线（生成推理路径和初始 item token）和在线（实时 OneRec 基于预生成的前缀 token 完成最终推荐）两阶段。
SOTA 性能：在 Amazon Beauty/Sports/Toys 三个数据集上全面超越 BERT4Rec、SASRec、TIGER、HSTU、ReaRec 等基线。