OneRec 系列模型
概述
OneRec 是快手(Kuaishou)提出的端到端生成式推荐模型系列,从 2024 年到 2025 年经历了从统一召回排序、架构优化、推理引入到开源基础模型的完整演进。OneRec 系列代表了工业界将生成式 AI 应用于推荐系统的最前沿实践。
演进路线
OneRec (V0) - 统一召回排序 (2024/2025)
论文:OneRec Unifying Retrieve and Rank 2025 核心贡献:
- 首个在工业场景中显著超越传统级联推荐系统的端到端生成式模型
- Encoder-Decoder 架构(T5 风格)+ 稀疏 MoE 扩展容量
- Session-wise 生成:一次生成一个 session(5-10 个视频),而非逐点预测
- Iterative Preference Alignment (IPA):reward model + self-hard negatives + DPO
- 在线效果:watch-time 提升 1.6%
OneRec (V1) - 技术报告 (2025)
论文:OneRec Technical Report 2025 核心贡献(最全面的系统描述):
- 完整的工业级架构:Tokenizer(RQ-Kmeans + 多模态协同对齐) → Encoder(四条特征通路) → Decoder(自回归生成 + RL)
- Scaling Laws:将 FLOPs 提升 10x 后首次发现推荐领域的 scaling law
- 基础设施优化:MFU 达 23.7%(训练)/ 28.8%(推理),OPEX 仅 10.6%
- 处理 25% QPS:快手主 APP + 快手极速版,App Stay Time 提升 0.54%/1.24%
OneRec-V2 - Lazy Decoder-Only (2025)
论文:OneRec-V2 Technical Report 2025 核心贡献:
- Lazy Decoder-Only 架构:消除 encoder 瓶颈,计算量降低 94%,训练资源减少 90%
- KV-Sharing + GQA:无需 K/V 投影的懒人 cross-attention,大幅降低显存
- Context Processor:异构特征统一编码
- 真实用户反馈 RL:Duration-Aware Reward Shaping + Adaptive Ratio Clipping
- 扩展至 8B 参数,scaling law 拟合准确
- 在线效果:App Stay Time 提升 0.467%/0.741%
OneRec-Think - CoT 推理推荐 (2025)
论文:OneRec-Think 2025 核心贡献:
- 将 Chain-of-Thought 推理引入生成式推荐
- 三阶段训练:Itemic Alignment → Reasoning Activation → Reasoning Enhancement
- Rollout-Beam Reward:解决推荐场景中 RL reward 稀疏问题
- Think-Ahead 架构:离线推理 + 在线最终化,解决延迟问题
- SOTA on Amazon Beauty/Sports/Toys,App Stay Time 提升 0.159%
OpenOneRec - 开源基础模型 (2025)
论文:OpenOneRec Technical Report 2025 核心贡献:
- 首个开源推荐基础模型(1.7B/8B),完整训练管线开源
- RecIF-Bench:8 任务 holistic 评估基准(Layer 0-3)
- Scaling Laws:N_opt ∝ C^0.44, D_opt ∝ C^0.56(推荐偏数据饥渴)
- Co-Pretraining:推荐语料 + 通用文本混合训练,防止灾难性遗忘
- Amazon 跨域迁移:平均 Recall@10 提升 26.8%
技术对比
| 特性 | V0 | V1 | V2 | Think | OpenOneRec |
|---|---|---|---|---|---|
| 架构 | Enc-Dec | Enc-Dec | Lazy Dec-Only | LLM + Think-Ahead | Dense LM |
| 模型规模 | - | - | 0.1B-8B | - | 1.7B, 8B |
| Tokenization | Balanced K-Means | RQ-Kmeans + 协同对齐 | RQ-Kmeans(复用 V1) | Itemic Token | RQ-Kmeans |
| 生成方式 | Session-wise | Next token | Next token | CoT + item | Instruction-following |
| RL 对齐 | DPO (self-hard) | Reward Model RL | 真实用户反馈 RL | GRPO | GRPO |
| 开源 | 否 | 否 | 否 | 否 | 是 |
| 产业务效果 | +1.6% watch time | +0.54%/1.24% stay time | +0.467%/0.741% stay time | +0.159% stay time | Amazon +26.8% |
| 独特贡献 | 统一召回排序 | 系统架构 + scaling law | 94% 计算量降低 | CoT 可解释推荐 | 开源生态 |
OneRec 系列对生成式推荐领域的影响
- 技术验证:端到端生成式推荐可以显著超越传统级联架构
- Scaling Laws:首次在推荐领域验证 scaling law,为资源投入提供理论依据
- 工程标杆:MFU 达 28.8%、OPEX 仅 10.6% 成为行业参考
- 开源推动:OpenOneRec 开放完整训练管线,降低复现门槛
- 范式拓展:从纯推荐到推理增强(Think)、从封闭到开放(OpenOneRec)
与外部 AI 技术的连接
- Transformer 架构:从 T5 encoder-decoder 到 LLaMA decoder-only 的演进,与 LLM 架构发展平行
- Scaling Laws:与 NLP 领域的 Chinchilla (Hoffmann et al., 2022) 形成对比和互补
- RLHF/RL:DPO → GRPO 的对齐技术迁移路径
- MoE:稀疏专家混合在推荐模型中的应用
- CoT Reasoning:从 LLM 的零样本 CoT 到推荐领域的推理激活和增强