OneRec-V2 Technical Report

核心结论

OneRec-V2 针对 V1 的 encoder-decoder 架构计算效率瓶颈，提出 Lazy Decoder-Only 架构，将计算量降低 94%，训练资源减少 90%，成功将模型扩展至 8B 参数。在快手 A/B 测试中 App Stay Time 提升 0.467%/0.741%。

Lazy Decoder-Only 架构：核心洞察是在 V1 中，上下文编码（context encoding）消耗了 97.66% 的 FLOPs，而目标 item 解码（target decoding）仅占 2.34%。Lazy Decoder 将所有计算集中在语义 token 的解码上。
KV-Sharing：多个 decoder block 共享同一组 key-value pair（来源于 Context Processor），消除 K/V 投影层。结合 GQA（Grouped Query Attention）大幅降低内存占用。
Scaling Laws：0.1B 到 8B 参数范围内，收敛损失精确遵循 Hoffmann et al. (2022) 的理论 scaling law，验证了生成式推荐模型的 scaling 行为。
真实用户反馈 RL：(1) Duration-Aware Reward Shaping：考虑视频时长差异，避免推荐偏向长视频；(2) Adaptive Ratio Clipping：稳定策略优化，减少训练方差。
Context Processor：将异构用户特征（静态属性、行为序列等）统一编码为 context 表示，通过 RMSNorm 生成 layer-specific 的 K/V pairs。