Kimi k1.5 强化学习规模化

核心结论

  • Kimi k1.5 提出将 RL 训练上下文扩展到 128K tokens,通过长上下文实现更复杂推理链路的强化学习。
  • 核心创新包括 partial rollouts(提高长轨迹训练效率)、online mirror descent 策略优化、以及 length penalty 控制推理长度。
  • 提出了 long2short 方法(模型合并、最短拒绝采样、DPO、long2short RL),将长链推理能力压缩到短输出中,实现效率与效果的平衡。
  • 同时将 RL 训练扩展到多模态(文本+视觉),证明强化学习范式在视觉推理上同样有效。

关键事实

  • 上下文长度扩展至 128K tokens,支持多轮长链推理的 RL 训练。
  • 策略优化采用 online mirror descent,相比于 PPO 更稳定。
  • curriculum sampling 和 prioritized sampling 控制训练数据难度,逐步提升。
  • long2short 四种方法:model merging、shortest rejection sampling、DPO、long2short RL。
  • 在数学和编程 benchmarks 上达到 SOTA 水平。

方法或论证路径

  • 长上下文 RL 训练(128K)带来明显性能提升,但需要 partial rollouts 来提高效率。
  • Online mirror descent 比传统 PPO 更稳定,尤其在大规模训练中。
  • Long2short 管线验证了长链推理能力可以高效蒸馏到短输出模式。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • Long2short 方法的泛化性:是否所有推理能力都能通过蒸馏压缩?
  • 与 DeepSeek-R1 的不同训练策略(GRPO vs online mirror descent)对比效果待深入分析。

后续问题

  • long2short 中的四种方法各自贡献度如何?能否量化分析?
  • 128K 极限是否已经足够,还是有进一步扩展空间?