Kimi K2 开放 Agent 智能

核心结论

  • Kimi K2 是 1.04T 参数的 MoE 模型(32B 激活),核心目标是打造开放的 Agentic 智能。
  • 提出 MuonClip 优化器(Muon + QK-Clip),在 MoE 大规模训练中稳定且高效。
  • 提出 sparsity scaling law:在给定 FLOPs 预算下,稀疏度(激活参数/总参数比)存在最优值,K2 的最优稀疏度约为 4.8%。
  • 大规模 Agent 数据合成管线:tool specs agents tasks trajectories,自动化生成多样化的 Agent 训练数据。
  • 奖励信号采用 RLVR(可验证奖励)+ self-critique rubric reward,无需人工标注即可进行大规模 RL 训练。
  • 预训练数据 15.5T tokens,在多个 Agent、推理、coding benchmarks 上达到 SOTA。

关键事实

  • MoE 架构:1.04T 总参数,32B 激活参数,稀疏度约 3.1%。
  • MuonClip = Muon 优化器 + QK-Clip 梯度裁剪,专为 MoE 大规模训练设计。
  • Sparsity scaling law:稀疏度 48(即 4.8% 激活比例)为最优。
  • Agent 合成管线四步:设计 tool specs 生成 agent 定义 生成任务 生成交互轨迹。
  • RLVR + self-critique 奖励:基于可验证结果(代码执行、数学结果)和模型自评。
  • 训练数据 15.5T tokens。

方法或论证路径

  • MuonClip 解决了 MoE 训练中常见的 loss spike 问题,通过 QK-Clip 约束注意力矩阵梯度。
  • Sparsity scaling law 为 MoE 架构设计提供了理论指导:并非越稀疏越好。
  • Agent 数据合成摆脱了对人工标注的依赖,可实现规模化 Agent 训练。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • Sparsity scaling law 的结论(4.8%)是否普适于其他 MoE 架构?
  • Agent 合成数据的质量是否足以替代人工标注?有无系统性偏见?

后续问题

  • MuonClip 与 DeepSeek 的 auxiliary-loss-free load balancing 如何比较?
  • 多 Agent 协作(Agent Swarm)在 K2 上是否有预留接口?