Kimi 系列模型

简介

Kimi 是 Moonshot AI(月之暗面)推出的大模型系列,以长上下文 RL、MoE 高效架构、Agent 数据合成和联合多模态优化为主要特色。从 k1.5 的推理 RL 到 K2.5 的多模态 Agent,形成了一条清晰的能力递进路线。

模型演进

Kimi k1.5

  • 核心目标:将 RL 训练上下文扩展到 128K,实现长链推理的强化学习。
  • 关键创新:
    • Long context RL(128K):支持多轮长链推理轨迹。
    • Partial rollouts:提高长轨迹 RL 训练效率。
    • Online mirror descent:比 PPO 更稳定的策略优化。
    • Length penalty:控制推理输出长度。
    • Curriculum/prioritized sampling:逐步提升训练难度。
    • Long2short(四种方法):model merging、shortest rejection sampling、DPO、long2short RL——将长链推理能力压缩到短输出。
  • 多模态:同时将 RL 训练扩展到视觉-文本任务。
  • 来源:Kimi k1.5 强化学习规模化

Kimi K2

  • 参数:1.04T 总参数 / 32B 激活参数(MoE)。
  • 训练数据:15.5T tokens。
  • 核心创新:
    • MuonClip 优化器:Muon + QK-Clip 梯度裁剪,解决 MoE 训练中的 loss spike 问题。
    • Sparsity scaling law:在给定 FLOPs 预算下,稀疏度 48(4.8% 激活比例)为最优。
    • 大规模 Agent 数据合成:四步管线——定义 tool specs 生成 agent 描述 生成任务 合成交互轨迹。
    • RLVR + self-critique rubric reward:无需人工标注的奖励机制。
  • 定位:首个明确以 Agent 能力为核心的 Kimi 大模型。
  • 来源:Kimi K2 开放 Agent 智能

Kimi K2.5

  • 核心目标:联合文本-视觉优化的多模态 Agent。
  • 关键创新:
    • Zero-vision SFT:SFT 阶段先不提供视觉,防止视觉训练导致文本能力退化,再引入视觉。
    • Agent Swarm / PARL:多 Agent 并行执行 + 反思循环,解决复杂多步任务。
    • MoonViT-3D:原生分辨率视觉编码器,结合 NaViT dynamic packing。
    • Toggle token-efficient RL:选择性激活视觉 tokens 进行 RL,降低训练开销。
    • DEP(Decoupled Encoder Process):编码-解码分离处理,提升推理效率。
    • Joint multimodal RL:文本和视觉同时进行 RL 训练。
  • 定位:从纯文本 Agent(K2)扩展到多模态 Agent(K2.5)。
  • 来源:Kimi K2.5 视觉 Agent 智能

Kimi-VL

  • 参数:2.8B 激活参数 MoE VLM。
  • 核心创新:
    • MoonViT:原生分辨率视觉编码器,支持 NaViT packing。
    • 128K 上下文:支持长文档、多页 PDF 等多帧输入。
    • Kimi-VL-Thinking:叠加 long-CoT SFT + RL 的推理变体。
  • 定位:极小参数量达到 SOTA VLM 性能,证明小 MoE VLM 的潜力。
  • 来源:Kimi-VL 技术报告

核心技术贡献一览

贡献首次引入说明
Long context RL (128K)k1.5超长上下文强化学习
Partial rolloutsk1.5长轨迹 RL 效率优化
Online mirror descentk1.5稳定策略优化
Long2shortk1.5四种蒸馏方法
MuonClip (QK-Clip)K2MoE 训练稳定优化器
Sparsity scaling lawK2稀疏度优化理论
Agent 数据合成管线K2四步自动化 Agent 数据生成
RLVR + self-critiqueK2免人工标注奖励
Zero-vision SFTK2.5防止多模态训练退化
Agent Swarm / PARLK2.5多 Agent 并行协作
MoonViT-3DK2.53D 视觉编码器
Toggle RLK2.5Token 高效视觉 RL
DEPK2.5编码器解耦
MoonViTKimi-VL原生分辨率 ViT
VL-ThinkingKimi-VLVL 推理变体

设计哲学

  1. RL 驱动:从 k1.5 到 K2.5,RL 始终是核心训练方法,从文本 RL 扩展到多模态 RL。
  2. Agent 原生:K2 开始将 Agent 能力内化到模型训练,K2.5 进一步扩展到多模态 Agent。
  3. 效率优先:MuonClip、partial rollouts、Toggle RL、DEP 均围绕训练和推理效率。
  4. 多层次:从纯文本推理(k1.5) Agent 推理(K2) 多模态 Agent(K2.5) 高效 VLM(VL),形成完整的能力矩阵。
  5. 理论驱动:Sparsity scaling law 体现了对架构设计的理论化思考。

批判性评估

最大优势:理论化思维

Kimi 是所有国产大模型团队中最”学院派”的。sparsity scaling law 不是简单的”多试几个稀疏度看哪个好”,而是建立了一个理论框架——在给定 FLOPs 预算下,稀疏度的最优值是多少。MuonClip 也不是简单的”加个梯度裁剪”,而是分析了 MoE 训练中 QK attention 导致 loss spike 的根因。这种”不满足于 work,还要知道 why”的态度,是长期技术积累的基础。

与 DeepSeek 的对比:谁更”原创”?

Kimi 和 DeepSeek 在 MoE + RL + Agent 三位一体的框架下走了非常相似的路。但深层差异是:DeepSeek 的原创更”显性”(新架构组件、新训练算法都有明确的首次引入时间),Kimi 的原创更”隐性”(在同一框架下做了不同的算法选择和理论分析)。R1-Zero 的纯 RL 涌现是”谁都能看懂”的创新,sparsity scaling law 是”需要仔细读才能发现价值”的创新。

开源策略的代价

Kimi 在三条线中开源度最低。技术报告详细但模型权重不完全开放。这在短期是保护商业优势,但长期可能导致社区生态落后——开发者更愿意围绕 DeepSeek 和 Qwen 建设工具和 benchmark。Agent 能力本身就是高度依赖”生态”的(工具定义、环境适配),如果社区不在 Kimi 上建设,Agent 能力的实际可用性会被削弱。

K2.5 的 zero-vision SFT:一个反直觉的设计选择

“训练多模态 Agent 时先不给视觉”——这听起来很奇怪。但它揭示了一个真实问题:视觉 token 的信息密度远低于文本 token(一张图几千个 token,但携带的信息可能用几十个文本 token 就能描述)。如果模型在训练早期就依赖视觉 token,它可能学会”看图”而不是”理解任务”。Zero-vision SFT 强制模型先学会 Agent 的核心能力(规划、工具使用),再加入视觉。这是一个聪明的工程决策,但它也暗示当前的训练方法无法让模型同时学习文本 Agent 和视觉感知——这是一个值得深入研究的问题。

VL-Thinking 的潜力

Kimi-VL-Thinking(2.8B 激活 MoE VLM + long-CoT RL)是目前已知最小的”推理 VLM”。如果这个极小模型在视觉推理上能与 GPT-4o 竞争,那它代表的”小 MoE + 推理 RL”路线可能比 Dense 大 VLM 路线更高效。但性能数据来自 Kimi 自己,需要第三方验证。