Kimi K2.5 视觉 Agent 智能

核心结论

  • Kimi K2.5 是联合文本-视觉优化的多模态 Agent 模型,实现文本和视觉的端到端联合 RL 训练。
  • 提出 zero-vision SFT 策略:在 SFT 阶段不提供视觉输入,让模型先学会纯文本推理,再引入视觉——防止模型在视觉训练中退化。
  • Agent Swarm/PARL 架构:多 Agent 并行执行 + 反思循环,支持复杂多步 agentic 任务。
  • MoonViT-3D:原生分辨率视觉编码器,支持 NaViT 动态打包,提升多分辨率图像处理效率。
  • Toggle token-efficient RL:选择性激活视觉 tokens 进行 RL 训练,大幅降低训练开销。
  • Decoupled Encoder Process (DEP):编码器与解码器分离处理,提升推理效率。

关键事实

  • 联合文本-视觉优化(early fusion, low vision ratio)。
  • Zero-vision SFT 防止视觉训练导致文本能力退化。
  • Agent Swarm/PARL:多 Agent 并行 + 反思机制。
  • MoonViT-3D + NaViT packing,原生分辨率处理。
  • Toggle RL:选择关键视觉 tokens 进行 RL 训练,降低计算开销。
  • DEP 架构解耦编码和解码过程。

方法或论证路径

  • 联合 RL 训练(文本+视觉)需要特殊处理以避免跨模态干扰,zero-vision SFT 是关键步骤。
  • Agent Swarm 通过多 Agent 并行和反思循环解决复杂多步任务。
  • Toggle 方法在视觉 RL 中实现 token 级别的效率优化。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • Zero-vision SFT 的效果是否被后续 ablation 充分验证?
  • Agent Swarm 的计算开销是否在实际部署中可控?

后续问题

  • K2.5 的 Agent Swarm 与 DeepSeek-V3.2 的 agent 合成管线如何对比?
  • MoonViT-3D 与 MoonViT(Kimi-VL)的具体架构差异是什么?