Kimi K2.5: Visual Agentic Intelligence

一句话总结：Kimi K2.5 在 K2 基础上引入联合文本-视觉优化和 Agent Swarm 并行 agent 编排框架，通过 early vision fusion、zero-vision SFT、多模态联合 RL 以及 PARL（Parallel-Agent RL）实现 vison-text 双向增强和并行任务执行，在多个 benchmark 上达到开源 SOTA，推理延迟降低 4.5x。

Figure 1: Kimi K2.5 主结果。

Intro

Motivation

Kimi K2.5 致力于解决两个关键问题：

文本与视觉如何联合优化而不互相冲突？传统方法将视觉作为后期附加组件，容易损害语言能力
串行 agent 执行的延迟和可扩展性限制？复杂任务（如大规模搜索/工程）需要并行分解

贡献

联合文本-视觉优化：early vision fusion + zero-vision SFT + 多模态联合 RL，视觉 RL 反过来提升文本性能
Agent Swarm（PARL 框架）：可训练 orchestrator 动态分解任务、创建子 agent 并行执行，延迟降低 3~4.5x
MoonViT-3D：原生分辨率视觉编码器，支持 NaViT packing 和 4x 视频时序压缩
Toggle 训练策略：交替「预算约束」与「标准缩放」阶段，提升 token 效率 25~30%

Method 核心方法

1. 联合文本-视觉优化

Native Multimodal Pre-training：

在固定 token 预算下，early fusion + 低 vision ratio（10%）优于 late fusion + 高 ratio（50%）
K2.5 在整个训练过程中以恒定比例混合文本和视觉 token，在约 15T tokens 上联合预训练

Zero-Vision SFT：

仅用文本 SFT 数据激活视觉和 agentic 能力（视觉操作通过 IPython 程序代理完成）
发现 text-vision SFT 反而损害视觉/agentic 性能（缺乏高质量视觉数据），zero-vision 却泛化更好
原因：联合预训练已建立强 vision-text 对齐，能力自然跨模态泛化

联合多模态 RL：

Outcome-based visual RL（视觉定位、图表理解、STEM 问题）
关键发现：视觉 RL 提升了文本性能（MMLU-Pro +1.7、GPQA-Diamond +2.1）
最终采用能力域（而非模态）划分 RL：同一能力域专家同时从纯文本和多模态 query 学习

Figure 2: 从 zero-vision SFT 出发的视觉 RL 训练曲线。视觉 benchmark 性能随 RL FLOPs 扩展持续提升，验证了 zero-vision 激活 + 长 RL 即可获得鲁棒视觉能力。

Toggle 策略：交替执行 Phase0（预算约束、条件惩罚超长输出）和 Phase1（标准最大 token 限制），降低 25~30% 输出 token 同时基本保持性能

RL 目标函数：

L_{RL} (θ) = E_{x \sim D} \frac{1}{N} j = 1 \sum K i = 1 \sum ∣ y_{j} ∣ Clip (\frac{π _{θ} ( y _{j}^{i} ∣ x , y _{j}^{0 : i} )}{π _{old} ( y _{j}^{i} ∣ x , y _{j}^{0 : i} )}, α, β) (r (x, y_{j}) - \overset{r}{ˉ} (x)) - τ (lo g \frac{π _{θ}}{π _{old}})^{2}

Token-level clipping 稳定长轨迹多步工具使用 RL
生成式奖励模型（GRM）：细粒度评估 helpfulness、answer readiness、上下文相关性、美学质量等

2. Agent Swarm

PARL（Parallel-Agent RL）架构：

Trainable orchestrator + 冻结子 agent（来自固定中间 checkpoint）
解耦设计避免信用分配模糊和训练不稳定

Figure 3: Agent Swarm 架构。可训练的 orchestrator 动态创建专门的冻结子 agent，将复杂任务分解为可并行执行的子任务。

PARL 奖励函数：

r_{PARL} (x, y) = λ_{1} 并行奖励 r_{parallel} + λ_{2} 完成率 r_{finish} + 任务结果 r_{perf} (x, y)

$r_{parallel}$ ：防止 serial collapse（回退到单 agent 执行）
$r_{finish}$ ：防止 spurious parallelism（无意义大量创建子 agent）
$λ_{1}$ 、 $λ_{2}$ 训练过程中退火到 0

Critical Steps 资源约束：按 computation graph 定义关键步骤，最长并行分支决定阶段耗时，激励均衡任务分解。

3. MoonViT-3D 架构

从 SigLIP-SO-400M 初始化，加入 NaViT packing 支持变分辨率
视频：连续 4 帧为 spatiotemporal volume，patch-level 时序平均实现 4x 压缩
图像和视频完全共享参数

4. 训练基础设施

DEP（Decoupled Encoder Process）：视觉编码器前向在所有 GPU 上均衡分配，舍弃中间激活，主 backbone 训练后再重算视觉 forward + backward
多模态训练效率达到纯文本训练的 90%

实验/评估/结果

主结果（部分）

Benchmark	Kimi K2.5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DS-V3.2
AIME 2025	96.1	92.8	100	95.0	93.1
HMMT 2025	95.4	92.9	99.4	97.3	92.5
HLE w/ tools	50.2	43.2	45.5	45.8	40.8
SWE-bench Verified	76.8	80.9	80.0	76.2	73.1
BrowseComp	60.6	37.0	65.8	37.8	51.4
MMMU-Pro	78.5	74.0	79.5	81.0	-
OSWorld	63.3	66.3	8.6	20.7	-
VideoMMMU	86.6	84.4	85.9	87.6	-

Agent Swarm

Benchmark	Agent Swarm	单 Agent	提升
BrowseComp	78.4	60.6	+17.8
WideSearch	79.0	72.7	+6.3
In-house Swarm	58.3	41.6	+16.7

延迟：WideSearch 达到 70% F1 时 3~4.5x 加速

Token 效率

Benchmark	K2.5	K2 Thinking	Gemini 3 Pro	DS-V3.2
AIME 2025	96.1 (25k)	94.5 (30k)	95.0 (15k)	93.1 (16k)
GPQA Diamond	87.6 (14k)	84.5 (13k)	91.9 (8k)	82.4 (7k)

结论

Kimi K2.5 证明通过联合文本-视觉优化 + 并行 agent 编排可以同时提升性能与效率。Zero-vision SFT 是重要的方法论发现：多模态能力可以通过纯文本训练激活。Agent Swarm 将任务复杂性从线性缩放转变为并行处理。

思考

优点

文本-视觉双向增强是重要发现：视觉 RL 提升文本性能（MMLU-Pro +1.7），挑战了”多模态训练损害文本能力”的传统认知
Zero-vision SFT 反直觉但有效：证明联合预训练建立的对齐可以实现能力跨模态泛化
Agent Swarm 是具前瞻性的 agent 框架：PARL 的串行崩溃/虚假并行双奖励设计精巧，Critical Steps 作为资源约束实用
DEP 训练基础设施创新：保持文本训练已有并行策略，对社区工程实践有参考价值
Toggle 策略平衡质量与效率：预算约束阶段条件化，避免过早牺牲质量

缺点

Agent Swarm 的实际部署复杂度：多个子 agent 并行需要大量推理资源，成本和延迟在低预算场景可能不如单 agent
与 Gemini-3.0-Pro 的 token 效率差距仍大：推理问题输出 25k vs 15k，工程实用性受限
Agent Swarm 任务类型受限：主要在搜索场景评估，SWE 等代码场景未验证
视觉编码器的计算开销：支持 3.2M 像素输入，低端设备部署困难
GRM 的复杂性和潜在偏差：多个 GRM rubric 虽设计精巧，但对齐成本和效果验证不足

Blog1

探索