多模态 Agent
定义
多模态 Agent 是指能够感知和处理多种模态(文本、图像、代码等)输入、使用工具(tool-use)、在多步交互中自主规划并执行任务的智能体系统。它是 LLM 能力从”单纯生成”向”自主行动”扩展的核心方向。
Agent 能力的关键要素
1. 工具使用(Tool Use)
Agent 需要能够调用外部工具(搜索引擎、代码执行器、API 等)来完成任务。
- DeepSeek-V3.2 thinking-in-tool-use:在工具调用过程中保持思维链,不让工具调用打断推理,避免上下文膨胀。
- Kimi K2 agent 数据合成:tool specs 作为 Agent 定义的起点,工具调用的多样性和覆盖度直接影响 Agent 能力。
2. 多步规划与执行
Agent 需要将复杂任务分解为多个步骤,逐步执行并调整计划。
- Agent Swarm / PARL(Kimi K2.5):多 Agent 并行执行 + 反思循环。不同 agent 分别处理子任务,通过反思机制同步进度和修正错误。
- DeepSeek-V3.2 agent 任务合成:覆盖 1800+ 环境、85000+ prompts,通过大规模多样化的环境模拟训练 Agent 的规划和适应能力。
3. 多模态感知
Agent 需要处理图文混合输入,例如分析截图、阅读 PDF、理解 UI 界面等。
- Kimi K2.5:联合文本-视觉优化(early fusion, low vision ratio),在 Agent 交互中直接融合视觉信号。
- Zero-vision SFT:K2.5 的关键策略——先纯文本训练 Agent 能力,再加入视觉,防止多模态训练损害已有的文本 Agent 能力。
4. 反思与纠错
- PARL 反思循环:Agent 在执行中不断反思和评估当前状态,决定下一步。
- RLVR + self-critique(Kimi K2):模型对自己的输出进行评分,作为 RL 的奖励信号,直接训练模型的自我评估能力。
训练范式
大规模 Agent 数据合成(Kimi K2)
四步管线:
Tool specs -> Agent definitions -> Task generation -> Trajectory synthesis
- 从工具规格出发,自动生成多样化的 Agent 类型。
- 每种 Agent 生成对应的任务。
- 模拟 Agent 在环境中完成任务的全过程(轨迹),作为训练数据。
- 优势:无需人工标注,可实现大规模扩展。
环境合成(DeepSeek-V3.2)
- 构造 1800+ 种不同的交互环境。
- 生成 85000+ prompts 覆盖各种任务类型。
- 验证了环境多样性对 Agent 泛化能力的重要性。
联合多模态 RL(Kimi K2.5)
- 文本和视觉直接进入同一 RL 训练流程。
- Toggle RL:选择性激活视觉 tokens 进行 RL,降低开销。
- Zero-vision SFT 先确保文本 Agent 能力稳定,再加入视觉 RL。
奖励信号设计
| 方法 | 来源 | 说明 |
|---|---|---|
| 规则奖励 | DeepSeek-R1 | 仅适用数学/代码等可验证场景 |
| RLVR | Kimi K2 | 基于可验证结果的奖励 |
| Self-critique rubric | Kimi K2 | 模型自评作为奖励 |
| 环境反馈 | DeepSeek-V3.2 | 环境返回的 success/failure |
关键挑战
1. 任务多样性
Agent 能力能否泛化到未见过的新环境和工具?当前的大规模合成(1800+ 环境、85000+ prompts)提供了部分答案,但覆盖度仍有上限。
2. 多模态干扰
视觉信息的加入可能损害已有的文本推理能力。K2.5 的 zero-vision SFT 是对此的直接回应,但其普适性待验证。
3. 评估标准
缺乏统一的 Agent 能力评测基准。不同模型用不同的环境和任务,横向比较困难。
4. 安全与对齐
Agent 具备自主行动能力后,可能产生未预期的行为。当前来源中均未讨论 Agent 的安全对齐问题,这是一个空白。
演进趋势
- 从单 Agent 到多 Agent 协作:Agent Swarm / PARL 代表了从单 Agent 到多 Agent 协作的趋势。
- 从纯文本到多模态 Agent:K2 → K2.5 的演进直接展示。
- Agent 能力从后训练注入到原生内化:V3.2 和 K2 均通过预训练/持续预训练注入 Agent 能力。
- 自动化数据合成:摆脱对人工标注的依赖,是 Agent 训练规模化的关键。
深度分析:Agent 的「训练派」vs「推理派」
1. 两个阵营正在形成
- 训练派(Kimi K2/K2.5, DeepSeek-V3.2):通过大规模数据合成 + SFT/RL 把 Agent 能力直接训练进模型。这条路工程量大但可控——你知道训练了什么。
- 推理派(潜在路线,目前尚未有明确代表):如果基础模型推理能力足够强,Agent 行为(工具选择、多步规划、错误恢复)可以在推理时通过提示词和工具描述自然涌现,不需要专门的 Agent 训练数据。
目前训练派占据绝对主流。原因很简单:「推理派」的核心假设——超强推理能力自动等于 Agent 能力——还没有被任何实验验证。你不能靠假设来交付产品。
2. Agent 评估是最大瓶颈
所有 LLM 和推理模型的评估都相对成熟(MMLU, GSM8K, HumanEval, SWE-bench 等),但 Agent 的评估完全是另一个世界。任务多样性、环境交互、工具调用、多步规划——每个维度都有五花八门的评估方式。DeepSeek-V3.2 在 1800+ 环境上评估,Kimi K2 的评估细节未完全公开——两家根本无法横向比较。Agent 领域急需一个类似 MMLU 的统一评测基准,否则「我的 Agent 比你的好」永远是一句不可验证的宣言。
3. 多模态是 Agent 的必然还是选项?
Kimi K2.5 的 zero-vision SFT 策略暗示了一个令人不安的可能性:视觉训练可能损害 Agent 能力。如果视觉信息对大多数 Agent 任务(代码、数学、写作、数据分析)是多余的甚至是有害的,那么多模态 Agent 可能是个伪需求。我们可能真正需要的是「文本 Agent + 视觉 VLM」的分层架构——文本 Agent 负责核心推理和工具调用,需要理解图像时调用视觉模块——而非一个试图「做所有事」的统一多模态 Agent 模型。
4. Agent Swarm 是过度设计吗?
多 Agent 协作(Agent Swarm, PARL)的理论优势是分工和并行的效率提升。但实践中,多 Agent 的协调 overhead(通信、同步、冲突解决、结果整合)可能轻松超过收益。一个关键问题目前没有被充分研究:单 Agent + 强推理 + 丰富工具是否在效果上等价于多 Agent 协作?如果是,那 Agent Swarm 的复杂度就是不必要的。这个等价性问题需要精心设计的对照实验来回答。
5. 安全对齐的空白
所有当前来源中均未讨论 Agent 的安全对齐问题。这是一个危险的空白。当一个 Agent 可以自主调用工具、执行代码、访问网络时,它可能造成比纯文本模型大得多的实际损害。Agent 安全不是「LLM 安全 + 工具限制」,而是一个需要独立研究的新问题——因为工具调用引入了全新的攻击面(提示注入通过工具描述、工具输出污染后续推理等)。参见 国产大模型技术路线比较。