多模态 Agent

定义

多模态 Agent 是指能够感知和处理多种模态（文本、图像、代码等）输入、使用工具（tool-use）、在多步交互中自主规划并执行任务的智能体系统。它是 LLM 能力从”单纯生成”向”自主行动”扩展的核心方向。

Agent 能力的关键要素

1. 工具使用（Tool Use）

Agent 需要能够调用外部工具（搜索引擎、代码执行器、API 等）来完成任务。

DeepSeek-V3.2 thinking-in-tool-use：在工具调用过程中保持思维链，不让工具调用打断推理，避免上下文膨胀。
Kimi K2 agent 数据合成：tool specs 作为 Agent 定义的起点，工具调用的多样性和覆盖度直接影响 Agent 能力。

2. 多步规划与执行

Agent 需要将复杂任务分解为多个步骤，逐步执行并调整计划。

Agent Swarm / PARL（Kimi K2.5）：多 Agent 并行执行 + 反思循环。不同 agent 分别处理子任务，通过反思机制同步进度和修正错误。
DeepSeek-V3.2 agent 任务合成：覆盖 1800+ 环境、85000+ prompts，通过大规模多样化的环境模拟训练 Agent 的规划和适应能力。

3. 多模态感知

Agent 需要处理图文混合输入，例如分析截图、阅读 PDF、理解 UI 界面等。

Kimi K2.5：联合文本-视觉优化（early fusion, low vision ratio），在 Agent 交互中直接融合视觉信号。
Zero-vision SFT：K2.5 的关键策略——先纯文本训练 Agent 能力，再加入视觉，防止多模态训练损害已有的文本 Agent 能力。

4. 反思与纠错

PARL 反思循环：Agent 在执行中不断反思和评估当前状态，决定下一步。
RLVR + self-critique（Kimi K2）：模型对自己的输出进行评分，作为 RL 的奖励信号，直接训练模型的自我评估能力。

训练范式

大规模 Agent 数据合成（Kimi K2）

四步管线：

Tool specs -> Agent definitions -> Task generation -> Trajectory synthesis

从工具规格出发，自动生成多样化的 Agent 类型。
每种 Agent 生成对应的任务。
模拟 Agent 在环境中完成任务的全过程（轨迹），作为训练数据。
优势：无需人工标注，可实现大规模扩展。

环境合成（DeepSeek-V3.2）

构造 1800+ 种不同的交互环境。
生成 85000+ prompts 覆盖各种任务类型。
验证了环境多样性对 Agent 泛化能力的重要性。

联合多模态 RL（Kimi K2.5）

文本和视觉直接进入同一 RL 训练流程。
Toggle RL：选择性激活视觉 tokens 进行 RL，降低开销。
Zero-vision SFT 先确保文本 Agent 能力稳定，再加入视觉 RL。

奖励信号设计

方法	来源	说明
规则奖励	DeepSeek-R1	仅适用数学/代码等可验证场景
RLVR	Kimi K2	基于可验证结果的奖励
Self-critique rubric	Kimi K2	模型自评作为奖励
环境反馈	DeepSeek-V3.2	环境返回的 success/failure

关键挑战

1. 任务多样性

Agent 能力能否泛化到未见过的新环境和工具？当前的大规模合成（1800+ 环境、85000+ prompts）提供了部分答案，但覆盖度仍有上限。

2. 多模态干扰

视觉信息的加入可能损害已有的文本推理能力。K2.5 的 zero-vision SFT 是对此的直接回应，但其普适性待验证。

3. 评估标准

缺乏统一的 Agent 能力评测基准。不同模型用不同的环境和任务，横向比较困难。

4. 安全与对齐

Agent 具备自主行动能力后，可能产生未预期的行为。当前来源中均未讨论 Agent 的安全对齐问题，这是一个空白。

演进趋势

从单 Agent 到多 Agent 协作：Agent Swarm / PARL 代表了从单 Agent 到多 Agent 协作的趋势。
从纯文本到多模态 Agent：K2 → K2.5 的演进直接展示。
Agent 能力从后训练注入到原生内化：V3.2 和 K2 均通过预训练/持续预训练注入 Agent 能力。
自动化数据合成：摆脱对人工标注的依赖，是 Agent 训练规模化的关键。

深度分析：Agent 的「训练派」vs「推理派」

1. 两个阵营正在形成

训练派（Kimi K2/K2.5, DeepSeek-V3.2）：通过大规模数据合成 + SFT/RL 把 Agent 能力直接训练进模型。这条路工程量大但可控——你知道训练了什么。
推理派（潜在路线，目前尚未有明确代表）：如果基础模型推理能力足够强，Agent 行为（工具选择、多步规划、错误恢复）可以在推理时通过提示词和工具描述自然涌现，不需要专门的 Agent 训练数据。

目前训练派占据绝对主流。原因很简单：「推理派」的核心假设——超强推理能力自动等于 Agent 能力——还没有被任何实验验证。你不能靠假设来交付产品。

2. Agent 评估是最大瓶颈

所有 LLM 和推理模型的评估都相对成熟（MMLU, GSM8K, HumanEval, SWE-bench 等），但 Agent 的评估完全是另一个世界。任务多样性、环境交互、工具调用、多步规划——每个维度都有五花八门的评估方式。DeepSeek-V3.2 在 1800+ 环境上评估，Kimi K2 的评估细节未完全公开——两家根本无法横向比较。Agent 领域急需一个类似 MMLU 的统一评测基准，否则「我的 Agent 比你的好」永远是一句不可验证的宣言。

3. 多模态是 Agent 的必然还是选项？

Kimi K2.5 的 zero-vision SFT 策略暗示了一个令人不安的可能性：视觉训练可能损害 Agent 能力。如果视觉信息对大多数 Agent 任务（代码、数学、写作、数据分析）是多余的甚至是有害的，那么多模态 Agent 可能是个伪需求。我们可能真正需要的是「文本 Agent + 视觉 VLM」的分层架构——文本 Agent 负责核心推理和工具调用，需要理解图像时调用视觉模块——而非一个试图「做所有事」的统一多模态 Agent 模型。

4. Agent Swarm 是过度设计吗？

多 Agent 协作（Agent Swarm, PARL）的理论优势是分工和并行的效率提升。但实践中，多 Agent 的协调 overhead（通信、同步、冲突解决、结果整合）可能轻松超过收益。一个关键问题目前没有被充分研究：单 Agent + 强推理 + 丰富工具是否在效果上等价于多 Agent 协作？如果是，那 Agent Swarm 的复杂度就是不必要的。这个等价性问题需要精心设计的对照实验来回答。

5. 安全对齐的空白

所有当前来源中均未讨论 Agent 的安全对齐问题。这是一个危险的空白。当一个 Agent 可以自主调用工具、执行代码、访问网络时，它可能造成比纯文本模型大得多的实际损害。Agent 安全不是「LLM 安全 + 工具限制」，而是一个需要独立研究的新问题——因为工具调用引入了全新的攻击面（提示注入通过工具描述、工具输出污染后续推理等）。参见国产大模型技术路线比较。

Blog1

探索

多模态 Agent

多模态 Agent

定义

Agent 能力的关键要素

1. 工具使用（Tool Use）

2. 多步规划与执行

3. 多模态感知

4. 反思与纠错

训练范式

大规模 Agent 数据合成（Kimi K2）

环境合成（DeepSeek-V3.2）

联合多模态 RL（Kimi K2.5）

奖励信号设计

关键挑战

1. 任务多样性

2. 多模态干扰

3. 评估标准

4. 安全与对齐

演进趋势

深度分析：Agent 的「训练派」vs「推理派」

1. 两个阵营正在形成

2. Agent 评估是最大瓶颈

3. 多模态是 Agent 的必然还是选项？

4. Agent Swarm 是过度设计吗？

5. 安全对齐的空白

关系图谱

目录

反向链接