The Rise and Potential of Large Language Model Based Agents: A Survey

基本信息

作者：Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He 等（复旦大学 NLP 组）
发表：arXiv 2309.07864，2023 年 9 月
类型：综述论文，LLM-based Agent 领域首篇全面系统综述之一
配套资源：GitHub 论文列表 LLM-Agent-Paper-List

核心论点

LLM 是构建通用 AI Agent 的理想基础：LLM 在知识获取、指令理解、泛化、推理规划和自然语言交互方面展现出强大能力，被认为是 AGI 的火花，适合作为 Agent 大脑的核心组件。
三模块通用框架：提出 Brain-Perception-Action 概念框架——Brain（LLM 驱动的知识、记忆、推理、规划）、Perception（多模态感知扩展）、Action（文本输出、工具使用、具身动作）。
从个体到社会：Agent 不仅能独立执行任务，还能通过多智能体协作/对抗产生集体智能，甚至涌现出社会现象，形成”Agent 社会”。
哲学根源与 AI 实体化：从亚里士多德和休谟的”agent”哲学概念出发，追溯到图灵测试，论证 AI agent 是哲学概念在 AI 领域的具体化。

关键技术方法

Agent 框架（Brain-Perception-Action）

Brain（大脑模块）：

自然语言交互：多轮对话、高质量生成、意图与隐含意义理解
知识：语言知识、常识知识、专业领域知识；存在知识过时和幻觉问题
记忆：提升 Transformer 长度限制、记忆摘要、向量/数据结构压缩；检索策略基于 Recency-Relevance-Importance 三指标加权
推理与规划：CoT 引导推理；规划分为 Plan Formulation（一次性分解/逐步分解/层级规划/树搜索）和 Plan Reflection（内部反馈/人类反馈/环境反馈）
迁移与泛化：零样本任务泛化（instruction tuning）、In-context Learning、持续学习（Voyager 的技能库机制对抗灾难性遗忘）

Perception（感知模块）：

文本输入 → 视觉输入（图像描述、ViT 编码器、Q-Former 对齐、视频时序理解） → 听觉输入（AudioGPT 级联范式、AST 音频频谱 Transformer） → 其他输入（触觉、手势、3D 地图、GPS、LiDAR）

Action（行动模块）：

文本输出
工具使用：理解工具 → 学习使用（示范学习/反馈学习） → 自主制造工具；工具扩展了专业知识、可解释性、鲁棒性
具身动作：观察（多模态感知）、操控（物体重排、桌面操作）、导航（内部地图构建、空间定位）

应用场景

单智能体：

任务导向：网页导航（Mind2Web、WebGum）、生活场景（PET 框架）
创新导向：化学/材料合成、药物发现、代码开发
生命周期导向：Minecraft 中 Voyager 实现终身学习探索

多智能体系统：

协作交互：无序协作（ChatLLM network、多数投票）和有序协作（CAMEL 双智能体、MetaGPT 瀑布模型、AgentVerse 动态团队）
对抗交互：辩论机制提升推理质量（Du et al. 的 debate、ChatEval 评估）

人机协作：

指导者-执行者范式：量化反馈（二值/评分/比较）和质性反馈（文本建议/视觉批评）
平等伙伴范程：共情沟通者（情感对话）、人类级参与者（游戏协作、说服能力）

Agent 社会

行为与人格：个体行为（输入/内化/输出）、群体行为（积极/中性/消极）、认知能力、情商、性格刻画（Big Five、MBTI）
社会环境：文本环境、虚拟沙盒（Generative Agents 小镇）、物理环境
社会仿真：开放性、持久性、情境性、组织性四大属性；涌现现象包括有序合作、网络传播、伦理决策、政策制定

主要结果

系统梳理了 LLM-based Agent 从哲学起源到技术实现的完整脉络
提出的 Brain-Perception-Action 框架成为后续研究的重要参考架构
全面覆盖 2023 年及之前的主要 Agent 工作，包括 AutoGPT、CAMEL、Voyager、MetaGPT、Generative Agents 等
讨论了评估维度（Utility/Sociability/Values/Evolution）、安全风险（对抗鲁棒性/可信度/滥用/失业/人类福祉威胁）和开放问题（AGI 路径争论/虚拟到物理的鸿沟/集体智能/Agent as a Service）

局限性

时效性：发表于 2023 年 9 月，未覆盖 2024 年以后的快速发展（如 GPT-4o、Claude 3、DeepSeek 系列、Kimi Agent 等）
深度不足：作为综述覆盖面广但对各子领域的技术细节讨论有限，特别是工具使用和具身动作部分
评估框架偏抽象：提出的四维评估（Utility/Sociability/Values/Evolution）缺乏具体 benchmark 和量化标准
未充分讨论开源 Agent 框架：对 LangChain、LlamaIndex 等工程生态着墨不多
多模态 Agent 讨论较浅：视觉/听觉感知部分主要是方向性介绍，缺乏对具体多模态模型架构的深入分析

与相关工作的关系

与 LLM Agent 综述 2024（人大综述）的关系

维度	本综述（复旦 2023）	人大综述（2024）
框架	Brain-Perception-Action 三模块	Profile-Memory-Planning-Action 四模块
侧重	哲学溯源 + 社会仿真 + 通用框架	架构分类 + 能力获取方法 + 工程实践
独特贡献	Agent 社会、人格涌现、集体智能	Profile 角色设定、能力获取分类（微调 vs 非微调）
互补性	本综述提供更宏观的视野和哲学基础	人大综述提供更细粒度的架构分析和实现路径

两篇综述框架有重叠但视角不同：复旦综述强调从个体智能到社会智能的演进，人大综述强调从架构设计到工程落地的方法论。

与 Agent AI Survey 2024（Agent AI 综述）的关系

维度	本综述（复旦 2023）	Agent AI 综述（2024）
范围	以 LLM 为核心的通用 Agent	多模态交互为核心的 Agent AI
模态	重点在语言，感知模块作为扩展	视觉-语言-环境数据深度融合
独特贡献	Agent 社会仿真、哲学讨论	跨现实训练框架、Embodied AI、游戏/机器人/医疗
互补性	本综述是 LLM Agent 的”总纲”	Agent AI 是多模态/具身方向的深入拓展

复旦综述为整个 LLM Agent 领域提供了概念基础和分类框架，Agent AI 综述则在多模态交互和具身智能方向做了更深入的探索。三篇综述共同构成了 2023-2024 年 LLM Agent 研究的知识图谱。

后续问题

Brain-Perception-Action 框架在 2024-2025 年的实践中是否仍然适用？与人大四模块框架相比哪个更好用？
Agent 社会仿真的规模瓶颈在哪里？从 Generative Agents 的 25 个 Agent 到更大规模需要什么突破？
LLM-based Agent 到底是不是 AGI 的可行路径？2024-2025 年的进展（推理模型、工具使用、Agent 框架）对这个问题提供了什么新证据？