LLM Agent 与工具使用

概述

LLM Agent 是指以大语言模型为核心控制器，通过感知环境、规划行动、使用工具来完成复杂任务的自主系统。本主题涵盖 Agent 架构理论、Agent 在图像编辑中的应用，以及与多模态视觉生成的交叉。

LLM Agent 综述 2023：LLM Agent 首篇全面综述（复旦 NLP），Brain-Perception-Action 三模块框架 + Agent 社会仿真与人格涌现，2023。
LLM Agent 综述 2024：LLM Agent 统一框架（Profile-Memory-Planning-Action），中国人民大学 2024 综述。
Agent AI Survey 2024：多模态 Agent AI 综述，强调跨现实训练和 embodied AI，Stanford & Microsoft 2024。
Agent Banana：Agentic Planner-Executor 框架用于高保真图像编辑，Context Folding + Image Layer Decomposition。
AHE Agentic Harness Engineering：可观测性驱动的编码 Agent 线束自动演化，三大支柱实现闭环自改进，10 轮提升 pass@1 7.3pp，跨 benchmark 和模型家族可迁移。
Self-Evolving Agents 综述：自演化智能体系统性综述，提出模型中心→环境中心→模型-环境协同演化三大范式分类体系，强调环境应是与 Agent 共同演化的可优化伙伴。

LLM Agent 架构：Agent 的四大核心模块与设计空间。
Self-Evolving Agents 自演化智能体：以最小人类监督自主协调改进循环的 Agent 范式，强自主性+主动探索两大性质，三大演化方向（模型中心/环境中心/协同演化）。
Harness 编码 Agent 线束：编码 Agent 中所有模型外部可编辑工程组件的统称，7 种组件类型的解耦与演化。
Agentic Harness Engineering (AHE)：可观测性驱动的 harness 自动演化闭环，三大支柱（组件/经验/决策可观测性）+ 自归因契约。
Agent 能力获取：微调（Fine-tuning）vs 非微调（Prompt Engineering、Mechanism Engineering）。
多 Agent 协作：MetaGPT、ChatDev 等多角色分工模式。
Agentic 图像编辑：将 Agent 的规划-执行-自检循环引入图像编辑任务。

如何量化 Agent 规划的质量和可靠性？
Agent 工具调用（Tool Use）的泛化性：从 API 到视觉编辑工具的迁移？
长期任务中的累积误差如何检测和纠正？
Harness 自动化演化：AHE 解决了 harness 可观测性瓶颈，但回归盲区（regression blindness）和组件非加性交互仍是开放挑战。
Harness + 模型联合优化：AHE 的”模型外优化”与 RL 训练的”模型内优化”能否协同？能否形成联合闭环？
Harness 的知识折旧：随着基座模型升级，已演化的 harness 如何”保鲜”？何时需要重新演化？