基础概念

什么是 AI Agent?

AI Agent 是一种能够感知环境、制定计划、使用工具并执行多步操作的自主系统。与传统 LLM 的一次性问答不同,Agent 具有「思考-行动-观察」的循环能力。

核心特点:

自主规划:将复杂任务分解为可执行的子任务序列
工具使用:调用外部 API、数据库、文件系统等资源
反馈循环:基于执行结果调整后续策略

LLM ReAct Tool Use Planning

ReAct(Reasoning + Acting)是 Agent 实现的基础范式。Agent 在每个步骤中交替进行「思考(Thought)」和「行动(Action)」,然后根据观察结果(Observation)决定下一步。

经典流程:
Thought → 「我需要先查询数据库获取用户信息」
Action → 调用 SQL 查询工具
Observation → 收到查询结果
Thought → 「结果符合预期,下一步生成报告」

这种显式的推理-行动交替使得 Agent 的行为可解释、可调试、可审计。

ReAct Thought-Action-Observation 可解释性

工具调用是 Agent 连接数字世界与物理世界的桥梁。通过标准化的 Function Calling 接口,Agent 可以操作数据库、发送邮件、查询天气、执行代码等。

当前主流方案:

OpenAI Function Calling:原生 JSON Schema 定义工具接口
MCP (Model Context Protocol):Anthropic 推出的开放协议,标准化工具发现与调用
LangChain Tools:丰富的预构建工具生态,降低集成成本

关键原则:工具定义必须精确(清晰的 name、description、parameters),调用结果需要经过 Agent 验证再进入推理流程。

Function Calling MCP Tool Integration API

Agent 要在多轮交互和长时间任务中保持一致性,需要有效的记忆管理策略。三种记忆类型协同工作:

短期记忆:当前对话的上下文窗口,受模型 token 限制
长期记忆:向量数据库存储的历史知识,支持语义检索
工作记忆:当前任务的状态跟踪,如进度、中间结果

业界方案包括 MemGPT 的操作系统式记忆管理,以及 LangGraph 的 Checkpoint 持久化机制。核心挑战在于何时写入、何时检索、何时遗忘。

MemGPT Vector DB Context Window Checkpoint

生产级 Agent 系统通常由多个专业化 Agent 组成。每个 Agent 只负责一个明确的子领域,通过标准化协议进行通信和协调。

常见架构模式:

Supervisor 模式:一个调度 Agent 负责任务分配和结果汇总
Pipeline 模式:Agent 链式执行,上一个的输出是下一个的输入
Swarm 模式:多个 Agent 并行执行,定期同步状态

LangGraph、CrewAI 和 AutoGen 是目前最主流的多 Agent 框架,各有侧重。

LangGraph CrewAI AutoGen Orchestration

Agent 的部署远比传统软件复杂。非确定性的输出、累积误差、工具调用失败都需要专门的监控和评估体系。

生产就绪检查清单:

端到端评估:场景化回归测试覆盖核心用户路径
安全护栏:输入/输出内容审核,工具调用权限分级
成本监控:Token 消耗追踪,自动降级策略
可观测性:全链路 Tracing,Agent 步骤可视化回放

推荐工具栈:LangSmith(Tracing)、Weights & Biases(评估)、Guardrails AI(安全)。

Evaluation Observability Guardrails Production