Agent 架构详解:从原理到工程实现

目录


一、前言

随着大模型(LLM)的发展,传统“问答式 AI”正在向**具备自主决策能力的 Agent(智能体)**演进。

相比普通 LLM,Agent 不仅能“回答问题”,还可以:

  • 拆解复杂任务
  • 调用工具执行操作
  • 进行多轮推理
  • 持续学习与优化

👉 本质上,Agent 是一个具备“类人工作流程”的系统。


二、什么是 Agent?

一句话定义:

Agent = LLM + Planning + Tools + Memory

更完整一点:

Agent 是一个具备“感知、推理、决策、执行、记忆、反馈”的闭环智能系统。


三、Agent 核心架构(重点🔥)

3.1 总体架构图

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
            ┌──────────────┐
│ 用户输入 │
└──────┬───────┘

┌──────────────┐
│ 感知模块 │
└──────┬───────┘

┌──────────────┐
│ LLM │
│(推理/理解) │
└──────┬───────┘

┌──────────────┐
│ Planner规划 │
└──────┬───────┘

┌──────────┴──────────┐
↓ ↓
┌──────────────┐ ┌──────────────┐
│ Tools调用 │ │ Memory系统 │
└──────────────┘ └──────────────┘
↓ ↑
└──────────┬──────────┘

┌──────────────┐
│ 输出 + 反馈 │
└──────────────┘

四、六大核心组件详解

4.1 感知模块(Perception)

作用

负责接收并解析用户输入

输入类型

  • 文本(Prompt)
  • 图片 / 文件 / 音频
  • 外部数据(API / DB)

本质

👉 将“非结构化输入”转为模型可理解的信息

4.2 大模型核心(LLM Core)

作用

Agent 的“大脑”

核心能力

  • 语义理解(NLU)
  • 推理能力(Reasoning)
  • 文本生成(Generation)

常见机制

  • Chain of Thought(思维链)
  • Tool Calling(工具决策)

👉 本质:负责“思考”

4.3 规划模块(Planner)

作用

将复杂任务拆解为多个子任务

示例

用户输入:

帮我制定后端学习计划

Planner 输出:

  1. 分析学习目标
  2. 拆分阶段(Java基础 / Web / 数据库)
  3. 制定每日任务

常见模式

  • ReAct(Reason + Act)
  • Plan-and-Execute
  • Tree of Thoughts

👉 本质:决定“怎么做”

4.4 工具模块(Tools / Skills)

作用

让 Agent 具备“执行能力”

常见工具

  • Web 搜索
  • Python 执行
  • 数据库查询
  • API 调用

核心逻辑

LLM 决定:

  • 是否调用工具
  • 调用哪个工具
  • 参数如何构造

👉 本质:解决“能不能做”

4.5 记忆系统(Memory)

作用

让 Agent 具备上下文理解和长期记忆

分类

  • 短期记忆**
    • 当前对话上下文
    • Token Window
  • 长期记忆
    • 用户偏好
    • 历史记录
    • 知识库(RAG)

技术实现

  • Embedding + 向量数据库

👉 本质:避免“失忆问题”

4.6 执行与反馈(Executor + Feedback)

作用

执行任务并持续优化结果

包含能力

  • 工具结果处理
  • 错误重试
  • 自我反思(Reflection)

高级机制

  • Self-Correction
  • Critic 模型

👉 本质:形成闭环优化系统


五、Agent 工作流程(面试高频🔥)

1
2
3
4
5
6
7
8
9
1. 用户输入任务
2. 感知模块解析输入
3. LLM 进行语义理解
4. Planner 拆解任务
5. 判断是否需要工具调用
6. 执行 Tools
7. 获取结果
8. 写入 Memory
9. 返回最终输出

六、案例分析(工程视角)

🎯 场景:论文分析 Agent

用户输入:

帮我分析一篇论文

内部流程

阶段 行为
感知 识别任务类型为“论文分析”
Planner 拆分为:摘要 / 方法 / 实验
LLM 判断需要解析 PDF
Tools 调用文档解析工具
Memory 存储分析结果
输出 返回结构化总结

七、常见面试问题总结

1:Agent 和普通 LLM 有什么区别?

LLM Agent
只负责生成 可执行任务
无记忆 有 Memory
单轮推理 多轮决策
无工具 可调用工具

2:Agent 的核心能力是什么?

👉 三点:

  • 推理能力(LLM)
  • 执行能力(Tools)
  • 记忆能力(Memory)

3:Agent 为什么需要 Planner?

👉 因为 LLM 不擅长处理复杂多步骤任务,需要:

  • 显式拆解任务
  • 控制执行流程

八、总结

Agent 的本质可以归纳为:

一个基于 LLM 的“任务执行系统”

其核心架构:

1
LLM + Planning + Tools + Memory

最终目标:

👉 从“回答问题”升级为“解决问题”