AI Agent 是以大语言模型为核心,具备自主规划、记忆、工具调用和执行反馈能力的智能体系统。核心公式:Agent = LLM(大脑)+ Planning(规划)+ Memory(记忆)+ Tools(工具)。与普通 LLM 的本质区别:LLM 是被动的文本生成器,Agent 是能主动感知、规划、行动、反思的数字员工。典型案例:拓业智询(DeepResearch)——银行对公客户智能行业咨询助手,能将分析我公司利润率与同行对比并预测下季度趋势这类复杂问题自动拆解为 SQL 查询 → 数据分析 → 图表生成 → 报告撰写,全程无需人工干预。
LLM vs Agent 的本质区别
| 对比维度 | 普通 LLM | Agent |
|---|---|---|
| 工作方式 | 被动单轮问答(输入->输出) | 主动感知-规划-行动循环 |
| 工具能力 | 无,只能生成文字 | 有,可调用搜索/代码/API/数据库 |
| 记忆能力 | 仅限当前上下文窗口 | 短期(上下文)+ 长期(向量库) |
| 任务类型 | 简单问答、文本生成 | 多步骤复杂任务、自主决策 |
| 错误修正 | 无,输出即最终结果 | 有,根据工具返回结果自我修正 |
用户任务-> 规划模块(Planning):任务分解、子目标制定、SOP 流程
-> 工具调用(Tools):搜索 / 代码执行 / SQL 查询 / API 调用
-> 记忆模块(Memory):短期上下文 + 长期向量数据库
-> 执行反馈(Execution):工具结果观察、自我修正、最终输出
ReAct 推理范式(核心)
Thought 1: 我需要先查询银行股 PE 数据 -> 调用 text2sqlAction 1: text2sql(query='查询所有银行股 PE 比率,按升序排列')
Observation 1: [返回5条数据:工行 5.2、建行 5.8、招行 8.3...]
Thought 2: 数据齐了,需要绘制柱状图进行对比分析
Action 2: code_executor(task='绘制银行股 PE 对比柱状图,标注行业均值')
Observation 2: [图表生成成功,路径 chart.png]
Final Answer: 根据数据,招商银行 PE 最高(8.3),工商银行最低(5.2)...
拓业智询架构(真实工业案例)
金融研报自动化分析师(LangGraph 实现)|-- RouterNode 意图识别(data_query / analysis / research / general)
|-- PlannerNode 制定 JSON 格式执行计划
|-- ExecutorNode 按计划调用工具
| |-- text2sql 自然语言转 SQL,查询内部数据库
| |-- code_executor 执行 Python,生成图表和分析
| |-- pdf_parser 解析研报 PDF
| |-- web_search 实时搜索外部信息
| |-- rag_search 检索内部知识库
|-- ReflectorNode 评估结果质量,决定是否继续迭代
|-- CriticNode 整合所有结果,生成最终专业报告
Agent = LLM + Planning + Memory + Tools。LLM 是大脑(控制器),Planning 是任务分解,Memory 突破上下文窗口限制,Tools 是连接世界的手脚。
适合:需查外部数据库/实时信息、需多步骤分析、需自动化执行、需处理复杂信息综合。不适合:简单事实问答(直接用 LLM 更快更便宜)、实时性极强场景(多步骤延迟高)。
银行客户的 7x24 小时首席战略官:市场机遇发现(行业政策搜索)、深度数据洞察(SQL 查询 + 数据分析)、竞争策略分析(网页抓取 + 总结)。核心是帮助银行客户成功 = 降低坏账风险。
最高形态:自主规划 -> 多轮迭代搜索 -> 动态策略调整 -> 综合报告。能处理需要数十步推理的复杂研究任务(如「比较2024年全球前五大电动车制造商固态电池投资」),这是传统 RAG 无法处理的。
面试官问Agent 和 Chatbot 的区别,不要只说Agent 能用工具。正确答案:本质区别在于执行范式:Chatbot 是被动单轮问答,Agent 是主动的感知-规划-行动循环。具体体现在三点:① 工具调用能力(搜索/SQL/代码执行/API);② 多步推理能力(ReAct 的 Thought->Action->Observation 循环);③ 自我修正能力(根据工具返回结果调整策略)。在我们的拓业智询项目中,Agent 能将『分析利润率并预测趋势』这类复杂任务自动拆解为 SQL 查询 + Python 分析 + 报告生成,这是普通 Chatbot 根本做不到的。