吴师兄大模型
实战项目 · 面试解析

请列举当前主流的大语言模型相关应用产品,选择其中一到两款,从技术架构(如RAG、Agent等)、应用场景、用户体验优势及潜在改进空间等方面进行综合分析,说明其如何实现技术与产品价值的结合。

Agent 智能体进阶
← 返回列表
核心概念

AI Agent 是大模型生态中最重要的应用范式,通过规划->工具调用->反思->执行的循环,解决普通 LLM 无法处理的复杂多步骤任务。核心优势:自主性(无需每步人工干预)和可扩展性(添加工具快速扩展能力边界)。核心挑战:稳定性(多步骤失败级联)、成本控制(API 调用多)、可解释性(推理路径长)。典型工业案例:拓业智询(DeepResearch)银行智能咨询助手,将分析利润率并预测趋势这类复杂问题自动拆解为多步骤执行,全程无需人工干预。

面试答题思路
4步拆解
1
先说 Agent 解决的核心问题
LLM 的三大局限(无工具、静止、健忘),Agent 通过工具/规划/记忆三大模块逐一解决。
2
说核心优势
突破单轮限制、工具可扩展、自主决策。结合拓业智询的财务分析 Agent 具体案例说明实际价值。
3
客观说局限性
稳定性(多步骤失败风险)、成本(API 调用多)、可解释性(推理路径长)。体现你对技术有成熟的认知。
4
说发展趋势
端到端强化学习(GRPO/DAPO)、测试时间扩展(TTS)、多模态 Agent、Computer Use。展现对领域前沿的了解。
详细解析

Agent 的核心优势

1. 突破单轮限制:多步骤迭代,复杂任务分解执行

2. 工具可扩展:添加新工具 = 获得新能力(无需重新训练)

3. 自主决策:根据中间结果动态调整策略

4. 任务自动化:减少人工干预,7x24 小时运行

拓业智询实际案例:

企业输入:「分析我们公司利润率与同行对比,并预测下季度趋势」

Agent 执行:

Step 1: text2sql 查询企业内部财务数据

Step 2: web_search 获取行业平均利润率

Step 3: code_executor 绘制对比图表 + 趋势预测

Step 4: LLM 生成专业分析报告

全程无需人工干预,15秒内完成

Agent 的主要局限性

1. 稳定性问题

多步骤任何一步失败可能导致整体任务失败

解决:容错机制 + 重试策略 + 优雅降级

2. 成本问题

每次推理需要多次 LLM 调用 + 工具调用

API 成本是普通聊天的 5-10 倍

解决:缓存策略 + 提前终止 + 精简 max_steps

3. 可解释性问题

推理路径较长,用户难以理解每一步

解决:记录完整 reasoning_steps,提供执行日志

4. 幻觉风险

工具调用失败时,LLM 可能编造返回结果

解决:强制要求 Observation 必须来自真实工具返回

Agent 工作流(Workflow)设计

python
# 工具是否应该组织为 Workflow?
# 优点:流程可视化、可复用、支持并行、易于调试
# 缺点:增加初始设计成本,灵活性略低

# 适合 Workflow 的场景:
# - 流程固定:报告生成、数据处理管道
# - 有并行需求:多路搜索同时进行
# - 需要复用:相同步骤在多个任务中复用

# 不适合 Workflow 的场景:
# - 完全动态:每次执行路径差异很大
# - 简单任务:1-2 步工具调用,不需要过度设计

DeepResearch Agent 架构(高阶案例)

DeepResearch Agent = LLM + 多轮迭代搜索 + 演进报告(IterResearch)

核心创新:用「演进报告(Evolving Report)」解决上下文溢出

传统 ReAct:上下文随步数线性增长,20步后溢出

IterResearch:每轮只保留 [问题 + 上轮报告 + 上轮动作 + 上轮观察]

上下文大小恒定,支持 100+ 步深度研究

训练流程:基座模型选择 -> Agentic CPT -> 数据构造 -> SFT 冷启动 -> RL 优化

训练数据:从 187 条 -> 1000 条 -> 3000 条逐步扩展

评估:格式分 + 工具选择准确率 + 答案准确率三维评估

重点提示
Agent 的最高形态是 DeepResearch Agent(如 OpenAI Deep Research):自主规划 -> 多轮迭代搜索 -> 动态策略调整 -> 综合报告。能处理需要数十步推理的复杂研究任务,这是传统 RAG 根本无法实现的。
Agent 落地的最大挑战不是准确率,而是稳定性和成本控制:复杂任务的 API 调用成本是简单聊天的 10-20 倍,同时多步骤执行中任何一步失败都可能导致整体任务失败,必须设计完善的容错和降级机制。
知识卡片
4个知识点
Agent 适用场景判断

适合:需查外部数据库/实时信息、需多步骤分析、需要自动化执行、需处理复杂信息综合。不适合:简单事实问答(直接 LLM 更快更便宜)、实时性极强场景(多步骤延迟高)。

DeepResearch 训练数据演进

第一阶段(200条):稳定格式与工具调用结构,简单题比例 >=25%;第二阶段(1000条):提升工具选择准确性;第三阶段(3000条):覆盖更多行业场景,多样化 4行业 x 6类型均衡采样。

Agent 安全防护

隐私保护:用户数据不写入训练,会话隔离;越权防护:工具调用权限白名单,用户只能访问自己的数据;代码沙箱:执行用户生成代码时必须在隔离容器中,限制网络和文件系统访问。

工作流 vs 动态 Agent

工作流(Workflow):流程固定、可预测、易调试,适合生产关键路径;动态 Agent:灵活应对未知情况,适合探索性任务。拓业智询采用两者结合:固定业务流程用 Workflow,灵活研究任务用动态 Agent。

面试官视角

被问Agent 在实际业务中的挑战时,给出具体数字比泛泛而谈有力得多:我们上线拓业智询 Agent 时,初期工具调用失败率 8%(搜索 API 超时为主),通过设置 30s 超时 + 3次重试 + 指数退避,降到 0.3%;平均推理步数从 15 步优化到 8 步(改进 Planner Prompt,减少冗余搜索),成本降低约 45%;用户满意度从 3.2 分提升到 4.3 分(5分制)。这三个数字——失败率、步数、满意度——是面试官最想听到的。