万字长文:一文读懂Agent,大模型的下一站(上)

文摘   2024-08-20 17:29   北京  

这是求职产品经理系列的第290篇文章

一、什么是Agent?为什么是Agent?


除了用于聊天,AI大模型还有哪些潜力可挖?
当我们将其视为“核心调度器”时,它就成为了我们的Agent。通过整合任务规划、记忆和外部工具等多种能力,大模型能够识别并自主执行各类任务,从而实现智能决策。
这样的智能助手不仅仅是“任务执行工具”,它更像是一个具有人类思维模式的“仿主体”。
这种仿主体性意味着Agent能够模拟人类的方式,从“计划”、“组织”、“执行”到“学习”,全程自主完成任务。

Agent的主动模式相较于传统软件或机械的被动模式,带来了革命性的变化。
我们可以为Agent设定能力范围,使其能够自主发现问题、设定目标、构思策略、选择方案、执行任务并进行检查和更新。
因此,Agent可以被视为“具备自主智能的实体”,也被广泛称为智能体。
目前的Agent主要分为三种类型:单体Agent、多Agent协作(Multi-Agent),以及与人交互的Agent
面对一个“任务”,人类只需描述一个“目标”,然后将任务的执行交给Agent。AI接收目标后,会自主进行“感知环境”、“形成记忆”、“完成规划”、“选择行动”、“观察并纠正错误”等一系列以任务目标为导向的行动。
基于大模型的AI Agent并非一种“新技术”,而更像是面向大型语言模型(LLMs)的“新管理方式”。
基于Prompt与大型模型的互动方式更像是静态的“输入-输出”,而AI Agent则为大模型提供了一个进行“动态决策”的框架,使得大模型有能力处理更复杂、更多样化的决策任务,从而为大型模型从“语言”迈向“真实世界”奠定了稳固的基础。

二、从思维链到Agent

2.1 什么是思维链

在深入理解思维链(Chain of Thought, CoT)之前,我们先来认识两个重要概念:“语言智能”和“推理”。
“语言智能”是指使用自然语言的概念来理解经验和事物,并在概念之间进行推理的能力。这种智能使我们能够通过语言进行复杂的思考和表达。
“推理”通常被理解为根据已知的前提得出新结论的过程。这个过程通常涉及多个步骤,并形成一些关键的“中间概念”,这些中间概念对于解决复杂问题至关重要。


当我们让大型模型对复杂问题进行分解,将其转换为一步步可解决的子问题,大模型的性能得以显著提升。

此时,这些推理的步骤便构成了我们所称的思维链 CoT

一个完整的CoT形式的Prompt通常由三部分组成:指令(Instruction)、逻辑依据(Rationale)和示例(Exemplars)。


2.2 为什么使用思维链

1)提高了模型的可解释性:与单纯输出结果的模型相比,CoT可以展示模型的解题过程,帮助我们更好地理解模型是如何工作的。
同时,其解题步骤的输出也为我们提供了错误定位的依据。
2)增强了模型的可控性:CoT让模型一步步展示解题步骤,我们通过观察这些步骤可以更大程度地影响模型的问题解决过程,避免模型成为无法控制的“完全黑盒”。
3)提升了大模型的推理能力:通过将复杂问题拆解为简单的子问题,CoT大大增强了模型的推理能力。
它还尽可能地减少了模型在解决问题时忽视关键细节的现象,从而确保计算资源始终集中在解决问题的核心步骤上。
4)提升了模型的灵活性:只需添加一句“Let's think step by step”,CoT方法便可在各种大型模型中使用。
此外,CoT赋予模型的分步思考能力并不仅仅局限于“语言智能”,在科学应用与AI Agent构建等领域也均可发挥重要作用。

2.3 何时使用CoT

CoT (Chain of Thought) 的运用能够有效提升模型解决复杂任务的效率和准确度。如何理解这种差异效应呢?
1)任务复杂度: 对于简单的任务,如查找特定信息或回答事实性问题,CoT的优势可能不明显,因为这些任务的解决方法直接且单一。
然而,当面临复杂任务,例如编写全面的项目报告或进行复杂的数学求解,CoT的序列推理过程可以显著提升模型的表现,通过分解和逐步解答,大大提高了问题解决的准确性。
2)模型规模与算力: 此外,CoT的效益也与模型的规模以及可用的算力有关。对于较小的模型,它们可能没有足够的计算能力或内部表现形式空间来有效地实施CoT。
相反,较大的模型,特别是那些配备有大量计算资源的模型,更能有效地运用CoT策略,因为他们可以在信息处理和理解中,通过持续的、连续的推理过程,更加深入地理解相关上下文。
3)任务之间的关联性:CoT策略也依赖于处理的多个子任务之间的关联性。如果这些子任务在概念性或主题性上有一定的关联性。
那么通过CoT,模型就可以很自然地建立起这些基础知识和子任务之间的联系,“桥梁”作用显现,如联合乘法和加法运算规则解决更复杂的数学问题。
这种关联性允许模型在解答过程中,把先前步骤的信息有效地用在后续步骤里,从而提高整体任务的解决效率。

2.4 CoT如何到Agent

AI Agent需要对接收到的信息进行深度理解,这包括但不限于从环境中收集的反馈,以及从用户接收的指令。

这个理解的过程不仅包括了信息的收集和分析,更加重要的是对所收集信息进行深度解析,实施有效的意图识别。

这可以将解析的结论转化为模型下一步的具体任务,这个过程就像人类大脑的工作过程:从接收信息,对信息进行处理和理解,然后基于理解结果形成决策,再从决策转化为具体行动。

CoT就在这个过程中发挥了关键的作用,它通过序列化的思考模式,让智能体能更有效地理解和处理输入信息。

CoT帮助增强智能体进行决策的可靠性。它将任务分解为一系列小步骤,然后通过逻辑推理,逐一解决这些小步骤,最终将这些解决方案整合为完成整个任务的方案。

这种逐步解决问题的方法,可以大大降低在面对复杂任务时,因信息过多或过于复杂,而导致的错误决策。同时,这种方法也提高了整个解决方案的可追踪性和可验证性。

CoT的核心功能在于将计划、行动与观察相互结合,弥补推理与行动之间的差距。

这种思考模式允许AI Agent在预测可能遇到的异常情况时制定有效的对策,以及在与外部环境交互的同时积累新信息、验证预先设定的预测,提供新的推理依据。

CoT就像是一个强大的精确度和稳定性引擎,帮助AI Agent在复杂环境中保持高效的工作效率。

关于Agent的落地场景以及落地难度分析,下篇文章进行分析,感觉有帮助可以先关注哦~



往期高赞高阅读文章



AIGC求职|2025百度管培生计划

起薪4万的AI产品经理,必须掌握的算法全景地图

美团 AIGC产品经理面经(已拿 offer)

从碧桂园离职,这个转行,跨度蛮大的


【全网最全】AIGC产品经理面试高频100题答案解析


面试9家,拿到5个offer,感觉最近招聘市场还不错


35岁+进央企做AIGC产品经理,可行否?


薛老板AIGC和新能源求职
前百度、京东10年资深产品经理 畅销书《产品经理求职面试笔记》作者,全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品 已帮助5000+学员入职排名前10一线大厂......
 最新文章