▼直播超级多,预约保你有收获
—1—
什么是 AI Agent?
1)智能体的推理与执行能力,指的是利用大模型(LLMs)来理解、执行并回顾任务。这包括将复杂任务分解为更小、更易管理的子任务以提高效率,并且通过吸取历史经验和错误教训来优化行动的质量。
2)智能体具备短期与长期记忆功能:短期记忆通过利用提示(Prompt)中的信息和上下文数据进行学习,而长期记忆则通过外部向量存储和快速检索技术来实现,这使得智能体能够在更广泛的时间跨度内存储和回忆(理论上无限)信息。
3)智能体具有调用外部 API 来使用“工具”的能力,这包括浏览网页、启动应用程序、读写文件、进行支付甚至操控用户设备等。与传统的自动化工具不同,AI智能体能够在未知和不可预测的新环境中有效工作。
4)在Open AI 的定义基础上,还应补充智能体的反馈接受能力。正如人类在处理复杂任务时需要与环境互动,我们的行为会改变环境,环境也会给予我们反馈,我们根据这些反馈进行决策。因此,智能体应该能够根据采取的行动接收正面或试错性的反馈、阶段性成果或奖励,并据此进行下一轮的规划和行动。
第三、AI Agent 更广泛的定义
感知模块:这一部分主要负责处理各种输入信息,确保智能体能够与环境进行有效的交互。 定义模块:该模块包含了智能体的特性、目标和其他相关属性信息。 记忆模块:涵盖了短期和长期记忆,它为智能体在处理复杂任务时提供历史数据和策略支持。 规划模块:涉及任务分解、反思、推理、策略制定等,是智能体的决策中心,类似于大脑的功能。 行动模块:负责以文本、实体动作、工具指令等多种方式输出智能体的决策结果。
—2—
AI Agent 的关键能力要素
第一、记忆能力
目前的研究普遍将记忆分为短期记忆和长期记忆两大类。
-短期记忆主要依赖于上下文学习,但受到 Transformer 模型上下文窗口大小的限制。
长期记忆则更加广泛地应用于任务中,它涉及对世界的宏观和抽象理解。这包括存储生产系统的过程记忆、关于世界事实的语义记忆,以及代理过去行为序列的情节记忆。长期记忆通过参数知识存储(模型训练)和非参数知识存储(外部搜索)来实现。
对于超出常规上下文范围的长期记忆,学术界探索了两条路径:一条是扩展上下文,即将上下文支持扩展到100K甚至无限大;另一条是利用 RAG 和信息压缩技术,即对输入信息进行总结和压缩存储,仅在需要时提取相关记忆。
扩展上下文的方案相对简单,依赖于算力的提升和成本的降低,但目前的成本仍然较高。
RAG 技术则是搜索相关信息片段,并将搜索结果融入大模型的上下文中,以便大模型基于这些结果回答问题。
信息压缩则是对信息进行总结,最基本的方法是文本总结,更高级的方法是使用指令访问外部存储,或者在模型层面使用 Embedding 技术进行总结。
第二、规划能力
规划是 AI Agent 解决复杂问题的关键能力,主要包括子目标分解、反思和提炼等。
子目标分解:通过思维链(CoT)技术,将大任务分解为多个更易管理的子任务,并为大模型的思维过程提供解释线索。思维树技术则通过在每一步探索多种推理可能性来扩展 CoT,创建一个树状结构的思考过程。
反思提炼:ReAct 技术通过将动作空间扩展为特定任务的离散动作和语言空间的组合,将推理和动作整合到 LLM中。Reflexion 框架则为智能体提供了动态记忆和自我反思的能力,以提高推理技能。
ReAct 方法能够发挥 LLM 的推理能力,通过交错生成推理轨迹和任务特定的操作,实现推理与操作的协同。尽管存在一些局限性,如解决复杂问题的能力有限、成本不可控等,但它仍然是提升AI智能体能力的重要途径。
第三、行动能力
智能体的行动能力主要体现在文本输出、工具使用和具身动作等方面。
在工具使用方面,智能体主要通过微调或预设模型描述框架来调用外部API,实现对现有功能的使用或特定信息的访问。未来,随着模型能力的提升,智能体可能能够创造新工具。
如何让大模型学会按需使用工具?有两种观点:一种认为工具使用是过程记忆,需要通过 Fine-tuning 方法教授模型工具使用的样例;另一种认为工具使用是代码生成能力,可以通过 RAG 方法匹配工具并使用。
第四、减少幻觉
减少幻觉主要依赖于基础模型的进步和 Scaling Law,同时也有工程方法可以减少现有模型的幻觉。
事实性校验:首先使用大模型生成回答,然后通过 RAG 方法找到与回答内容匹配的原始语料,最后让大模型判断回答的准确性。
多次生成:论文 SelfCheckGPT 提出的多次生成方法,通过多次生成同一问题的回答并让大模型挑选最一致的回答,以减少偶发的幻觉问题,但无法解决系统性偏差。
—3—
AI Agent 发展的三个阶段
1、AI Agent 能力的三个发展阶段
—4—
大模型干货直播
—5—
领取 AI 大模型学习资料
今天给大家搞到的是一份大厂内部都在用的『AI 大模型学习资源』:
▶形式:直播公开课
▶费用:原价299,本号用户0元白嫖
▶内容:大模型原理、Agent、LangChain、Spring AI、RAG、向量数据库、知识库、私有大模型、算力评估...
本期名额有限
—6—
加我微信
有很多企业级落地实战案例,不方便公开发公众号,我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇
⬇戳”阅读原文“,立即预约直播!
END