AI应用落地关键技术：AI Agent

科技科技 2024-10-08 12:37 北京

▼直播超级多，预约保你有收获

—1—

什么是 AI Agent？

第一、用快思考与慢思考类比大模型的能力

根据丹尼尔·卡尼曼的著作《思考，快与慢》，人类的思维可以分为两大系统：系统1和系统2。系统1负责直觉式的快速思考，这种思考往往是无意识的；而系统2则擅长进行有意识的逻辑推理和主动控制。

在探讨大型模型的思维能力时，我们首先可以观察到，这些大模型可能具备了类似人类的分析问题能力，它们能够理解、分析和解决复杂问题。进一步地，人类与动物的一个重要区别在于人类擅长创造和使用工具。随着大模型认知能力的不断提升，当它们遇到自身不擅长的领域时，这些大模型可能会展现出一种类似于人脑使用工具的能力——即寻找并利用适当的工具来解决问题，而不是直接依靠自身能力去解决。

第二、OpenAI 对 AI Agent 的定义

在2023年6月，Open AI 的应用研究主管 Lilian Weng发表了《LLM Powered Autonomous Agents》一文，其中她提出了一个公式：“智能体=大模型（LLMs）+规划（Planning）+记忆（Memory）+工具使用（Tools）”。

1）智能体的推理与执行能力，指的是利用大模型（LLMs）来理解、执行并回顾任务。这包括将复杂任务分解为更小、更易管理的子任务以提高效率，并且通过吸取历史经验和错误教训来优化行动的质量。

2）智能体具备短期与长期记忆功能：短期记忆通过利用提示（Prompt）中的信息和上下文数据进行学习，而长期记忆则通过外部向量存储和快速检索技术来实现，这使得智能体能够在更广泛的时间跨度内存储和回忆（理论上无限）信息。

3）智能体具有调用外部 API 来使用“工具”的能力，这包括浏览网页、启动应用程序、读写文件、进行支付甚至操控用户设备等。与传统的自动化工具不同，AI智能体能够在未知和不可预测的新环境中有效工作。

4）在Open AI 的定义基础上，还应补充智能体的反馈接受能力。正如人类在处理复杂任务时需要与环境互动，我们的行为会改变环境，环境也会给予我们反馈，我们根据这些反馈进行决策。因此，智能体应该能够根据采取的行动接收正面或试错性的反馈、阶段性成果或奖励，并据此进行下一轮的规划和行动。

第三、AI Agent 更广泛的定义

在 AI Agent 的整体架构设计中，一般可以将框架划分为五个主要模块：感知、定义、记忆、规划和行动。

感知模块：这一部分主要负责处理各种输入信息，确保智能体能够与环境进行有效的交互。
定义模块：该模块包含了智能体的特性、目标和其他相关属性信息。
记忆模块：涵盖了短期和长期记忆，它为智能体在处理复杂任务时提供历史数据和策略支持。
规划模块：涉及任务分解、反思、推理、策略制定等，是智能体的决策中心，类似于大脑的功能。
行动模块：负责以文本、实体动作、工具指令等多种方式输出智能体的决策结果。

—2—

AI Agent 的关键能力要素

第一、记忆能力

目前的研究普遍将记忆分为短期记忆和长期记忆两大类。

-短期记忆主要依赖于上下文学习，但受到 Transformer 模型上下文窗口大小的限制。
长期记忆则更加广泛地应用于任务中，它涉及对世界的宏观和抽象理解。这包括存储生产系统的过程记忆、关于世界事实的语义记忆，以及代理过去行为序列的情节记忆。长期记忆通过参数知识存储（模型训练）和非参数知识存储（外部搜索）来实现。
对于超出常规上下文范围的长期记忆，学术界探索了两条路径：一条是扩展上下文，即将上下文支持扩展到100K甚至无限大；另一条是利用 RAG 和信息压缩技术，即对输入信息进行总结和压缩存储，仅在需要时提取相关记忆。
扩展上下文的方案相对简单，依赖于算力的提升和成本的降低，但目前的成本仍然较高。
RAG 技术则是搜索相关信息片段，并将搜索结果融入大模型的上下文中，以便大模型基于这些结果回答问题。
信息压缩则是对信息进行总结，最基本的方法是文本总结，更高级的方法是使用指令访问外部存储，或者在模型层面使用 Embedding 技术进行总结。

第二、规划能力

规划是 AI Agent 解决复杂问题的关键能力，主要包括子目标分解、反思和提炼等。

子目标分解：通过思维链（CoT）技术，将大任务分解为多个更易管理的子任务，并为大模型的思维过程提供解释线索。思维树技术则通过在每一步探索多种推理可能性来扩展 CoT，创建一个树状结构的思考过程。

反思提炼：ReAct 技术通过将动作空间扩展为特定任务的离散动作和语言空间的组合，将推理和动作整合到 LLM中。Reflexion 框架则为智能体提供了动态记忆和自我反思的能力，以提高推理技能。
ReAct 方法能够发挥 LLM 的推理能力，通过交错生成推理轨迹和任务特定的操作，实现推理与操作的协同。尽管存在一些局限性，如解决复杂问题的能力有限、成本不可控等，但它仍然是提升AI智能体能力的重要途径。

第三、行动能力

智能体的行动能力主要体现在文本输出、工具使用和具身动作等方面。

在工具使用方面，智能体主要通过微调或预设模型描述框架来调用外部API，实现对现有功能的使用或特定信息的访问。未来，随着模型能力的提升，智能体可能能够创造新工具。
如何让大模型学会按需使用工具？有两种观点：一种认为工具使用是过程记忆，需要通过 Fine-tuning 方法教授模型工具使用的样例；另一种认为工具使用是代码生成能力，可以通过 RAG 方法匹配工具并使用。

第四、减少幻觉

减少幻觉主要依赖于基础模型的进步和 Scaling Law，同时也有工程方法可以减少现有模型的幻觉。

事实性校验：首先使用大模型生成回答，然后通过 RAG 方法找到与回答内容匹配的原始语料，最后让大模型判断回答的准确性。
多次生成：论文 SelfCheckGPT 提出的多次生成方法，通过多次生成同一问题的回答并让大模型挑选最一致的回答，以减少偶发的幻觉问题，但无法解决系统性偏差。

—3—

AI Agent 发展的三个阶段

1、AI Agent 能力的三个发展阶段

1) Embedding 嵌入式模式：这一阶段主要依赖于人类问答，提供信息和建议，这是目前最普遍的大模型（LLM）应用方式。

2) Copilot 辅助驾驶模式：在这一阶段，Agent 基于人类设定的目标，完成单一或简单任务。

3) Agent 智能体模式：智能体在这一阶段能够基于人类的目标，执行多任务、复杂任务或任务组合。

2、ChatGPT 代表了第一阶段的大模型能力。它并不完全符合 Agent 的典型定义，主要向用户提供广泛的世界知识。

3、目前，单一任务场景下已有一些 AI 应用实例

在办公场景中，我们有 Microsoft 365 Copilot（及其新推出的个人版 Copilot Pro）、Google Duet AI、专注于轻文档办公的 Notion AI、辅助代码开发的 Copilot X 以及数据分析处理的 Deepnote AI 等。这些应用常见的功能包括起草文档、内容汇总、提供公式建议等，它们通常以侧边栏或对话框的形式出现，帮助用户自动调用工作空间中的文件和信息，并进行处理生成。

4、展望未来，AI Agent 将不仅仅局限于解决问题的执行层面，而是将进一步深入到如何解决问题的规划层面。

在工作场景中，我们对 AI Agent 的期待包括：

1) 连续执行：Agent 能够对用户的任务指令进行拆解，分解为多个步骤，对这些步骤进行规划排序并连续执行。

2) 完成复杂任务：目前 Agent 只能解决单个或少数简单任务，未来期望能够处理多个复杂任务。

3) 多步骤规划：Agent 在执行后续步骤的同时，能够保持对任务目标和前序任务的记忆，具备强大的步骤规划执行能力。

—4—

大模型干货直播

为了帮助同学们彻底掌握大模型、Agent、RAG、ChatGPT的深层原理，在企业中的应用实践，我会开几场直播和同学们深度剖析，请同学们点击以下预约按钮免费预约。

—5—

领取 AI 大模型学习资料

今天给大家搞到的是一份大厂内部都在用的『AI 大模型学习资源』：

▶形式：直播公开课

▶费用：原价299，本号用户0元白嫖

▶内容：大模型原理、Agent、LangChain、Spring AI、RAG、向量数据库、知识库、私有大模型、算力评估...

扫码预约报名

👇『AI 大模型学习资源』👇

堪称资源界的YYDS！

👇👇👇

本期名额有限

—6—

加我微信

有很多企业级落地实战案例，不方便公开发公众号，我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“，立即预约直播！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654451950&idx=1&sn=2ce92127fe83e0f567b7150425f6d7e0

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

RAG现有框架总结：7个GraphRAG+17个传统RAG | 推荐收藏

爆跌90%......

团队准备解散了。

爆跌了。。。

别再手动编排工作流了，AI做的比你更好！

五大主流开源大模型RAG评估框架详解

裁员9000人！

跌爆了。。。

大模型 Agent 应用的6种架构设计模式，你知道几种？

内部消息：互联网巨头豪赌AI Agent，背后秘密大曝光！

对AI大模型应用场景落地几点思考！

特朗普当选美国总统，中国程序员的机会来了！！

上周和阿里专家一次沟通。。。

96W，确实可以封神了！！

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

大厂RAG面试真题大全！

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

离谱！一边裁员，一边60K*16高薪挖人！

很严重了，我劝大家学会这门新技能吧...

前阿里员工爆料：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

央国企降薪潮来袭！惨不忍睹！

刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！

Google 最新推出的RAG替代方案--RIP

如何基于一台MacBook搞定企业级大模型知识库部署

阿里专家揭秘：为什么现在要学习 AI Agent？

取代IT岗，中国又一新兴岗位在崛起！这才是IT人未来最好的就业方向！！

雷军做程序员时写的博客，的确强大！

比裁员更侮辱人的事发生了。。。

AI应用落地关键技术：AI Agent

惊恐！银行崩了，余额归 0 ，钱没了。。。

OpenAI重磅发布交互界面canvas，让ChatGPT成为编程和写作利器

一文彻底理解大模型 Agent 智能体原理和案例

成本降低98%！OpenAI开发者大会4大新能力，处理token猛增50倍！

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

Cursor 实用技巧指南

Spring AI Alibaba 让 Java 开发者一步迈入 AI 原生时代！

突发！上交所系统被买崩了？股票交易量火爆挤瘫 IT系统！

大厂职级：P6/P7/P8技能、薪资和成长路线全攻略！

裁员了，很严重，大家做好准备吧。。。

突发！OpenAI 山姆奥特曼长文解读智能时代，很快会有超级智能！

4.6K star！Cursor 开源平替来了，一天狂揽近 1K Star！

Spring AI Alibaba 重磅发布！AI 驱动的 Java 开发框架

如何基于一台MacBook搞定企业级大模型知识库部署

多家企业面临薪资困境，提前规划，为你的未来保驾护航！

前阿里员工自述困境：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

中国程序员的悲哀！！（全球调研）

人人都能听懂的大白话 Transformer 技术原理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉