​一文读懂火爆的AI Agent(智能体)

文摘   2024-07-25 20:06   澳大利亚  

(文章末尾附200多个Agent框架)


AI Agent以各种形态存在于我们生活的方方面面,大众比较熟知的有Siri、小爱同学等虚拟助手,但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。


AI Agent的热潮始于2023年3月左右,彼时很大程度上得益于诸如GPT-4等大语言模型(LLMs)的突破性进展,再加上一些开源框架和工具的出现,如AutoGPT,进一步降低了开发AI Agent的技术门槛,使得开发者能够更容易地构建和部署自己的AI Agent。所以,AI Agent得以快速发展和应用。


比尔・盖茨曾表示 

AI Agent是AI的未来,并预言不久的将来,所有人都将拥有自己专属的AI助理。


今天就让我们来看看,到底什么是AI agent?它的工作原理是什么?未来发展怎样?



到底什么是AI agent?

业界对AI agent的定义各不相同,更广泛被使用的一种定义是:一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来,AI agent(智能体)是一种基于大语言模型(LLM)的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。



我们再拆开这个词来帮助理解:“agent”中文意思是代理人,可以单纯理解为有人帮你去做某件事。那么,AI agent简单来说,就是一个由AI技术加持的代理人,它变得更聪明了,可以感知周围的环境,并且能够独立地思考和行动。



举个简单例子,我们现在常用的一些聊天机器人文心一言、Kimi Chat等,需要一直告诉它要做什么,但是更聪明的AI agent不一样,我们只要给它一个目标,它就能想办法自动帮你完成。


比如,智能家居系统中的智能恒温器,可以通过传感器检测室内外的温度变化,还可以学习你的生活习惯和偏好——你通常什么时间段在家,在什么时间段你更倾向于较冷或较暖的环境,据此来自动调整加热或冷却计划,以确保室内温度保持在舒适的范围内。整个过程无需给它明确的指令。


相较于传统的、静态的人工智能,AI agent具有几个显著的特点:


1

自主性:AI Agent具有独立思考和行动的能力,能够在没有人类直接指导的情况下完成任务。

2

交互性:AI Agent能够与环境或其他Agent进行交互,这通常用于游戏、对话系统、推荐系统等场景。

3

目的性:AI Agent设计有明确的目标或意图,它们的行为是为了实现这些目标。

4

适应性:AI Agent能够根据环境的变化调整自己的行为,以适应新的情境。

5

进化性:随着技术的发展,AI Agent的功能和智能水平也在不断提升。


复旦大学自然语言处理团队在推出的LLM-based Agents 综述论文中,用一个例子来说明了LLM-based Agent的工作流程:当人类询问是否会下雨时,感知端(Perception)将指令转换为 LLMs 可以理解的表示。然后控制端(Brain)开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后,行动端(Action)做出响应并将雨伞递给人类。


不难看出,在以大语言模型(LLM)为基础的AI agent中,LLM充当agent大脑的角色,并与若干关键组件协作。


可以用一个公式概括AI Agent的主要组成部分:AI Agent = LLM(大语言模型推理能力)+ Planning(规划能力)+ Memory(记忆能力)+ Tools(使用工具能力)+ Action(行动能力)。



AI agent的工作原理

AI agent的工作原理主要包括四部分:感知、信息处理、执行、输出。



1.感知

感知是第一步,AI通过传感器、摄像头、麦克风这些外部设备(感知端)来感知周围的世界。

--任务理解: 当用户提出问题“是否会下雨”时,这句话会被麦克风捕捉到,它首先需要理解这个问题的意思以及背后的意图。

--指令转换: 感知端将用户的自然语言问题转换成LLM能够理解和处理的结构化形式或表示。

--输入数据准备: 感知端还可能需要收集相关的外部信息,例如当前位置、日期和时间等,以便LLM能够获取最新的天气数据。


2. 信息处理

--知识获取:控制端(Brain)开始利用大型语言模型(LLMs)的能力,从互联网上检索相关的天气预报信息,包括当前天气状况、未来预测等。

--推理与规划:LLMs根据收集到的信息进行推理,确定是否有可能下雨,并基于这种可能性制定行动计划。

--决策:如果预测显示有较高的降雨概率,则决定应该提醒用户带雨伞;反之,则建议无需携带雨伞。


3. 执行

--行动规划:在确定了行动计划后,执行端(Action)开始规划如何实施这一计划,例如通过物理动作或者通过发送通知的形式。

--资源调度:如果Agent有能力直接采取物理行动,比如机器人手臂,那么它需要调动相应的硬件资源来完成任务。

--执行动作:执行端根据规划执行具体的动作,如移动到雨伞存放的位置并拿起雨伞递给用户。


4. 输出

--响应生成:执行端生成一个明确的响应,告诉用户是否会下雨,并给出相应的建议或行动;

--用户交互:如果是通过对话形式,那么Agent会告知用户预测结果,并提醒用户是否需要带伞;

--完成任务:最终,Agent将雨伞递给用户,完成任务。


所以,一个完整的AI Agent(智能体),好比人类和周围环境互动的过程,它由两部分组成:一部分是智能体自己,另一部分是它所在的环境。



AI agent未来发展

目前Agent技术还不是完全成熟,发展也面临一些瓶颈,比如:

技术方面,LLM模型仍然不够强大,即使是用很强大的GPT4在AI Agent应用时,仍然面临上下文容量有限,限制了历史信息、详细说明、API 调用上下文和响应;长期规划和有效探索解决方案空间仍然具有挑战性。另外,在遇到意外错误时LLM很难调整计划,这使得它们与人类相比(从试错中学习)不太稳健等。

其次,就是成本太高了,尤其是多智能体,因为其需要记忆和行动的思考量非常大。

还有就是现阶段在很多场景,使用AI Agent还看不到非常大的提升,或者说能覆盖增加成本的提升。


可以说,现阶段大部分AI Agent技术/平台还都处于研究阶段,现在一些比较固定的工作流程,或者有详细标准SOP的程序,都在封闭环境下进行。


但是随着大模型的百花齐放,LLM 会支持更长的上下文、更大的参数规模,其推理能力也会愈发强大。因此,基于大模型搭建的AI Agent(智能体)的能力边界也在不断突破。相信在未来,AI Agent可以被应用于广泛的领域,成为各个行业的基础支撑。


免费领取资料

我们采集了目前主流的200多个Agent框架,有需要的朋友,请在公众号对话框输入【agent】,将资料发给您


BuluAI是一个创新型的算力云平台,算力使用灵活,可为开发者提供强大计算资源和全面支持。帮助BuluAI的使用者能够更专注于技术、应用的研究和优化。产品预计9月份正式公测上线,敬请期待!

点这里👇关注我

分享GitHub上的热门开源项目

更优的算力解决方案

以及AI前沿动态

记得标星🌟哦

 一键「分享」「点赞」「在看」

发现算力最优解决方案

安诺成咨询
中国数字化咨询行业生态平台|行业分析|数字化咨询方法论|政策洞察|致力于中国企业数字化发展
 最新文章