(文章末尾附200多个Agent框架)
AI Agent以各种形态存在于我们生活的方方面面,大众比较熟知的有Siri、小爱同学等虚拟助手,但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。
AI Agent的热潮始于2023年3月左右,彼时很大程度上得益于诸如GPT-4等大语言模型(LLMs)的突破性进展,再加上一些开源框架和工具的出现,如AutoGPT,进一步降低了开发AI Agent的技术门槛,使得开发者能够更容易地构建和部署自己的AI Agent。所以,AI Agent得以快速发展和应用。
“
比尔・盖茨曾表示
AI Agent是AI的未来,并预言不久的将来,所有人都将拥有自己专属的AI助理。
今天就让我们来看看,到底什么是AI agent?它的工作原理是什么?未来发展怎样?
到底什么是AI agent?
业界对AI agent的定义各不相同,更广泛被使用的一种定义是:一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来,AI agent(智能体)是一种基于大语言模型(LLM)的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。
我们再拆开这个词来帮助理解:“agent”中文意思是代理人,可以单纯理解为有人帮你去做某件事。那么,AI agent简单来说,就是一个由AI技术加持的代理人,它变得更聪明了,可以感知周围的环境,并且能够独立地思考和行动。
举个简单例子,我们现在常用的一些聊天机器人文心一言、Kimi Chat等,需要一直告诉它要做什么,但是更聪明的AI agent不一样,我们只要给它一个目标,它就能想办法自动帮你完成。
比如,智能家居系统中的智能恒温器,可以通过传感器检测室内外的温度变化,还可以学习你的生活习惯和偏好——你通常什么时间段在家,在什么时间段你更倾向于较冷或较暖的环境,据此来自动调整加热或冷却计划,以确保室内温度保持在舒适的范围内。整个过程无需给它明确的指令。
相较于传统的、静态的人工智能,AI agent具有几个显著的特点:
1
自主性:AI Agent具有独立思考和行动的能力,能够在没有人类直接指导的情况下完成任务。
2
交互性:AI Agent能够与环境或其他Agent进行交互,这通常用于游戏、对话系统、推荐系统等场景。
3
目的性:AI Agent设计有明确的目标或意图,它们的行为是为了实现这些目标。
4
适应性:AI Agent能够根据环境的变化调整自己的行为,以适应新的情境。
5
进化性:随着技术的发展,AI Agent的功能和智能水平也在不断提升。
复旦大学自然语言处理团队在推出的LLM-based Agents 综述论文中,用一个例子来说明了LLM-based Agent的工作流程:当人类询问是否会下雨时,感知端(Perception)将指令转换为 LLMs 可以理解的表示。然后控制端(Brain)开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后,行动端(Action)做出响应并将雨伞递给人类。
不难看出,在以大语言模型(LLM)为基础的AI agent中,LLM充当agent大脑的角色,并与若干关键组件协作。
可以用一个公式概括AI Agent的主要组成部分:AI Agent = LLM(大语言模型推理能力)+ Planning(规划能力)+ Memory(记忆能力)+ Tools(使用工具能力)+ Action(行动能力)。
AI agent的工作原理
AI agent的工作原理主要包括四部分:感知、信息处理、执行、输出。
1.感知
感知是第一步,AI通过传感器、摄像头、麦克风这些外部设备(感知端)来感知周围的世界。
--任务理解: 当用户提出问题“是否会下雨”时,这句话会被麦克风捕捉到,它首先需要理解这个问题的意思以及背后的意图。
--指令转换: 感知端将用户的自然语言问题转换成LLM能够理解和处理的结构化形式或表示。
--输入数据准备: 感知端还可能需要收集相关的外部信息,例如当前位置、日期和时间等,以便LLM能够获取最新的天气数据。
2. 信息处理
--知识获取:控制端(Brain)开始利用大型语言模型(LLMs)的能力,从互联网上检索相关的天气预报信息,包括当前天气状况、未来预测等。
--推理与规划:LLMs根据收集到的信息进行推理,确定是否有可能下雨,并基于这种可能性制定行动计划。
--决策:如果预测显示有较高的降雨概率,则决定应该提醒用户带雨伞;反之,则建议无需携带雨伞。
3. 执行
--行动规划:在确定了行动计划后,执行端(Action)开始规划如何实施这一计划,例如通过物理动作或者通过发送通知的形式。
--资源调度:如果Agent有能力直接采取物理行动,比如机器人手臂,那么它需要调动相应的硬件资源来完成任务。
--执行动作:执行端根据规划执行具体的动作,如移动到雨伞存放的位置并拿起雨伞递给用户。
4. 输出
--响应生成:执行端生成一个明确的响应,告诉用户是否会下雨,并给出相应的建议或行动;
--用户交互:如果是通过对话形式,那么Agent会告知用户预测结果,并提醒用户是否需要带伞;
--完成任务:最终,Agent将雨伞递给用户,完成任务。
所以,一个完整的AI Agent(智能体),好比人类和周围环境互动的过程,它由两部分组成:一部分是智能体自己,另一部分是它所在的环境。
AI agent未来发展
目前Agent技术还不是完全成熟,发展也面临一些瓶颈,比如:
技术方面,LLM模型仍然不够强大,即使是用很强大的GPT4在AI Agent应用时,仍然面临上下文容量有限,限制了历史信息、详细说明、API 调用上下文和响应;长期规划和有效探索解决方案空间仍然具有挑战性。另外,在遇到意外错误时LLM很难调整计划,这使得它们与人类相比(从试错中学习)不太稳健等。
其次,就是成本太高了,尤其是多智能体,因为其需要记忆和行动的思考量非常大。
还有就是现阶段在很多场景,使用AI Agent还看不到非常大的提升,或者说能覆盖增加成本的提升。
可以说,现阶段大部分AI Agent技术/平台还都处于研究阶段,现在一些比较固定的工作流程,或者有详细标准SOP的程序,都在封闭环境下进行。
但是随着大模型的百花齐放,LLM 会支持更长的上下文、更大的参数规模,其推理能力也会愈发强大。因此,基于大模型搭建的AI Agent(智能体)的能力边界也在不断突破。相信在未来,AI Agent可以被应用于广泛的领域,成为各个行业的基础支撑。
我们采集了目前主流的200多个Agent框架,有需要的朋友,请在公众号对话框输入【agent】,将资料发给您
点这里👇关注我
分享GitHub上的热门开源项目
更优的算力解决方案
以及AI前沿动态
记得标星🌟哦
一键「分享」「点赞」「在看」
发现算力最优解决方案