究竟什么是智能体?

2025-01-30 19:15   河北  

前段时间跟一家自称做智能体(AI agents)的公司交流,交流了半天,其实我也没搞明白他们究竟在做什么。

可能是国内对智能体这个概念理解、认知有点不太一样,其实有点泛化扩大化趋势比如,有些公司把给出提示词(Prompt)让AI去执行某一个固定的套路,也称为智能体,实际上并不是严格意义上的智能体

那究竟什么才是智能体呢?

严格来说,智能体应该能够通过“传感器”去感知环境,经过内部算法进行自主判断,然后根据目标通过“执行器”去输出行动,并且能有反馈。也就是说能够完成一个“感知-思考-行动”闭环。比如自动驾驶,汽车根据环境信息做判断,到底应该去踩刹车还是踩油门,然后去自主执行。

根据OpenAI的划分,人工智能的五个阶段如下:

Level 1:聊天机器人(Conversational AI)。这是目前人工智能所处的阶段,AI能够以自然语言与人类进行对话交流。例如常见的聊天机器人、虚拟助手等,像ChatGPT、Claude等都属于这一级别。它们可以处理客户服务交互,提供基本的协助,但仅限于基于语言的任务,缺乏复杂的解决问题能力。

Level 2:推理者(Reasoners)。在这一阶段,AI系统能够像拥有博士学位的人类一样解决复杂问题,但无法使用外部工具。这些“推理者”有望在学术和专业领域独立解决复杂问题,这标志着AI认知能力的显著提升。

Level 3:智能体(Agents)。这一阶段的AI系统被称为“智能体”,能够代表用户自主执行任务,持续数天甚至更长时间。这些系统可以在不同领域独立完成多种任务,无需人类持续干预,有望彻底改变商业运营和效率。

Level 4:创新者(Innovators)这一阶段的AI能够协助发明创造,为科学发现和技术进步提供支持。它不仅能执行任务,还能创造和创新,提出创新的解决方案和想法。

Level 5:组织者(Organizations)这是AI发展的最终阶段,AI系统能够完成整个组织的工作,管理并执行业务的所有功能,其效率和生产力将超越传统的人类运营模式。

从技术角度看,智能体主要包括以下核心模块:

感知模块(Perception):感知模块是智能体与外部环境交互的“眼睛”和“耳朵”,负责从环境中获取数据并进行处理,生成有意义的表征。

推理与决策模块(Reasoning and Decision Making):推理与决策模块是智能体的“大脑”,负责分析感知模块提供的信息并得出决策。

执行模块(Action):执行模块负责将推理模块得出的决策转化为具体的动作。例如,执行决策,如发送消息、控制设备等

 对于高级的智能体(Advanced AI agents),如下图所示:

通常还包括以下模块:

记忆模块(Memory)记忆模块用于存储历史信息,支持长期推理和决策。短期记忆存储最近的上下文数据。长期记忆积累经验或学习知识。

工具模块(Tools)工具模块赋予智能体与外部世界交互的能力,使其能够调用外部工具或服务来完成任务。例如:API调用:与外部数据源和服务进行交互。

知识库模块(Knowledge Base)知识库模块用于存储智能体关于环境、任务和策略的信息。通过对知识库的查询和更新,智能体能够在复杂环境中做出更为合理的决策。

随着技术的发展,智能体正变得越来越智能和自主。很多个智能体进行联动,比如说。有的智能体负责销售,有的智能体负责客户服务,有的智能体负责创意,把不同的智能体组合起来,那就有可能接近第五个阶段:组织者(Organizations)

这个阶段通信模块(Communication)至关重要它允许智能体之间共享信息,协同完成任务。AI agent、AI agent system与Multi-agent system之间关系如下图所示。

IT技术分享-老张
北漂it民工,目标做最接地气的科普类文章!分享IT行业服务器相关的前沿技术、产品和方案,聚焦AI、信创、液冷、智算中心等相关细分领域!入交流群或商合可+vx(zcyaihuai)!
 最新文章