前段时间跟一家自称做智能体(AI agents)的公司交流,交流了半天,其实我也没搞明白他们究竟在做什么。
可能是国内对智能体这个概念理解、认知有点不太一样,其实有点泛化、扩大化趋势。比如,有些公司把给出提示词(Prompt)让AI去执行某一个固定的套路,也称为智能体,实际上并不是严格意义上的智能体。
那究竟什么才是智能体呢?
根据OpenAI的划分,人工智能的五个阶段如下:
Level 1:聊天机器人(Conversational AI)。这是目前人工智能所处的阶段,AI能够以自然语言与人类进行对话交流。例如常见的聊天机器人、虚拟助手等,像ChatGPT、Claude等都属于这一级别。它们可以处理客户服务交互,提供基本的协助,但仅限于基于语言的任务,缺乏复杂的解决问题能力。
Level 2:推理者(Reasoners)。在这一阶段,AI系统能够像拥有博士学位的人类一样解决复杂问题,但无法使用外部工具。这些“推理者”有望在学术和专业领域独立解决复杂问题,这标志着AI认知能力的显著提升。
Level 3:智能体(Agents)。这一阶段的AI系统被称为“智能体”,能够代表用户自主执行任务,持续数天甚至更长时间。这些系统可以在不同领域独立完成多种任务,无需人类持续干预,有望彻底改变商业运营和效率。
Level 4:创新者(Innovators)。这一阶段的AI能够协助发明创造,为科学发现和技术进步提供支持。它不仅能执行任务,还能创造和创新,提出创新的解决方案和想法。
从技术角度看,智能体主要包括以下核心模块:
感知模块(Perception):感知模块是智能体与外部环境交互的“眼睛”和“耳朵”,负责从环境中获取数据并进行处理,生成有意义的表征。
通常还包括以下模块:
记忆模块(Memory):记忆模块用于存储历史信息,支持长期推理和决策。短期记忆存储最近的上下文数据。长期记忆积累经验或学习知识。
工具模块(Tools):工具模块赋予智能体与外部世界交互的能力,使其能够调用外部工具或服务来完成任务。例如:API调用:与外部数据源和服务进行交互。
知识库模块(Knowledge Base):知识库模块用于存储智能体关于环境、任务和策略的信息。通过对知识库的查询和更新,智能体能够在复杂环境中做出更为合理的决策。
随着技术的发展,智能体正变得越来越智能和自主。很多个智能体进行联动,比如说。有的智能体负责销售,有的智能体负责客户服务,有的智能体负责创意,把不同的智能体组合起来,那就有可能接近第五个阶段:组织者(Organizations)。
这个阶段通信模块(Communication)至关重要,它允许智能体之间共享信息,协同完成任务。AI agent、AI agent system与Multi-agent system之间关系如下图所示。