究竟什么是智能体？

2025-01-30 19:15 河北

前段时间跟一家自称做智能体(AI agents)的公司交流，交流了半天，其实我也没搞明白他们究竟在做什么。

可能是国内对智能体这个概念理解、认知有点不太一样，其实有点泛化、扩大化趋势。比如，有些公司把给出提示词（Prompt）让AI去执行某一个固定的套路，也称为智能体，实际上并不是严格意义上的智能体。

那究竟什么才是智能体呢？

严格来说，智能体应该能够通过“传感器”去感知环境，经过内部算法进行自主判断，然后根据目标通过“执行器”去输出行动，并且能有反馈。也就是说能够完成一个“感知-思考-行动”闭环。比如自动驾驶，汽车根据环境信息做判断，到底应该去踩刹车还是踩油门，然后去自主执行。

根据OpenAI的划分，人工智能的五个阶段如下：

Level 1：聊天机器人（Conversational AI）。这是目前人工智能所处的阶段，AI能够以自然语言与人类进行对话交流。例如常见的聊天机器人、虚拟助手等，像ChatGPT、Claude等都属于这一级别。它们可以处理客户服务交互，提供基本的协助，但仅限于基于语言的任务，缺乏复杂的解决问题能力。

Level 2：推理者（Reasoners）。在这一阶段，AI系统能够像拥有博士学位的人类一样解决复杂问题，但无法使用外部工具。这些“推理者”有望在学术和专业领域独立解决复杂问题，这标志着AI认知能力的显著提升。

Level 3：智能体（Agents）。这一阶段的AI系统被称为“智能体”，能够代表用户自主执行任务，持续数天甚至更长时间。这些系统可以在不同领域独立完成多种任务，无需人类持续干预，有望彻底改变商业运营和效率。

Level 4：创新者（Innovators）。这一阶段的AI能够协助发明创造，为科学发现和技术进步提供支持。它不仅能执行任务，还能创造和创新，提出创新的解决方案和想法。

Level 5：组织者（Organizations）。这是AI发展的最终阶段，AI系统能够完成整个组织的工作，管理并执行业务的所有功能，其效率和生产力将超越传统的人类运营模式。

从技术角度看，智能体主要包括以下核心模块：

感知模块（Perception）：感知模块是智能体与外部环境交互的“眼睛”和“耳朵”，负责从环境中获取数据并进行处理，生成有意义的表征。

推理与决策模块（Reasoning and Decision Making）：推理与决策模块是智能体的“大脑”，负责分析感知模块提供的信息并得出决策。

执行模块（Action）：执行模块负责将推理模块得出的决策转化为具体的动作。例如，执行决策，如发送消息、控制设备等。

对于高级的智能体（Advanced AI agents），如下图所示:

通常还包括以下模块：

记忆模块（Memory）：记忆模块用于存储历史信息，支持长期推理和决策。短期记忆存储最近的上下文数据。长期记忆积累经验或学习知识。

工具模块（Tools）：工具模块赋予智能体与外部世界交互的能力，使其能够调用外部工具或服务来完成任务。例如：API调用：与外部数据源和服务进行交互。

知识库模块（Knowledge Base）：知识库模块用于存储智能体关于环境、任务和策略的信息。通过对知识库的查询和更新，智能体能够在复杂环境中做出更为合理的决策。

随着技术的发展，智能体正变得越来越智能和自主。很多个智能体进行联动，比如说。有的智能体负责销售，有的智能体负责客户服务，有的智能体负责创意，把不同的智能体组合起来，那就有可能接近第五个阶段：组织者（Organizations）。

这个阶段通信模块（Communication）至关重要，它允许智能体之间共享信息，协同完成任务。AI agent、AI agent system与Multi-agent system之间关系如下图所示。

IT技术分享-老张

北漂it民工，目标做最接地气的科普类文章！分享IT行业服务器相关的前沿技术、产品和方案，聚焦AI、信创、液冷、智算中心等相关细分领域！入交流群或商合可+vx(zcyaihuai)！

最新文章

“说人话”：怎么理解DeepSeek的蒸馏技术？

浅析DeepSeek对智算中心算力市场的影响

X86 or C86？全栈DeepSeek模型部署方案!

关于DeepSeek的深度思考

浅析服务器采购选型的10个考虑因素（下）

DeepSeek-R1个人和企业本地快速部署手册（可商用）

浅析服务器采购选型的10个考虑因素（上）