多智能体将缩短大型语言模型与通用人工智能之间的差距

财富 2024-11-04 17:31 北京

尽管大型语言模型（LLMs）在人工智能应用中广受欢迎，但其在应对复杂性和动态性方面仍有不足。

引入ChatGPT后，大型语言模型（LLMs）在科技和非科技行业中广泛应用。这一受欢迎程度主要归因于两个因素：

1. LLMs作为知识宝库：LLMs在大量互联网数据上训练，并定期更新（如 GPT-3、GPT-3.5、GPT-4、GPT-4o 等）；

2. 新兴能力：随着LLMs的不断发展，它们展现出小型模型所不具备的能力。

这是否意味着我们已经达到了人类水平的智能，即通用人工智能（AGI），Gartner将AGI定义为一种能够理解、学习并在广泛任务和领域中应用知识的人工智能形式。

然而，通向AGI的道路漫长，其中一个关键障碍是LLM训练的自回归特性，即根据过去的序列预测单词。作为人工智能研究的先驱之一，Yann LeCun指出，由于自回归特性，LLMs可能会偏离准确的响应。因此，LLMs存在多个局限性：

知识有限：尽管经过大量数据训练，LLMs缺乏最新的世界知识。

推理能力有限：LLMs的推理能力有限。如Subbarao Kambhampati所指出，LLMs擅长知识检索，但不擅长推理。

缺乏动态性：LLMs是静态的，无法访问实时信息。

为了克服LLM的挑战，需要一种更先进的方法，这就是智能体的关键所在。

智能体来拯救

在过去的二十年中，人工智能领域的智能体概念不断演变，实施方式也随之改变。

如今，智能体的讨论主要集中在大型语言模型的背景下。

简而言之，智能体就像解决LLM挑战的瑞士军刀：它可以帮助我们进行推理，从互联网获取最新信息（解决LLM的动态性问题），并能够自主完成任务。以LLM为基础，智能体正式由工具、记忆、推理（或规划）和行动组件组成。

智能体的组成部分（图片来源：Lilian Weng）

人工智能智能体的组成部分

工具：工具使智能体能够访问外部信息，无论是来自互联网、数据库还是API，帮助它们收集所需数据。

记忆：记忆可以是短期或长期的。智能体使用临时记忆（scratchpad memory）暂时保存来自不同来源的结果，而聊天历史则是长期记忆的一个例子。

推理器：推理器使智能体能够系统性地思考，将复杂任务拆解为可管理的子任务，以便有效处理。

行动：智能体根据环境和推理执行行动，通过反馈逐步适应和解决任务。ReAct 是一种常见的方法，用于迭代地进行推理和行动。

智能体擅长什么？

智能体在处理复杂任务方面表现出色，尤其是在角色扮演模式下，充分利用大型语言模型（LLMs）的增强性能。

例如，在撰写博客时，一个智能体可能专注于研究，而另一个则负责写作各自处理特定的子目标。这种多智能体方法适用于众多现实问题。

角色扮演帮助智能体专注于特定任务，以实现更大的目标，通过清晰定义提示的各个部分（如角色、指令和背景）来减少幻觉现象。由于LLM的性能依赖于结构良好的提示，各种框架为此过程进行了规范化。其中一个框架 CrewAI 提供了定义角色扮演的结构化方法，接下来我们将对此进行讨论。

多智能体与单智能体

以单智能体进行检索增强生成（RAG）为例。这是一种有效的方法，能够利用索引文档的信息，使LLM能够处理特定领域的查询。

然而，单智能体RAG也有其局限性，例如检索性能或文档排名问题。多智能体RAG通过使用专门的智能体进行文档理解、检索和排名，克服了这些限制。

在多智能体场景中，智能体以不同方式协作，类似于分布式计算模式：顺序、集中、去中心化或共享消息池。像CrewAI、Autogen和 langGraph+langChain等框架使得多智能体方法能够处理复杂问题。在本文中，我使用CrewAI作为参考框架来探讨自主工作流管理。

工作流管理：

多智能体系统的应用案例

大多数工业流程都涉及工作流管理，无论是贷款处理、市场营销活动管理还是DevOps。为了实现特定目标，需要进行一系列步骤，可能是顺序的也可能是循环的。在传统方法中，每个步骤（例如，贷款申请验证）都需要人工执行繁琐的任务，手动处理每个申请并在进入下一个步骤之前进行验证。

每个步骤都需要该领域的专家输入。在使用CrewAI的多智能体设置中，每个步骤由一个由多个智能体组成的团队处理。例如，在贷款申请验证中，一个智能体可以通过对驾驶执照等文件进行背景检查来验证用户的身份，而另一个智能体则负责核实用户的财务信息。

这引发了一个问题：一个团队（由多个智能体按顺序或层级组成）能否处理所有贷款处理步骤？虽然有可能，但这会使团队复杂化，需要大量临时记忆，并增加目标偏离和幻觉的风险。更有效的方法是将每个贷款处理步骤视为一个独立的团队，将整个工作流视为一个团队节点的图（使用像 langGraph这样的工具），以顺序或循环方式运作。

由于LLM仍处于智能发展的早期阶段，完整的工作流管理不能完全自主。在关键阶段需要人类参与以进行最终用户验证。例如，在团队完成贷款申请验证步骤后，必须进行人类监督以验证结果。

随着对人工智能的信心逐渐增加，一些步骤可能会变得完全自主。目前，基于人工智能的工作流管理主要起辅助作用，简化繁琐任务并减少整体处理时间。

5

生产挑战

将多智能体解决方案投入生产可能会面临几个挑战：

规模：随着智能体数量的增加，协作和管理变得具有挑战性。各种框架提供可扩展的解决方案，例如，Llamaindex 采用事件驱动工作流来管理大规模多智能体。

延迟：由于任务是迭代执行的，智能体性能通常会产生延迟，需进行多次 LLM调用。管理型LLM（如 GPT-4o）由于隐性保护措施和网络延迟而较慢。自托管的LLM（使用GPU控制）在解决延迟问题时显得尤为重要。

性能和幻觉问题：由于LLM的概率特性，智能体的性能可能在每次执行中有所不同。采用输出模板技术（例如JSON格式）和在提示中提供丰富示例可以帮助减少响应的变异性。通过训练智能体，可以进一步降低幻觉问题。

最后思考

正如Andrew Ng所指出的，智能体是人工智能的未来，并将随着LLM的发展而不断进化。多智能体系统将在处理多模态数据（文本、图像、视频、音频）和应对日益复杂的任务方面取得进展。

尽管通用人工智能和完全自主系统仍在远处，但多智能体将缩短LLM与AGI 之间的当前差距。（VentureBeat）

AI新智能

一个致力于探索人工智能对商业世界和社会影响的平台。

最新文章

OpenAI正式推出Sora Turbo

OpenAI推出全新O1模型，支持图片上传与分析，同时发布ChatGPT专业版

AWS将多代理编排功能引入Bedrock

人工智能代理入门（下）：自主性、保障措施和陷阱

人工智能代理入门（上）：捕获流程、角色和连接

马斯克与OpenAI分手的复杂内幕

人工智能开启Web4.0时代：互联网将具备自主预测、计划和行动能力

AI如何重塑我们的思维方式？

多智能体将缩短大型语言模型与通用人工智能之间的差距

谷歌将推出接管电脑的人工智能技术

这家公司洞悉了AI商业化的秘密，CEO揭示其秘诀

被马斯克开除的前Twitter CEO，官宣了自己的人工智能创业项目

《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

首个被人工智能重塑的城市

被撕裂的OpenAI

雷朋AI眼镜是目前已知的最佳人工智能硬件

为何开发者们纷纷弃用谷歌Gemini

GPT5暂时没戏了

苹果的AI手机没有任何亮点，难怪巴菲特提前把股票卖了

硅谷风投推荐的2024人工智能创业公司（内含商业模式）

一家AI诊所在伦敦开业了

代币价格大崩溃，人工智能将出现巨大赢家和输家

世界呼叫中心之都陷入AI狂热与恐惧之中

文远知行在最后关头推迟美股IPO

美国无人出租车现在每周提供10万次服务

GPU经济学：如何在“不破产”的情况下训练AI模型

苹果计划推出AI桌面机器人

人工智能的训练数据正在枯竭，合成数据引发巨大争议

马斯克曾考虑收购Character.AI

黑芝麻科技IPO首日暴跌35%

星野海外版—Talkie火爆美国，年轻人可以与川普、马斯克聊天

OpenAI 需马上融资，今年预计巨亏50亿美元

2024年吸引到顶级风投的28家人工智能公司名单

苹果公司将以观察员身份加入OpenAI董事会

Gemini的数据分析能力不像谷歌所宣称的那么好

AI“搬砖王”的崛起

大模型集体“用户焦虑”，豆包能否不靠字节赢一次？

这家眼镜公司成了AI巨头追捧的对象

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

DeepMind推出新型AI，为视频生成音轨和对话

人工智能的负效应：没有大语言模型的语种未来会消亡

MiniMax在海外的AI陪聊产品，爆了！

30万个AI助理，正排队等待召唤

奥特曼围绕OpenAI打造出一个致富帝国

投资人依然愿意为AI搜索引擎付费

当ChatGPT的广东话“讲唔正”：AI 年代，低资源语言是否注定被边缘化？

来看看微软是如何将Windows打造成AI操作系统的

大模型“价格战”开打，给刚入商业化“佳境”的智谱AI提出了新挑战

奥特曼刚对首席科学家伊利亚的离职表示感谢，马上又有一位OpenAI高管辞职了

谷歌I/O 2024刚刚宣布的所有产品

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉