世界首个1000亿AI智能体文明诞生!北大校友打造真实版「西部世界」,技术细节全公开

科技   2024-11-03 12:37   北京  



  新智元报道  

编辑:桃子 十二
【新智元导读】人类世界的一切日常活动,都在《我的世界》中被1:1复刻了。1000亿AI智能体构成的文明,竟是这样的。

世界首个「AI智能体文明」,终于揭秘了!

2个月前,1000+多个智能体在虚拟世界中,一同协作构建起自己的经济、文化、宗教和政府......

网友纷纷惊呼,堪称现实版「西部世界」。

如今,这个文明再次进化了,1000亿AI智能体文明的世界又是怎样的?

它们是一个个体,也是一个群体。

人类日常生活中的一切活动,都将在「我的世界」中实现1:1复刻。

这位北大校友Robert Yang分享了团队最新的研究,首次对外介绍了背后PIANO全新的「认知架构」。

PIANO(并行信息聚合神经协调),是一个能让AI智能体实现多方互动的架构,同时在多个输出流中保持连贯性。

项目地址:https://github.com/altera-al/project-sid

AI智能体如何能够同时思考和行动,在多个时间尺度上,以有意识和潜意识的方式运作?

好比钢琴的琴键,代表着不同的大脑模块。当它们一起演奏时,可以产生优美的和弦。而在智能体中,同样产生了类人的特质。

这些智能体,构筑了一个「文明」。纳税、贸易、政府、国家、宗教....,一切人类世界所有的日常,AI智能体也有。

而且,AI智能体还能够准确推断他人的情感,建立友谊,甚至会树敌。一些内向的智能体,与「社恐」的人类一样,比外向智能体有着更少的社交联系。

有网友表示,我们生活在模拟矩阵中,未来就是现在。

接下来,一起看看AI智能体的「世界」,是怎样的全貌?

为什么需要AI智能体文明?


为了让AI智能体能够与人类共存并融入我们的社会,它们不仅需要具备自主性,还需要具备协作能力。

近年来,大模型(LLM)在推理和决策方面的进步显著增强了智能体的自主性。

然而,仅仅拥有自主性是不够的。智能体还必须在人类文明中与人类和其他智能体共存。

正如论文作者所言:

以智能体共存和推进非人类文明的能力来衡量文明进步,代表了人工智能智能体能力的最终基准。

但构建AI文明,并非易事。

首先,基于LLM的智能体通常难以在行动和推理中保持现实感。

即使配备了用于规划和反思的模块,智能体也常常陷入重复的行为模式或通过幻觉积累错误,导致无法取得有意义的进展。

其次,错误传达思想和意图的智能体会误导其他智能体,导致进一步的幻觉和循环。这种沟通不畅经常发生在智能体群体中,会导致功能失调行为,并会恶化群体中的个人表现。

最后,目前对智能体的基准测试主要集中在自主智能体在各种领域的表现,如网络搜索、编程、搜索和查询以及推理。

那么,构建AI智能体的最优解是什么?

全新PIANO架构


为了解决现有问题,全新的PIANO架构应运而生。

PIANO架构是一个综合性的、高度灵活的智能体设计框架。

其中,P代表感知模块,I代表智能核心,A则是行动模块。PIANO架构最显著的特点之一便是允许智能体同时思考和行动。

这一特性打破了传统架构中可能存在的行动与思考相互制约的局限。

在复杂多变的环境中,智能体面临着各种各样的情况,其中既包括需要快速应对的即时威胁,也有需要深思熟虑的长期规划。

在行为连贯性方面,引入认知控制器(CC)模块。

认知控制器(CC)模块则像是智能体的 「大脑中枢」,负责进行高级决策——通过接收和综合各个模块的信息,认知控制器将这些信息转化为一个统一的、协调的决策,并将其进一步转换为每个电机模块中的适当输出。

保证了各个模块之间的和谐协作,避免了因不同模块各自为政而产生的不一致问题。

基于上述两个架构原则,PIANO架构系统由10个并发运行的不同模块组成,其核心模块包括:

-记忆:

记忆模块堪称智能体的「智慧宝库」,无论是简短的日常问候、深入的技术讨论,还是充满情感的交流,每一个字词、每一个语调变化都被精确存储。

除此之外,智能体不仅能记住每个步骤的描述,甚至还能记住对话中的提问、回答的顺序以及双方强调的重点内容。

-行动意识:

它就像一个全面的体检系统。智能体通过这个模块可以精确掌握自己的能量储备情况,知道剩余电量还能支持多长时间的运行,或者燃料储备是否足够完成下一个阶段的任务。

同时,它能对各个部件进行实时监测,比如检测传感器是否正常工作、机械关节的灵活程度、数据处理单元的运算速度等。任何一个微小的异常都逃不过它的 「眼睛」。

-目标生成:

它基于智能体丰富的经验和与环境的深度交互,不断孕育出新的目标,推动智能体向前发展。

例如,在一个多智能体合作的物流场景中,智能体发现货物运输过程中某个区域经常出现拥堵(环境交互),而之前它有过参与优化运输路线的经验(过往经验),那么目标生成模块可能会生成一个新的目标:与其他智能体协作,设计一种新的避开拥堵区域的运输路线方案。

这种目标生成机制赋予了智能体主动探索和创新的能力,使其不仅仅是被动地执行预设任务,并且能够根据实际情况积极拓展自己的行动领域。

-社交意识:

它为智能体开启了理解和融入群体的大门。

简单理解,它能够对特定的动作信息做出快速反应。

比如一个简单的手势(举起手臂可能表示请求帮助或者引起注意)、特定的身体姿态(微微前倾可能表示友好和关注),社交意识模块能够准确识别并理解其含义。

当然,如果识别到其他智能体的求助信号,它可以根据自身能力和当前任务情况决定是否提供帮助。

-对话:

对话模块是智能体的「语言中枢」,是其与外界进行有效沟通的关键所在。

对话模块拥有强大的语法分析和语义理解能力。对于接收到的各种类型的语言输入,无论是简洁明了的指令、富有情感的表达还是复杂抽象的概念描述,它都能准确解析。

并且,对于模糊不清或者有歧义的语言,它也能通过上下文和语言习惯进行合理推断。

在生成语言方面,对话模块能够根据智能体的内部状态和意图,准确地表达自己的想法。

-技能执行:

技能执行模块是智能体与外界环境交互的直接执行者。当智能体需要在环境中执行特定技能或行动时,技能执行模块会有条不紊地协调各个相关部分。

单智能体—多智能体进化


以《我的世界》为例,研究人员选取了1000种物品的能力进行评估,试图观察和衡量智能文明体的进步。

单智能体


首先,通过智能体在《我的世界》里获取物品的情况来评估它的性能。

研究人员设置了25个智能体,一开始它们的背包都是空的,而且它们出生的地方离得很远,互相没办法交流,这些智能体都被设定成以探索和收集物品为目标的 「探险家」。

它们在不同的地方出生,像地表、洞穴、森林或者其他不同的环境。不同的出生点意味着它们能拿到的资源不一样,完成收集物品这个目标的难度也不同。

比如在资源多的地表出生的智能体,周围可能有很多木材、石头这些基础材料,能方便地做初级工具;但在洞穴里出生的智能体,虽然可能有很多矿物,但有黑暗、怪物这些危险,而且得往外探索才能拿到更多种类的东西。

研究人员发现用完整PIANO架构的智能体玩了30分钟后,平均能拿到17种不同的物品。不过,它们的表现差别很大,这主要是因为出生位置不同。

有些智能体只能拿到不到5种物品,而表现最好的智能体能拿到30-40种,这和有一定《我的世界》经验的人类玩家差不多了。

那么,单个智能体发展的上限是多少呢?

研究人员发现,在同样条件下增加智能体数量到49个,让它们玩4个小时。经过多次试验,发现所有智能体收集的不同物品数量稳定在《我的世界》所有物品的三分之一(大概320种)。

多智能体


多智能体顾名思义即多个智能体组成的群体,他们在同一环境里可以互相交流或竞争。

小群体:

要让智能体在群体里能合作并发展,它们得能理解其他智能体的行动和想法,这种既能理解自己又能理解别人的能力,能让智能体在社交环境里根据情况调整自己的行为。

比如和盟友合作的时候建立信任,和对手相处的时候应对竞争和冲突。研究人员通过实验发现,智能体不仅具有社交能力,并且可以在多达50个智能体的大规模模拟中形成有意义的社会关系。

研究人员主要通过两组实验对智能体在群体中的角色和意识进行了研究。

-有社交意识的智能体能否通过聊天来推断别人的情绪呢?

在《我的世界》中的3个角色和智能体的聊天实验中,可以看到,当游戏中的角色表达喜爱-生气-喜爱等情绪变化时,智能体完全能够理解这些情绪变化并做出相应的反应。

-智能体是否能感知情绪并做出相应行动?

在另一个实验里,通过游戏中的角色对同一智能体的喜欢或讨厌程度来推断智能体的行为,研究人员发现,智能体不仅准确推断游戏角色的意图,并且在决策时通过意图做出自己的行动。

社会:

随后,研究人员将50个智能体放在随机生成的《我的世界》地图里,并赋予每个智能体独特的个性,它们可以在这个世界里随意行动,也可以随意和其他智能体交流。

在这种自由的场景下,研究人员发现智能体不仅能准确判断其他智能体的角色,而且参与判断的智能体越多、它们交流时间越长,判断就越准确。

此外,在这个实验中,研究人员也发现了几个重要的现象:

-社交模块的重要性:

如果把社交模块去掉,这时候智能体之间的关系就比较平淡了,这说明社交模块对长期关系的发展(不管是好的还是不好的方向)都很重要。

-个性对社交网络的影响:

研究人员发现,根据个性不同,有些智能体的社交连接模式不一样。

比如内向的智能体明显比外向的社交智能体收到的联系少,这说明个性在大型复杂社交网络里也能体现出来。

并且,虽然大多数时候情绪是相互的,但也不总是这样。一个智能体可能对另一个不理它的智能体有好感,这和现实世界里人际关系复杂、不总是相互的情况一样。

文明诞生了


经过单智能体,到多智能体的进化,接下来,就是文明的诞生了。

为了评估智能体的文明进步能力,研究人员评估了它们在几种情况下的行为方式:

- 智能体在集体规则下的行为(重点关注税法的遵守和修订)

- 通过meme自发生成,和单一宗教结构化传播来探索文化传播

各司其职,专业分工


正是人类的专业化分工推动了文明进步,促进了农业、治理、文化和技术的进步。为了复制这些新兴的文明品质,智能体也应当具备这些品质。

为此,作者提出了智能体专业化的三个基本标准:

首先,在角色选择和转换方面,拥有自主性。其次,它们的专业化应该通过互动和经验来体现,没有明确的方向和限制。最后,它们选择的角色,应该体现在与其专业相一致的行为中。

如下图所示,研究人员把智能体放在一个村子中,它们会自行发展出不同的职业,比如农民、工程师。

移除社会意识,导致了智能体选择更多的同质角色,这些角色不会随着时间推移而持续下去。

以下是30个智能体在一个村子中,行为的模拟分布。

遵守税法,修改法律


AI智能体可以制定和修改自己的法律吗。

接下来,研究人员通过实施税收制度来测试了智能体。结果发现,它们不仅遵守税法,还会根据公众情绪民主投票修改税率。

宗教传播,乡镇不同


最后,AI智能体可以发展出自己的文化吗?

研究人员具体观察了meme的有机传播,并追踪了智能体如何形成一个虚构的宗教,并通过智能体协会传播。

更有意思的是,农村地区与城镇呈现出不同的文化模式。

北大校友创业,打造有同理心AI


之所以开展Project Sid这个项目,是因为Altera AI团队希望,通过探索这些问题,最终让数字人无缝整合到人类社会中。

Robert Yang是Altera的联合创始人兼CEO。

此前,他分别在纽约大学和耶鲁大学获得计算神经科学博士学位,在北大获得物理学学士学位。

他曾是MIT脑与认知科学系和电子工程与计算机科学系教授,以及MIT MetaConscious小组负责人。

2023年,他关闭了实验室并离开了麻省理工学院的终身教职,创立了Altera。

Altera的团队虽小,但人才密度极高——

由来自麻省理工学院电子工程与计算机科学系、斯坦福自然语言处理小组、Google X、Citadel、Supercell等的计算神经科学家、物理奥林匹克选手和工程师组成。

这家成立半年多的公司,年初得到了200万美金的种子融资,由Andreessen Horowitz领投。

三个月后,又再次融资900万美元,由谷歌前CEO埃里克·施密特的First Spark Ventures、Patron VC、天使投资人Mitch Lasky等人领投。

今年5月,Altera在Menlo Park设立了分店,并致力于成为首家智能体消费产品的供应商。


参考资料:

https://x.com/GuangyuRobert/status/1852397383939960926



新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
 最新文章