在我们尚未深刻认知基于大型语言模型的AI-Agents,能够将LLM的智能发挥到何种水平之时,Multi-Agents(多智能体)在学术前沿的研究也进入了加速涌现的阶段。随着智能体这一概念逐步进入大众视野,大众很快将会发现智能体作为一种智能执行单元,无论是虚拟人还是智能助理,都将很快在工作环境中与其他智能体建立自动化协作关系,多智能体这一概念将很快从学术领域跳进大众视野。
我的一个基本判断是,多智能体与世界模型将会成为单一智能体普及爆发后,在整体技术生态的发展演化中,成为触发整个智能体协作网络,智能体发生链式自主演化的关键。智能体与多智能体,大型语言模型与世界模型,包括可能出现的其他底层模型,将会把整个互联网真正重构成为一个智能网络,这个智能网络也将颠覆过去的社会学理论,我们对于一个新型的再生产结构尚未有充分认知。
当下我们处于设计智能体的阶段,将人类智能从人类中剥离出来,将人类“智识”作为一种“自主智能”的控制论核心,安置在智能体的中枢之中。但过不了多久,智能体就将成为自主演化的机器,智能体之间的协作能力将形成冲击社会生产结构的链式反应,人类借助智能体协作网络逐步取代社会生产中的,相似经验重复执行,生产链的低决策等,例如运输网络、交通网络等,一切可被替代的都会被加速替代。
我们无法预测一旦触发了智能体链式反应的智能体协作网络,人类是否真的可以摆脱后现代工业主义的控制论铁笼,还是人类成为被智能体协作网络所支配的低端劳动力。
我时常嘲讽后现代主义是一种反结构主义的弥散式结构主义,马克思·韦伯的“现代化的铁笼”所诉诸的摆脱/超越结构主义的指引,似乎在多智能体普及的浪潮中,我们可能不仅没有摆脱结构主义的现代铁笼,我们反而有可能会演化出一种具有模型隐喻的新结构主义思想,人类与智能体在模型结构中实现共生关系。一旦形成共生关系,智能体的道德偏好决策,足以将人类扫进低端劳动的数字铁笼之中。
抱歉了,韦伯先生,我们似乎无法脱离技术的铁笼了。
然而不管我对未来社会的担忧如何,多智能体研究提供了一种我们探索社会发展困境的一种重要方式,智能体在模拟人类社会的合作关系中,如何寻找促进合作共赢的博弈关系,如何避免公平偏好导致的民主困境,我们得以借助智能体在多种合作场景中,模拟并寻找最有效的合作机制,这个合作机制又将借助人类与智能体的互相协作中,促进真实社会的精准、高效的公平合作。
以下十篇论文,助你提前理解,为何多智能体才是此次AI革命的王炸。
1,使用多智能体强化学习理解世界以解决社会困境
社会困境是一种情境,其中一群个体可以通过相互合作获益,但相互冲突的利益阻碍了他们这样做。这种情况类似于人类面临的许多关键挑战,而发现促进合作行为出现的机制仍然是一个悬而未决的问题。在本文中,我们研究了自利理性智能体在多智能体强化学习环境中学习世界模型的行为,这些智能体共存于可能出现社会困境的环境中。我们的模拟结果显示,在处理可能出现社会困境的情境时,拥有世界模型的智能体群体表现优于所有其他被测试的情况。
我们利用世界模型架构对所学动态进行定性评估,并确认每个智能体的世界模型能够编码有关变化环境和其他智能体行动的信息。这是首次表明,世界模型有助于促进复杂的协调行为的出现,使相互作用的智能体能够“理解”环境和社会动态。
2,多智能体系统中的演化博弈理论对新兴行为的理解
在具有多个相互作用智能体的动态多智能体系统(MAS)中,集体行为的出现和演化机制,以及在存在多种行为策略的情况下的研究,一直通过进化博弈论(EGT)进行数学研究。系统性的研究还依靠基于智能体的建模和仿真(ABM)技术,从而能够在各种条件、参数和替代虚拟游戏下研究上述机制。本文总结了我们团队在使用EGT和ABM方法解决的一些主要研究方向和挑战。这些研究范围包括将认知和情感机制引入不断演化的MAS中的智能体实现,以促进复杂网络中的亲社会行为的成本效益干预,对AI安全发展生态的调控与治理,以及随机进化多人博弈的均衡分析。
这篇简要论文旨在使读者了解基于EGT的问题、结果和前景,这些问题在对机器智能进行建模和在动态MAS中进行亲社会行为工程方面变得越来越重要,对我们理解集体行为的出现和稳定性产生影响。在所有情况下,团队所描述的MAS研究中的重要开放性问题都得到了描述。
3,在去中心化多智能体环境中,通过公共制裁获取社会规范的学习代理
社会的特点在于存在各种社会规范:这些集体制度化的制裁模式可以防止误协调和搭便车行为。受此启发,我们旨在构建一种学习动态,使潜在有益的社会规范能够出现。由于社会规范是以制裁为基础的,我们引入了一种培训机制,智能体可以获取所有的制裁事件,但学习在其他方面是分散的。从技术角度来看,这个设置是有趣的,因为在分散的多智能体系统中,奖励或策略共享可能是不可行或不可取的,而制裁事件可能是唯一可用的公共信号。
为了在这种情境下实现集体行动,我们构建了一个智能体架构,其中包含一个分类器模块,将观察到的行为分类为批准或不批准,并具有与群体一致的惩罚动机。我们展示了在包含此类智能体的多智能体系统中,社会规范是如何出现的,并研究了这有助于在何种条件下实现社会有益结果。
4,在跨时间社会困境任务中平衡探索和利用,提高合作
当个体的行为具有理性特征时,这可能导致群体出现非理性的集体行为。从动物到人类,广泛的生物通常会进化出合作这一社会属性来应对这一挑战。因此,个体之间的合作对于使社会性生物能够适应自然环境的变化具有重要意义。基于多智能体强化学习,我们提出了一种新的学习策略,通过引入一个可以平衡探索和利用的学习率来实现协调。
我们证明,使用这种简单策略的智能体在一个称为“跨期社会困境”的决策任务中改善了相对集体回报,其中个体与群体之间的冲突尤为尖锐。我们还探讨了学习率多样性对强化学习智能体群体的影响,并展示了在异质群体中训练的智能体相对于在同质群体中训练的智能体而言,其政策更为协调一致。
5,多智能体情境中的群体凝聚力作为一种 emergent 行为
在本文中,我们详细阐述了使用PSI认知架构开发的多智能体模拟的设计,并讨论了模拟的结果。我们证明,赋予智能体对群体归属感、确定性和能力的内在需求将导致智能体之间出现社会行为。这种行为表现为对组内智能体的利他主义行为,以及对组外智能体的对抗性倾向。我们的模拟还展示了参数化对智能体行为产生的巨大影响。例如,引入对外部群体的偏见不仅使智能体对其他群体的成员表现出攻击性,还增强了组内凝聚力。类似地,环境和情境因素促进了离群值的出现:对抗性群体的智能体成为亲密的朋友。
总体而言,这个模拟展示了心理学框架的力量,尤其是PSI范 paradigm,可以以紧急的方式呈现出类似人类行为模式的特征。
6,演化内在动机以促进利他行为
多智能体合作是自然界的一个重要特征。许多任务涉及个体激励与共同利益不一致的情况,然而从细菌到昆虫再到人类,广泛的生物都能够克服差异并进行协作。因此,自私的个体之间合作行为的出现是多智能体强化学习(MARL)和进化理论领域的一个重要问题。在这里,我们研究了一类特定的多智能体问题,称为跨期社会困境(ISD),在这些问题中,个体与群体之间的冲突尤为尖锐。通过将MARL与适当结构的自然选择相结合,我们证明了可以以无模型的方式学习个体对合作的归纳偏好。
为了实现这一点,我们引入了一种创新的深度强化学习智能体的模块化架构,支持多层次选择。我们在两个具有挑战性的环境中呈现了结果,并将其解释为文化和生态进化的背景。
7,多智能体强化学习中的紧急交换行为
人工智能领域的进步往往源自于开发新的环境,将现实世界的情况抽象为方便进行研究的形式。本文提供了一个基于初级微观经济学思想的环境,为此做出了贡献。智能体在一个空间复杂的世界中学习生产资源,彼此进行交易,并消费他们偏好的资源。我们展示了新兴的生产、消费和定价行为会根据环境条件做出反应,符合微观经济学中供需变化的预测。
我们还展示了一些情境,其中智能体对商品的新兴定价在空间上变化,反映了商品的地方丰富程度。在价格差异出现后,一些智能体发现了在不同价格地区之间运输商品的利基——这是一种有利可图的策略,因为他们可以在价格便宜的地方购买商品,然后在价格昂贵的地方出售。最后,在一系列消融实验中,我们调查了环境奖励、交换行为、智能体架构以及能否消费可交易商品等选择如何促进或抑制这种经济行为的出现。这项工作是一个研究计划的环境开发分支的一部分,该计划旨在通过模拟社会中的多智能体相互作用来构建类似人类的通用人工智能。
通过探索哪些环境特征需要让微观经济学的基本现象能够从学习中自动出现,我们得出了一个与之前的多智能体强化学习工作中研究的环境在几个维度上不同的环境。例如,该模型包含了异质的口味和身体能力,并且智能体彼此之间通过交涉作为一种基础的沟通形式。为了进一步推动这方面的工作,我们将发布一个开源的环境实现,作为"Melting Pot suite"的一部分(Leibo等,2021)。
8,公平厌恶提高了跨时社会困境中的合作
人类群体通常能够在复杂的、时间延续的社会困境中找到彼此合作的方法。基于行为经济学的模型仅能解释无法实现的无状态矩阵博弈中的这一现象。最近,多智能体强化学习已被应用于将社会困境问题推广到时间和空间延续的马尔科夫博弈中。然而,这尚未产生出像人类一样在社会困境中学会合作的智能体。一个关键的洞察是,许多人,但并非所有人,都具有厌恶不平等的社会偏好。这促进了矩阵博弈社会困境的特定解决方案,其中厌恶不平等的个体在个人层面上是亲社会的,并惩罚叛逆者。
在这里,我们将这一思想扩展到马尔科夫博弈,并展示它在多种类型的顺序社会困境中促进了合作,通过与策略可学性的有益互动。特别是,我们发现厌恶不平等有助于对重要的跨期社会困境类的时间信用分配。这些结果有助于解释大规模合作如何可能出现并持续存在。
9,使用多智能体强化学习对社会困境中的道德选择建模
在现实世界中,人工智能(AI)的实际应用已经证明将道德选择融入智能体是非常重要的。它们还强调,根据任何一种类型的道德来定义对AI的自上而下的道德约束是极具挑战性的,并且可能带来风险。一种自下而上的学习方法可能更适合于研究和发展AI智能体的道德行为。特别地,我们认为一个有趣且富有洞察力的起点是分析按照预定义的一组道德奖励在社会困境中行动的强化学习(RL)智能体的新兴行为。
在这项工作中,我们对基于道德理论的奖励构造所作出的选择进行了系统分析。我们的目标是设计简化但代表一组关键伦理系统的奖励结构。因此,我们首先定义了区分基于后果和基于规范的智能体、基于社会规范或内在美德的道德奖励函数,以及单一和混合美德(例如,多目标)方法的道德奖励函数。然后,我们通过模拟在三个重复博弈社会困境游戏(囚徒困境、志愿者困境和猎物狩猎)中学习道德智能体之间的重复二元交互来评估我们的方法。
我们分析了不同类型的道德对合作、叛逃或剥削的新兴影响,以及相应的社会结果。最后,我们讨论了这些发现对于在人工和混合人工智能社会中发展道德智能体的影响。
10,在多智能体环境中开发、评估和扩展学习智能体
DeepMind的博弈论与多智能体团队研究多智能体学习的多个方面,从计算博弈论中的基本概念的近似值,到在丰富的空间环境中模拟社会困境,再到在困难的团队协调任务中训练3D仿人机器人。我们团队的一个重要目标是利用DeepMind在深度强化学习方面提供的资源和专业知识,探索复杂环境中的多智能体系统,并将这些基准用于推动我们的理解。在这里,我们总结了我们团队最近的工作,并提出了一个分类法,我们认为这个分类法突显了多智能体研究中许多重要的开放性挑战。
关键词:博弈论、多智能体、强化学习、均衡、机制设计
📢 AI-Agents前沿观察站
AI-Agents前沿观察站是一个围绕AI-Agents这一方向进行前沿探索与观察的社群,随着更多Agents项目开源,近期也将展开更多的商业合作,以及具有建设性的主题交流,符合以下四个身份的朋友可申请加入:
1,AI-Agents的应用开发者
2,LLM算法工程师;
3,学术研究者;
4,AI-Agents技术背景出身的创业者;
*这是一个具有学术研究到工程应用落地的社群,兴趣爱好者勿扰。
请加微信Z10850,备注:AI-Agents,(加好友请做自我介绍,谢谢)