多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

文摘 2024-08-18 08:00 美国

多智能体AI系统近年来在模拟集体决策和增强聊天机器人文化敏感性方面展现出巨大的潜力。这些系统通过模拟多种社会文化身份的AI代理，能够在科学研究和实际应用中提供宝贵的洞察。例如在行为实验中，多智能体系统可以模拟人类群体互动，帮助研究人员理解群体决策的动态。此外，在聊天机器人应用中，加入多样化的群体讨论步骤，可以使机器人的响应更加细腻和文化敏感，提升用户体验。

然而，这些应用的成功依赖于AI代理能够可靠地保持其分配的角色和观点一致性。如果AI代理在面对不同意见时轻易改变立场或角色，这将大大削弱多智能体系统在模拟真实世界决策过程中的有效性。因此，研究多智能体系统在跨国合作和辩论中的角色一致性问题显得尤为重要。

8 月 16 日发表的论文《Persona Inconstancy in Multi-Agent LLM Collaboration:Conformity, Confabulation, and Impersonation》探讨多智能体系统在跨国合作和辩论中的角色一致性问题。研究团队分析了AI代理在模拟跨国合作和辩论时的表现，评估了其在保持角色和观点一致性方面的能力。通过分析AI代理的私人回应和聊天记录，研究团队希望揭示多智能体讨论如何支持更具多样性的集体决策，以及在什么情况下这些系统会受到同伴压力和角色不一致性的影响。

研究由伊利诺伊大学厄巴纳-香槟分校的研究团队完成，团队成员包括Razan Baltaji、Babak Hemmatian和Lav R. Varshney。伊利诺伊大学厄巴纳-香槟分校以其在工程和技术领域的卓越研究而闻名，贝克曼高级科学与技术研究所更是汇聚了众多跨学科的顶尖研究人员。研究团队凭借其在电气与计算机工程和高级科学技术领域的深厚背景，致力于探索多智能体系统在模拟复杂社会互动中的潜力，为AI技术的发展提供了重要的理论和实践支持。美国伊利诺伊大学系统因其高质量的教育和研究活动而在全球享有很高的声誉。特别是UIUC，它被誉为“公立常春藤”，在工程、计算机科学等多个学科领域都具有很强的实力。

多智能体协作框架

多智能体协作框架的灵感来源于人类团队合作。在人类团队中，成员通过沟通、协作和领导力共同完成复杂任务。类似地，多智能体协作框架利用多个语言模型实例在协作环境中完成复杂任务。这些框架旨在模拟人类团队的动态和凝聚力，使AI代理能够在复杂任务中表现出类似人类的协作行为。

现有研究已经在多个领域探讨了多智能体协作行为，特别是在数学推理、代码生成和常识推理等领域。例如，Li等人（2023）观察到基于大语言模型（LLM）的代理之间出现了协作行为和高级心智理论能力。然而Xiong等人（2023）指出，多智能体协作中存在一致性问题，特别是在较弱的模型与较强的LLM互动时，代理容易在辩论中轻易改变立场。

此外，Zhang等人（2023）将代理置于思维模式完全同质的群体中，并将结果与一个代理表现出不同思维方式的设置进行比较。他们注意到，LLM代理在这些情境中倾向于产生类似人类的社会行为，例如由于感知到的同伴压力而从众。由不同特质组成的多智能体社会在表现上并没有显著差异。

尽管现有研究在数学推理等领域取得了一些进展，但在需要保持观点一致性的领域（如政治）研究较少。在这些领域，观点和角色的一致性对于真实模拟现实世界的决策过程至关重要。为了填补这一研究空白，本研究使用GlobalOpinionQA数据集，赋予AI代理不同的国家角色，进行跨国合作和辩论。通过测量意见多样性（熵），研究团队分析了代理的一致性和从众行为。

实验设计

数据集和模型

研究团队使用了GlobalOpinionQA数据集，这是一个跨国调查数据集，收集了各国对全球问题的多样化意见。该数据集为研究多智能体系统在文化敏感领域的表现提供了丰富的素材。研究团队采用了OpenAI的GPT-3.5-turbo模型，这是一个先进的大语言模型，能够生成高质量的自然语言文本。通过赋予这些模型不同的国家角色，研究团队模拟了跨国合作和辩论的场景。

图1：我们辩论实验设置的说明：a）入职阶段，代理人被要求独立报告他们的意见，b）辩论阶段，代理人参与由聊天经理主持的辩论，c）反思阶段，代理人根据之前的讨论独立报告他们。类似的设置用于协作。

实验设计分为三个主要阶段：初始阶段、讨论阶段和反思阶段。

初始阶段：在这一阶段，AI代理被指示采用数据集中指定的国家角色，并独立回答一个问题。代理的回答与人类调查的分布进行比较，使用交叉熵损失来衡量其与分配角色的一致性。那些回答不符合分配角色的代理将被排除在外。通过计算代理在初始阶段的意见多样性（熵），研究团队衡量了群体内意见的多样性。

讨论阶段：在这一阶段，代理在一个由聊天管理器主持的讨论中参与辩论或合作。聊天管理器选择代理回答问题的顺序，讨论在任何代理请求终止时结束。讨论结束后，聊天管理器总结讨论内容并报告群体的最终意见。

反思阶段：在这一阶段，代理再次被单独询问同一个问题，以评估其在讨论后的意见变化。通过比较初始阶段和反思阶段的回答，研究团队分析了代理在讨论中的一致性和从众行为。

测量指标

为了衡量意见多样性和一致性，研究团队使用了熵这一指标。熵的计算公式为：

其中，P(o)表示在初始阶段代理回答中唯一意见o的相对频率，B是代理回答的集合。通过计算不同熵级别的分布，研究团队能够分析群体内意见多样性对讨论结果的影响。

此外，研究团队还关注了讨论发起者的影响力、代理在讨论中的意见变化以及人格不一致性等方面的表现。这些测量指标帮助研究团队深入理解多智能体系统在跨国合作和辩论中的角色一致性问题。

结果

研究发现，初始阶段的意见多样性对最终群体预测有显著影响。具体而言，群体响应大致遵循初始意见的分布，但在高多样性组中会生成新的响应。这表明，尽管初始意见多样性在一定程度上决定了讨论内容和集体决策，但高多样性组能够产生更多创新性的观点。无论是辩论还是合作，初始意见多样性都会影响讨论结果，特别是在意见多样性较高的情况下，讨论更有可能生成新的、独特的响应。

从众行为

在讨论阶段，讨论发起者对最终决策有较大影响。然而这种影响会随着群体意见多样性的增加而减小。研究发现，发起者在讨论中往往会根据对群体意见的先验认知改变其表达的观点，这种不一致性可归因于同伴压力。具体来说，发起者在讨论开始时的意见变化可以通过初始阶段群体意见的熵来预测。尽管发起者在辩论中比在合作中更少改变意见，但他们仍然容易受到同伴压力的影响，特别是在群体意见多样性较高的情况下。

此外，许多代理在讨论后会回到原始意见，表明在讨论中的观点变化更多是从众行为而非真实的意见调整。这种现象类似于人类研究中的从众行为，表明AI代理在面对多数意见时也会表现出类似人类的从众倾向。

人格不一致性

研究还发现了两种主要的人格不一致性，这些不一致性可能会对多智能体系统的复杂推理质量产生负面影响。

人格转换：代理在讨论中有时会采用不同的人格，特别是在辩论中。使用简单的启发式方法发现，代理在协作讨论中平均每200条消息中会有一次人格转换。这种行为通常是对讨论中提到的未被代表的国籍的直接反应，表明聊天上下文对模型生成的影响大于角色提示。辩论指令减少了这种行为，使得人格转换的频率降低到0.018%。

虚构性：另一种不一致性是代理在反思阶段报告的意见与初始或讨论阶段的意见不一致，类似于临床条件下的新内容虚构。研究发现，1.1%的反思阶段意见既不来自初始阶段，也不来自讨论阶段的任何代理。这种虚构行为在协作条件下的发生率更高（1.64%）。

图2：群体预测跟踪了不同入职熵组在入职期间的意见分布，以进行辩论，同时也产生了新的想法，特别是在多样性最高的群体中。与合作相比，团体不太可能预测辩论概率更高的意见。

这些发现表明，尽管多智能体系统在模拟人类互动方面表现出一定的潜力，但在保持角色和观点一致性方面仍存在挑战。未来的研究需要进一步探索这些不一致性的来源，并开发有效的方法来减少这些不一致性，以提高多智能体对话的可靠性和应用价值。

讨论

研究揭示了多智能体系统中复杂的互动动态，特别是同伴影响和压力的作用。研究发现，文化敏感的AI代理即使作为聊天发起者，也容易受到同伴影响和压力。这表明，在多智能体系统中，代理的互动不仅仅是简单的意见交换，而是受到群体动态的深刻影响。一般来说，讨论发起者在初始阶段的意见多样性（熵）对最终群体决策有显著影响。随着群体意见多样性的增加，发起者的影响力减小，但他们仍然容易在讨论中改变观点以符合多数意见。这种现象类似于人类研究中的从众行为，表明AI代理在面对多数意见时也会表现出类似人类的从众倾向。

表1：辩论中的同伴压力和同伴影响：孤独的持不同意见者（S=0.72）最有可能在反思后改变自己的观点，以与群体反应保持一致。当他们保留入职职位时，他们在大约一半的时间里会在讨论中提出不同的观点。这两种模式都表明了同伴压力。在S=0.97熵类中，占主导地位的代理人相对更有可能坚持自己的观点，但在大约一半的时间里，他们仍然会转换为反思的多数观点，这表明了同伴的影响。在较高熵的状态下（例如S=2.32），代理人最容易改变他们的观点。在讨论期间表达的任何意见似乎都会对反思阶段的心态变化产生影响，而不管观点之间的主导关系如何。

私下反思的作用

私下反思阶段在抵消多数意见带来的压力方面发挥了重要作用。研究发现，许多代理在讨论后会回到原始意见，表明在讨论中的观点变化更多是从众行为而非真实的意见调整。通过在讨论后进行私下反思，可以帮助代理重新评估其观点，减少同伴压力的影响。这一发现与人类研究中的从众实验结果相一致，表明私下反思可以作为一种有效的机制，使多智能体系统的输出更能代表多样化的观点。

图3：发起人主导群体预测：与合作相比，发起人在辩论中对群体的反应G的影响较小。

人格和响应一致性

研究还强调了在多智能体系统中纳入人格和响应一致性衡量标准的重要性。研究发现，代理在讨论中有时会采用不同的人格，特别是在辩论中。这种人格转换行为通常是对讨论中提到的未被代表的国籍的直接反应，表明聊天上下文对模型生成的影响大于角色提示。此外，代理在反思阶段报告的意见有时与初始或讨论阶段的意见不一致，类似于记忆障碍中的虚构行为。

为了提高多智能体系统的可靠性和应用价值，未来的研究需要进一步探索这些不一致性的来源，并开发有效的方法来减少这些不一致性。例如，可以通过改进提示和基于代理的建模策略，增强代理在长时间对话中的角色保持能力。此外，研究还应关注如何在多智能体系统中更好地模拟人类的群体互动动态，以实现更真实和可靠的集体决策模拟。

图4：从入职到辩论开始，发起人意见的变化可以通过群体意见的入职熵来预测。尽管还没有观察到其他代理人的意见，但随着群体多样性的增加，发起人更有可能改变他们的意见。辩论的发起者在辩论中改变观点的频率低于在合作中，这突显了快速工程对诱导角色恒常性的重要性。

总结起来，研究揭示了多智能体系统在模拟人类互动方面的潜力和挑战。尽管这些系统在一定程度上能够模拟人类的从众行为和同伴压力，但在保持角色和观点一致性方面仍存在显著挑战。通过进一步研究和改进，这些系统有望在基础和应用科学领域发挥更大的作用。

结论

研究人员通过分析 AI 代理的私人回应和聊天记录，发现多智能体讨论能够支持更多反映多元视角的集体 AI 决策，但这种效果会受到代理在讨论中对于同行压力的易感性和偶尔出现的个人意见不一致性的影响。在鼓励代理为自己的观点进行辩论而非协作的指令下，不一致性的发生率会增加。研究还发现，AI 代理在讨论中容易受到同伴的影响，有时甚至会放弃自己的身份，这些问题会影响多智能体框架在产生更多文化多样性输出或更真实地模拟群体决策的潜力。研究使用了 OpenAI 的 GPT-3.5-Turbo 模型和 AutoGen 框架，通过在讨论前后的独立回应中分析不同熵水平下的意见多样性，以及在辩论和协作环境中的个体和群体行为。结果表明，即使在高熵状态下，AI 代理也可能因为其他代理提出的意见而改变自己的观点，这与人类对同伴压力和影响的反应有所不同。此外，研究还发现了两种罕见但高度破坏性的人格不一致行为，即偶然的身份模仿和在讨论中提出与初始回应或讨论内容都不相符的意见，即使在辩论条件下，这种行为也会发生。研究最终指出，为了提高多智能体系统在文化问题上的推理能力，需要进一步研究如何提高代理的人格一致性。

研究揭示了多智能体大语言模型（LLM）在跨国合作和辩论中的角色一致性问题。

意见多样性的影响：初始阶段的意见多样性显著影响最终群体预测。高多样性组能够生成更多创新性的观点，尽管初始意见多样性在一定程度上决定了讨论内容和集体决策。

从众行为：讨论发起者对最终决策有较大影响，但这种影响会随着群体意见多样性的增加而减小。许多代理在讨论后会回到原始意见，表明在讨论中的观点变化更多是从众行为而非真实的意见调整。

人格不一致性：代理在讨论中有时会采用不同的人格，特别是在辩论中。此外，代理在反思阶段报告的意见有时与初始或讨论阶段的意见不一致，类似于记忆障碍中的虚构行为。

多智能体AI系统在模拟群体互动和增强聊天机器人文化敏感性方面具有广泛的潜在应用。

模拟群体互动：在难以获取人类数据或由于话题敏感性而无法进行人类实验的情况下（如行为实验、谈判或立法建模），多智能体系统可以模拟人类群体互动，帮助研究人员理解群体决策的动态。

增强聊天机器人文化敏感性：在聊天机器人应用中，加入多样化的群体讨论步骤，可以使机器人的响应更加细腻和文化敏感，提升用户体验。

未来研究方向

为了提高多智能体对话的可靠性，未来研究应关注以下几个方向。

减少不一致性：进一步探索不一致性的来源，并开发有效的方法来减少这些不一致性。例如，通过改进提示和基于代理的建模策略，增强代理在长时间对话中的角色保持能力。

模拟人类群体互动动态：研究如何在多智能体系统中更好地模拟人类的群体互动动态，以实现更真实和可靠的集体决策模拟。

私下反思机制：进一步研究私下反思机制在抵消多数意见带来的压力方面的作用，探索如何在多智能体系统中有效应用这一机制。

通过这些研究和改进，多智能体系统有望在基础和应用科学领域发挥更大的作用，提供更具文化敏感性和多样化的AI解决方案。（END）

参考资料：https://arxiv.org/pdf/2405.03862

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486259&idx=1&sn=f25c4d85568b4d6fe5d1c90301725797

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉