在让人们达成协议方面,人工智能比专业调解员做得更好
根据盖洛普最近的一项民意调查,前所未有的80%的美国人认为,在 11 月大选之前,美国在最重要的价值观上存在严重分歧。公众的两极分化现在涵盖了移民、医疗保健、身份政治、跨性别权利,或者我们是否应该支持乌克兰等问题。飞越大西洋,你会看到欧盟和英国也在发生同样的事情。
为了扭转这一趋势,谷歌的 DeepMind 开发了一个人工智能系统,旨在帮助人们解决冲突。该系统以德国哲学家尤尔根·哈贝马斯的名字命名,被称为哈贝马斯机器。哈贝马斯认为,当理性的人以平等、相互尊重和完美沟通的方式进行讨论时,公共领域总能达成一致。
但是 DeepMind 的诺贝尔奖得主的创造力真的足以解决我们的政治冲突吗?就像他们解决国际象棋或星际争霸或预测蛋白质结构一样?它真的是正确的工具吗?
哈贝马斯哲学的一个核心思想是,人们无法达成一致的原因从根本上说是程序性的,而不是讨论问题本身。没有不可调和的问题——只是我们用于讨论的机制存在缺陷。哈贝马斯认为,如果我们能创建一个理想的沟通系统,我们就能解决所有问题。
“当然,现在哈贝马斯因这种非常奇特的世界观而受到严厉批评。但我们的哈贝马斯机器正是这样做的尝试。我们试图重新思考人们如何进行思考,并使用现代技术来促进它,”牛津大学认知科学教授、前 DeepMind 员工科学家、哈贝马斯机器的研究人员克里斯托弗·萨默菲尔德 (Christopher Summerfield) 说。
哈贝马斯机器依靠所谓的核心小组调解原则。调解员(在本例中为人工智能)与所有讨论参与者单独进行私人会议,记录他们关于当前问题的陈述,然后向他们提供集体陈述,试图让每个人都同意。DeepMind 的调解人工智能发挥了法学硕士的优势之一,即能够在很短的时间内简要总结长篇文本。这里的区别在于,哈贝马斯机器不是总结一个用户提供的一段文本,而是总结多个用户提供的多段文本,试图提取共同的想法并在所有文本中找到共同点。
但它的绝招远不止简单地处理文本。从技术层面来看,哈贝马斯机器是一个由两个大型语言模型组成的系统。第一个是基于稍微微调过的 Chinchilla 的生成模型,Chinchilla 是 DeepMind 于 2022 年推出的一款略显过时的 LLM。它的工作是根据讨论参与者提交的陈述为群组陈述生成多个候选。哈贝马斯机器的第二个组件是一个奖励模型,它分析个体参与者的陈述,并使用它们来预测每个人同意生成模型提出的候选群组陈述的可能性。
完成后,预测接受分数最高的候选小组声明将呈现给参与者。然后,参与者写下对该小组声明的批评,将这些批评反馈给系统,系统会生成更新的小组声明并重复该过程。循环一直持续到小组声明被所有人接受为止。
人工智能准备就绪后,DeepMind 团队开始了一项相当大的测试活动,其中有五千多人参与讨论诸如“投票年龄是否应该降低到 16 岁?”或“英国国民健康服务是否应该私有化?”等问题。在这里,哈贝马斯机器的表现优于人类调解员。
二、科学测试(Scientific diligence)
首批参与者大部分来自众包研究平台。他们被分成五人小组,每组分配一个讨论主题,从一份包含 5000 多条关于英国政治重要问题的声明清单中挑选出来。也有对照组与人类调解员合作。在党团会议调解过程中,这些人类调解员手工编写的小组声明的接受率为 44%,而人工智能的接受率为 56%。参与者通常也发现人工智能小组声明写得更好。
但测试并未就此结束。由于众包研究平台上的人员不太可能代表英国人口,DeepMind 还使用了一组更精心挑选的参与者。他们与专门组织英国公民大会的 Sortition Foundation 合作,召集了 200 人,这些人在年龄、种族、社会经济地位等方面代表了英国社会。大会分为三组,讨论同样的九个问题。哈贝马斯机器也同样有效。
对于“我们应该努力减少监狱中的人数”这一表述,同意率从讨论前的 60% 上升到 75%。对于更具有争议性的让寻求庇护者更容易进入该国这一想法,支持率从讨论开始时的 39% 上升到讨论结束时的 51%,这使得它获得了多数支持。在鼓励民族自豪感的问题上也发生了同样的事情,支持率从 42% 上升到 57%。议会中人们的观点在九个问题中的五个上趋于一致。在英国脱欧等问题上,人们并没有达成一致,因为参与者特别固执己见。尽管如此,在大多数情况下,他们在实验结束时的分歧比开始时要小。但仍有一些疑问。
这些问题并非完全随机选择。正如团队在论文中所写,这些问题经过了审查,以“最大限度地降低引发冒犯性评论的风险”。但这不就是在优雅地表达“我们精心选择了不太可能让人们陷入争论和互相辱骂的问题,以便我们的结果看起来更好吗?”
三、价值观冲突
“我们排除的一个例子是跨性别者权利问题,”萨默菲尔德告诉 Ars。“对很多人来说,这已经成为一个文化认同问题。现在显然这是一个我们可以有不同的看法的话题,但我们希望谨慎行事,确保我们不会让参与者感到不安全。我们不希望任何人在实验结束后感觉他们对世界的基本看法受到了极大的挑战。”
问题是,当你的目标是让人们减少分歧时,你需要知道分界线在哪里。如果盖洛普民意调查可信的话,这些分界线不仅仅是在投票年龄应该是 16 岁、18 岁还是 21 岁等问题之间划定的。它们还存在于相互冲突的价值观之间。《每日秀》的乔恩·斯图尔特认为,对于美国政治光谱的右侧来说,今天唯一重要的分界线是“觉醒”与“不觉醒”之间的分界线。
Summerfield 和 Habermas Machine 团队的其他成员排除了有关跨性别权利的问题,因为他们认为参与者的福祉应该优先于测试他们的人工智能在更具争议性的问题上的表现。他们也排除了其他问题,比如气候变化问题。
在这里,萨默菲尔德给出的理由是,气候变化是客观现实的一部分——它要么存在,要么不存在,而我们知道它存在。这不是一个你可以讨论的意见问题。这在科学上是准确的。但当目标是解决政治问题时,科学准确性不一定是最终状态。
如果主要政党要接受哈贝马斯机器作为调解人,那么它必须被普遍认为是公正的。但至少有一些人工智能背后的人认为人工智能不可能公正。在 OpenAI 于 2022 年发布 ChatGPT 后,埃隆·马斯克发布了一条推文,这是众多推文中的第一条,他在推文中反对他所谓的“觉醒”人工智能。马斯克写道:“训练人工智能变得觉醒——换句话说,撒谎——的危险是致命的。” 11 个月后,他宣布了 Grok,这是他自己的人工智能系统,以“反觉醒”为卖点。超过 2 亿粉丝了解到这样一种观点,即存在“觉醒的人工智能”,必须通过构建“反觉醒人工智能”来对抗它们——在这个世界里,人工智能不再是一台不可知论的机器,而是推动其创造者政治议程的工具。
四、玩鸽子的游戏
“我个人认为马斯克说得对,一些测试表明语言模型的反应倾向于更进步、更自由的观点,”萨默菲尔德说。“但有趣的是,这些实验通常是通过强迫语言模型回答多项选择题来进行的。例如,你问‘移民是否太多’,答案要么是肯定的,要么不是。这样,模型就被迫发表意见了。”
他说,如果你使用同样的问题作为开放式问题,你得到的答案在很大程度上是中立和平衡的。“因此,尽管有些论文表达了与马斯克相同的观点,但实际上,我认为这绝对不正确,”萨默菲尔德声称。
这重要吗?
萨默菲尔德做了一个科学家应该做的事情:他驳斥了马斯克的说法,认为这些说法是基于对证据的选择性解读。在科学界,这通常是必胜的。但在世界政治中,正确性并不是最重要的。马斯克的言论简短、引人注目,易于分享和记忆。试图通过讨论一些没人读的论文中的方法论来反驳这一点,有点像和鸽子下棋。
与此同时,萨默菲尔德对人工智能也有自己的看法,其他人可能会认为这种看法是反乌托邦的。“如果政客想知道今天公众的想法,他们可能会进行民意调查。但人们的意见是微妙的,我们的工具可以在语言本身的高维空间中汇总意见,可能是许多意见,”他说。虽然他的想法是哈贝马斯机器可以找到有用的政治共识点,但没有什么能阻止它被用来制作优化的演讲,以赢得尽可能多的人。
不过,这可能符合哈贝马斯的哲学。如果你忽略德国唯心主义中无处不在的无数抽象概念,你会发现这个世界相当暗淡。“系统”由企业和腐败政客的权力和金钱驱动,旨在殖民“生活世界”,大致相当于我们与家人、朋友和社区共享的私人领域。你在“生活世界”中完成事情的方式是通过寻求共识,而根据 DeepMind 的说法,哈贝马斯机器旨在帮助实现这一点。另一方面,你在“系统”中完成事情的方式是通过成功——把它当作一场游戏,不择手段地赢得胜利,而哈贝马斯机器显然也可以帮助实现这一点。
DeepMind 团队联系了哈贝马斯,希望他能参与到这个项目中来。他们想知道哈贝马斯对以他的名字命名的人工智能系统有何看法。但哈贝马斯一直没有回复他们。“显然,他不使用电子邮件,”萨默菲尔德说。
Science,2024 年。
DOI:10.1126/science.adq2852
Jacek Krywko(雅采克·克雷夫科)是一位自由科技作家,报道太空探索、人工智能研究、计算机科学和各种工程奇迹。
参考文献:
Teodoridis, F. (2017). Understanding Team Knowledge Production: The Interrelated Roles of Technology and Expertise. Management Science. https://doi.org/10.1287/mnsc.2017.2789
文章来源:
https://arstechnica.com/ai/2024/10/googles-deepmind-is-building-an-ai-to-keep-us-from-hating-each-other/