关注脆弱性应作为未来人工智能治理的关键策略

文摘   2024-10-24 13:22   北京  


最近几天,前沿人工智能大模型最令人关注的新闻是Anthropic的大模型Claude 3.5 Sonnet 能像人一样使用计算机,支持光标移动、点击和虚拟键盘输入。该公司强调,Claude 3.5 Sonnet 是首个具有“计算机使用”功能的大模型,该工具仍处于实验阶段,其安全性和应用潜力正在开发和评估中。


这一突破性的进展立即让人联想到正在成为通用工具的人工智能日益强大、势不可挡,但同时也很容易认识到人工智能体或智能代理一旦独立于人,就有可能因为其目标或其实现目标的反思与人类的目标或人类可接受的实现目标的方式不一致,而导致巨大的安全风险和社会、法律、伦理风险。


从风险范式到脆弱性范式


然而,对前沿人工智能模型风险的评估在实践中存在认知障碍。从日常风险管理的角度来看,人们一般都是根据已有的风险数据对可能发生的风险进行量化评估并加以预防,但前沿人工智能的风险评估无法基于这种认知范式,而只能通过一些对抗性的测试并据此做出防备。更进一步来讲,这些对抗性的测试所依据的其实是人们从理论上推测出的一些基准,而推测这些基准的依据是前沿模型可能产生的具有系统破坏性的输出或行为。因此,其认知范式实际上不同于一般的风险评估的认知范式,而是基于复杂系统的脆弱性的认知范式,或者说其出发点是复杂系统的脆弱性。


脆弱性并不是一个新概念。一方面,关于脆弱性的概念和问题,生态环境、气候变化等研究中有大量讨论。另一方面,在科学技术研究中,人们也曾多次尝试澄清风险和脆弱性之间的关系,Anique Hommels, Jessica Mesman, Wiebe E. Bijker等编著的Vulnerability in Technological Cultures: New Directions in Research and Governance(2014,The MIT Press)从技术文化的维度对脆弱性范式做了详细介绍。


意大利学者科西莫.亚卡托在《数据时代:可编程未来的哲学指南》(2021,中国大百科)从与颠覆性技术创新相伴随的不确定性的维度对此做了进一步的阐述:“然而,在过去的二十年中,风险范式受到质疑,正是由于一系列的颠覆性技术创新派生出的不确定性。试想想有关遗传学和基因组、人与非人的操作性实验,有关纳米技术及其对微观和亚原子物质的干预,有关大规模引进人工智能和机器人智能,更晚近有关量子计算的到来,都使风险范式受到质疑。在所以这些情况下,长期先验经验的缺乏使风险专家不明就里。实验室实验不能完全担保活体外实验结果在时间和空间上的可量测性。”(第130页)


他强调,除了风险概念,我们应该更具建设性地使用脆弱性的概念来思考和推理,脆弱性这一新的诠释视野似乎能较好地应对可编程世界的复杂性。与风险概念不同,脆弱性概念并非纯粹是负面的。从存在的意义上来讲,脆弱性本身是自然、生命和各种人造物的固有属性,从水母到人造晶体之类的美好存在同时也是脆弱的。从复杂性和系统性等新的自然哲学观看来,某种程度的脆弱性总是与开放性相伴随,而开放状态又必然或难免具有一定的非平衡性。


反观当前备受瞩目的前沿人工智能模型和脑机接口等颠覆性创新,完全可以运用脆弱性这一关键概念来描述和解读它们所面临的技术、安全、社会、法律、伦理等方面的问题,并从复杂系统的维度将寻求各方面的创新性与脆弱性之间的动态平衡点作为治理的目标。


脆弱性范式的实践策略


所谓以脆弱性为出发点,实际上是将创新性和脆弱性视为一体两面的复杂系统的非平衡演化过程。由此,脆弱性范式一般承认和接受某种程度的原初脆弱性(它们往往是理论的和推演性的)等非平衡态,且不以消除原初脆弱性作为创新的先决条件,而是直接面对开放性创新实践中产生的各种动态脆弱性以及由此导致的系统脆弱性。


以大模型和脑机接口为例,就是不仅要正视前沿大模型这一并无自我意识和真假鉴别力的智能体或代理在内容输出和与人类交互中固有的脆弱性,更要关注和应对这些理论上的脆弱性在实践中的展开、积聚以及进一步涌现出的系统脆弱性;同时也意味着植入式脑机接口等激进创新的发展必然要应对技术、安全、社会、法律、伦理诸方面问题导致的各种脆弱性以及由此引发的系统脆弱性。简言之,脆弱性范式更关注的是发动了的创新而不是蓝图中的创新。


如果我们将前沿人工智能模型视为一个开放性而非封闭性的过程,认识到其固有的脆弱性,就不难将人工智能治理的目标从一般意义上风险防范转换为对颠覆性创新涌现出开放性机会和更大的新的脆弱性的管理。以人工智能在客服中的应用为例,脆弱性范式的出发点不是停留在“AI取代部分人工客服岗位” 等原初脆弱性,而是在生成式AI通过创新可以更有效地处理客户问题解决方案的开放性创新的实践层面探讨由此带来的新的脆弱性。


根据近期《经济学人》的报道,Crescendo等公司采用“人机合作”模式,Twilio等公司则开发了能够独立处理客户对话的AI工具。而基于脆弱性范式的治理思路是在这些创新的基础上探讨由此带来的潜在的问题和影响等新的脆弱性。例如,AI机器人有时会自信地给出错误答案,甚至导致客户投诉和赔偿;同时,AI的广泛应用可能对呼叫中心代理的就业产生影响——根据Gartner预测,到2026年,生成式AI将导致客服工作岗位减少20-30%。


脆弱性范式更关注创新后的世界


毋庸置疑,脆弱性范式并不能取代风险范式,其所擅长的是关注和治理颠覆性创新后的世界。大模型生成内容为例,风险范式可能更关注内容是否为人工智能合成或输出,如如何进行内容标识等。脆弱性范式则更愿意直面人类生成内容与人工智能生成内容无法区分、合成数据与原始数据混同的数据新世界中更大的脆弱性。下面,将以两项最新的大模型研究来说明脆弱性范式更为关切的方面。


最近,谷歌DeepMind公司的研究人员在《科学》杂志发表的研究论文(AI can help humans find common ground in democratic deliberation)指出,他们受哈贝马斯 (Jürgen Habermas) 的交往行为理论启发,设计了名为“哈贝马斯机器” 大模型,以迭代方式生成基于个人用户的个人意见和批评的群体声明。


这项研究得出了非常有趣的结论:(1)哈贝马斯机器生成的群体意见陈述始终比人类调解员编写的陈述更受群体成员的青睐,并在质量、清晰度、信息量和公平性方面获得了外部评委的更高评价;(2)人工智能介导的审议减少了群体内部的分歧,参与者报告的立场在审议后趋向于对该问题的共同立场;(3)在人工智能介导的审议过程中,讨论者群体的观点在有争议的问题上倾向于朝着相似的方向发展;(4)这些转变不能归因于人工智能的偏见,这表明审议过程确实有助于在可能两极分化的社会和政治问题上形成共同观点。


对于这项研究,脆弱范式更关心的是,一旦人工智能体或代理在社会议题的审议中扮演关键角色,将对未来社会的合作、团结与公共秩序的形成带来哪些全新的冲击,人工智能体在审议中的立场和角色将给未来的社会生活带来哪些新的脆弱性?


另一项由MIT和亚利桑那州立大学的研究者发表于2023年《自然.机器智能》的论文《通过培养对人工智能的信念来影响人与人工智能的互动,可以提高感知到的可信度、同理心和有效性》(Influencing human–AI interaction by priming beliefs about AI can increase perceived trustworthiness, empathy and effectiveness)指出,随着由大型语言模型驱动的对话代理变得越来越像人类,用户开始将它们视为同伴,而不仅仅是助手。他们的研究探索了一个人对人工智能系统的心理模型的变化如何影响他们与系统的交互。参与者与同一个对话式人工智能进行了交互,但受到关于人工智能内在动机的不同启动陈述的影响:关怀、操纵或没有动机。结果发现,那些认为人工智能有关怀动机的人也认为它更值得信赖、更有同理心、表现更好。


显然,如果这项研究的结果基本可靠的话,无疑进一步揭示了人工智能体或代理作为准人类的新世界的全新可能性,而这种可能性显然超越了古典的皮格马利翁效应和现代人工智能的伊丽莎效应,我们必须透过这些创新实践跨入其所开拓的全新的世界,探究未来可能出现的更大的脆弱性。

科技世代千高原
透视深度科技化时代™ 探寻合意的人类未来
 最新文章