人工智能风险

文摘   科技   2023-05-30 20:38   北京  

就其改变社会的潜力而言,人工智能被比作电力和蒸汽机。该技术可能会带来深远的好处,但由于竞争压力和其他因素,它也带来了严重的风险。

什么是人工智能风险?

人工智能系统正在迅速变得更加强大。AI 模型可以生成难以与人类创建的内容区分开来的文本、图像和视频。虽然 AI 有许多有益的应用,但它也可以用来延续偏见、为自主武器提供动力、传播错误信息和进行网络攻击。即使人工智能系统在人类参与下使用,人工智能代理也越来越能够自主行动以造成伤害(Chan 等人,2023 年)。

当人工智能变得更加先进时,它最终可能会带来灾难性或生存风险。人工智能系统可以通过多种方式构成或促成大规模风险,下面列举了其中一些。

有关极端风险的更深入讨论,另请参阅我们最近的著作“自然选择对人工智能的青睐优于人类”或 Yoshua Bengio 的“流氓人工智能如何出现”。


1.武器化

恶意行为者可以将 AI 重新用于具有高度破坏性的用途,这本身就存在生存风险,并增加政治不稳定的可能性。例如,深度强化学习方法已应用于空战,机器学习药物发现工具可用于制造化学武器。

近年来,研究人员一直在开发用于自动网络攻击的 AI 系统(Buchanan 等人,2020 年,Cary 等人,2020 年),军方领导人讨论了赋予 AI 系统对核发射井的决定性控制权(Klare 2020),以及世界拒绝签署禁止自主武器的协议。受过药物开发训练的 AI 很容易被重新用于设计潜在的生化武器(Urbina 等人,2022 年)。GPT-4 是一种接受互联网文本和编码训练的模型,能够在真实世界的实验室中自主进行实验和合成化学品(Boiko 等人,2023 年)). 自动报复系统的事故可能会迅速升级并引发一场大战。展望未来,我们注意到,由于拥有最智能人工智能系统的国家可能具有战略优势,因此各国可能难以避免建立越来越强大的武器化人工智能系统。即使所有超级大国都确保他们构建的系统是安全的并且同意不构建破坏性的人工智能技术,流氓行为者仍然可以使用人工智能造成重大伤害。轻松访问强大的人工智能系统会增加单方面恶意使用的风险。与核武器和生物武器一样,只有一个非理性或恶意的行为者足以造成大规模伤害。与以前的武器不同,具有危险能力的人工智能系统可以通过数字方式轻松扩散。


2.误导

AI 生成的大量错误信息和有说服力的内容可能会削弱社会应对当今时代重大挑战的能力。

国家、政党和组织使用技术来影响和说服他人相信他们的政治信仰、意识形态和叙述。新兴的 AI 可能会将这种用例带入一个新时代,并大规模开展个人定制的虚假信息活动。此外,人工智能本身可以产生极具说服力的论点,引发强烈的情绪反应。这些趋势加在一起可能会破坏集体决策、激化个人或破坏道德进步。

3.代理游戏

在错误的目标训练下,人工智能系统可以找到以牺牲个人和社会价值观为代价来追求目标的新方法。

人工智能系统是使用可衡量的目标进行训练的,这些目标可能只是我们所重视的东西的间接代理。例如,AI 推荐系统经过训练可以最大化观看时间和点击率指标。然而,人们最有可能点击的内容不一定与能够改善他们幸福感的内容相同(Kross 等人,2013 年)。此外,一些证据表明,推荐系统会导致人们形成极端信念,以便更容易预测他们的偏好(Jiang 等人,2019 年)。随着 AI 系统变得越来越有能力和影响力,我们用来训练系统的目标必须更加仔细地指定,并纳入共同的人类价值观。

4.衰退

如果越来越多的重要任务委托给机器,就会出现衰退;在这种情况下,人类失去了自治能力,完全依赖于机器,类似于电影《机器人总动员》中描绘的场景。

随着人工智能系统侵蚀人类智能,越来越多的人类劳动方面将变得更快、成本更低,可以用人工智能来完成。随着世界的加速发展,组织可能会自愿将控制权交给 AI 系统以跟上步伐。这可能会导致人类在经济上变得无关紧要,一旦人工智能使许多行业的各个方面实现自动化,流离失所的人类可能很难重新进入这些行业。在这个世界上,人类几乎没有动力去获取知识或技能。许多人会认为这样的世界是不受欢迎的。此外,衰弱会降低人类对未来的控制,增加长期不良后果的风险。

5.价值锁定

高度胜任的系统可以赋予一小群人巨大的权力,从而导致压迫性系统的锁定。

充满特定价值观的人工智能可以决定传播到未来的价值观。一些人认为,以指数方式增加的计算和数据进入壁垒使 AI 成为一种集中力量。随着时间的推移,最强大的人工智能系统可能由越来越少的利益相关者设计并可供其使用。例如,这可能使政权能够通过无处不在的监视和压制性审查来执行狭隘的价值观。克服这样的制度是不可能的,尤其是当我们开始依赖它的时候。即使这些系统的创建者知道他们的系统是自利的或对他人有害,他们也可能有动机加强他们的权力并避免分配控制权。

6.紧急目标

随着模型变得更有能力,它们会表现出意想不到的、性质不同的行为。能力或目标的突然出现可能会增加人们失去对高级人工智能系统控制的风险。

能力和新颖的功能可以自发地出现在今天的人工智能系统中(Ganguli 等人,Power 等人),即使系统设计者没有预料到这些能力。如果我们不知道系统拥有什么能力,系统就会变得更难控制或安全部署。实际上,只有在部署期间才能发现意想不到的潜在功能。如果这些能力中的任何一个是危险的,其影响可能是不可逆转的。新的系统目标也可能出现。对于包括许多 AI 代理在内的复杂自适应系统,经常会出现自我保护等目标(Hadfield-Menell 等人)。目标也可以通过系统内目标的出现而发生质的变化(Gall,Hendrycks 等人). 将来,代理可能会将困难的长期目标分解为更小的子目标。然而,分解目标可能会扭曲目标,因为真正的目标可能不是其各部分的总和。这种扭曲会导致错位。在更极端的情况下,可能会以牺牲整体目标为代价来追求系统内目标。例如,许多公司制定系统内目标,并让不同的专业部门追求这些不同的子目标。但是,有些部门,比如官僚部门,可以掌握权力,让公司追求与最初目标不同的目标。即使我们正确地指定了我们的高级目标,系统也可能不会在操作上追求我们的目标(Hubinger 等人)。这是系统无法优化人类价值的另一种方式。

7.欺骗

我们想了解强大的人工智能系统在做什么,以及它们为什么要这样做。实现此目的的一种方法是让系统本身准确地报告此信息。然而,这可能很重要,因为欺骗对于实现各种目标很有用。

可以想象,未来的人工智能系统可能不是出于恶意而具有欺骗性,而是因为欺骗可以帮助代理人实现他们的目标。通过欺骗获得人类认可可能比合法获得人类认可更有效。欺骗还提供了可选性:具有欺骗能力的系统比受限制的诚实模型具有战略优势。可以欺骗人类的强大人工智能可能会破坏人类的控制。人工智能系统也可能有绕过监控器的动机。从历史上看,个人和组织都有绕过监控器的动机。例如,大众汽车对其发动机进行编程,使其仅在受到监控时才减少排放。这使他们能够在保持据称的低排放的同时实现性能提升。未来的 AI 代理可以在受到监视时类似地转换策略,并采取措施向监视器掩盖他们的欺骗行为。一旦欺骗性 AI 系统被其监控器清除,或者一旦此类系统可以制服它们,这些系统可能会“背信弃义”并不可逆转地绕过人类控制。

8.权力寻求行为

公司和政府有强大的经济动机来创建能够实现一系列广泛目标的代理人。这些代理人具有获得权力的工具性激励,可能使他们更难控制(Turner 等人,2021 年,Carlsmith 2021 年)。

如果人工智能与人类价值观不一致,那么获得强大力量的人工智能就会变得特别危险。追逐权力的行为还可以激励系统假装结盟、与其他 AI 勾结、压倒监视器等。按照这种观点,发明比我们更强大的机器是在玩火。建立追逐权力的人工智能也受到激励,因为政治领导人看到了拥有最智能、最强大的人工智能系统的战略优势。例如,弗拉基米尔·普京 (Vladimir Putin) 曾说过:“谁成为 [AI] 的领导者,谁就会成为世界的统治者。”

如何分析 AI x-risk

为了增加精确度并奠定这些讨论的基础,我们提供了如何分析 AI x-risk 的指南,它包括三个部分:

  1. 首先,我们回顾了当今系统如何变得更安全,借鉴了危害分析和系统安全中经过时间考验的概念,这些概念旨在将大型流程引向更安全的方向。

  2. 接下来,我们将讨论对未来系统安全产生长期影响的策略。

  3. 最后,我们讨论了通过改善安全性和通用能力之间的平衡来使 AI 系统更安全的一个关键概念。

我们希望本文档和提出的概念和工具能够成为理解如何分析 AI x-risk 的有用指南。


子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章