布莱恩•克里斯汀:《人机对齐:如何让人工智能学习人类价值观》

体娱   2025-01-24 00:02   浙江  

书籍分享

一、作者简介

布莱恩•克里斯汀,畅销书作家,拥有布朗大学和华盛顿大学的计算机科学、哲学和诗歌学位,也是加州大学伯克利分校的访问学者。《算法之美》一书,入选了亚马逊年度最佳科学书籍和MIT技术评论年度最佳书籍;《人机大战》入选了《纽约时报》编辑选书。他的作品赢得了多个奖项,入选了《美国最佳科学和自然写作》,被译成了19种语言。

二、本书创作历程

这本书探讨了不通过手工编程,而是从数据中学习的系统。它详细讲述了我们如何教这些系统,以及教它们什么内容。通过丰富有趣的具体事例,书中不仅展示了技术的进展,还探讨了其背后的价值观和伦理问题。

本书的描述相当生动,它不仅涵盖了机器学习技术的深度探讨,还突出了人类在这一过程中所扮演的角色。本书是近100次正式采访和数百次非正式谈话的结晶。作者历时4年,行程数万公里,采访对象涵盖了这一年轻领域的广阔前沿的研究者和思想家。

通过具体事例和深度访谈,书中展示了机器学习系统如何从数据中学习,并探讨了我们教这些系统的过程和内容。这本书不仅仅是技术的“说明书”,更是对机器学习技术背后人类价值观和伦理问题的深刻探讨。通过作者的笔触,可以感受到这一领域的多样性和复杂性,以及技术与人类价值观之间的互动关系。

三、本书组成

本书由预警、自主、示范三大部分组成。

“预警”部分,主要介绍“对齐问题”前沿的一些情况,比如公平问题、错误的规则问题等等。现有的一些人工智能系统已经出现了和人类应有的伦理道德标准(比如不能有种族歧视)明显冲突的情况。而在看起来人类完全有能力掌控其意图的系统中,实际情况也比人们通常想象的要复杂和困难得多。

“自主”部分,主要介绍了人工智能的“强化学习”,报道了一些最新的研究进展。作者认为,“其中有一些经验可以帮助我们理解进化、人类动机和激励的微妙之处,对商业化、育儿都有启发。”

“示范”部分,作者的注意力集中在人工智能安全研究的前沿问题。比如“如何将复杂的自动系统与过于微妙或复杂、无法明确的规范化价值相结合。”

四、详细解读

人机对齐,即让AI的价值观与人类的价值观保持一致,是当今人工智能领域的重要挑战。

根据这本书的介绍,美国司法系统已经在许多业务中应用了人工智能系统,例如评估犯人能否获得假释。然而,这些系统的应用并没有像人们预期的那样公正和不偏不倚,反而暴露出了严重的问题。在评估犯人假释风险时,人工智能系统有时会对黑人犯人给出比白人犯人更高的风险评分。这种现象并非孤例,而是一个令人警醒的普遍问题。谷歌的图像识别软件曾经将黑人标记为“大猩猩”,引发了严重的种族歧视争议。为了应对这一问题,谷歌删除了“大猩猩”这个标签,结果导致系统无法标记任何“大猩猩”,包括真正的大猩猩。这些问题揭示了人工智能系统在应用中的潜在风险和伦理挑战。虽然这些系统被设计为帮助决策和提高效率,但如果在设计和训练过程中没有充分考虑到价值观的对齐,反而可能加剧社会的不公平和歧视。

这些现象背后的一个重要原因是训练数据中的偏见。人工智能系统通过数据学习,而这些数据往往反映了社会中的既有偏见。如果不加以纠正,这些偏见会在系统中被放大。人工智能系统的决策过程通常是黑箱操作,缺乏透明度。这使得发现和纠正偏见变得更加困难。因此,提升算法透明度和建立问责机制是必要的。在设计和应用人工智能系统时,需要充分考虑人类的价值观和伦理标准。这不仅仅是技术问题,更是社会问题,需要多方参与,共同探讨和解决。

本书为读者敲响了警钟,提醒我们在享受人工智能带来的便利的同时,必须高度重视其潜在的风险和挑战。只有通过不断完善和调整,确保人工智能系统与人类价值观保持一致,才能真正实现技术的进步与社会的和谐发展。

导言部分,作者提出了一个形象的比喻。

随着机器学习系统越来越普遍和强大,我们会发现自己越来越经常地处于“魔法师学徒”的境地:我们召唤出一种力量,给它一组指令,希望它自主但又完全顺从,然后一旦我们意识到指令不准确或不完整,又手忙脚乱地阻止,以免用我们的智慧召唤出某种可怕的东西。如何防止这种灾难性的背离——如何确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事——已成为计算机科学领域最核心、最紧迫的问题之一。这个问题被称为对齐问题。

第1章讨论了模型的训练数据代表谁或什么的问题。

所有的机器学习系统,包括感知机在内,核心都有某种雪莉卡片:也就是训练用的数据集。如果某一类型的数据在训练数据中代表不足或不存在,但在现实世界中存在,那么当训练好的系统面对这一类型的数据,给出的结果就难以预料。

如果不修正训练数据的代表性组成,就不可能开发出大范围使用的消费者人脸识别产品。然而,鉴于这样的模型不仅被消费者软件用来为照片添加标记,被消费类硬件用来解锁智能手机,还被政府用来监控人群,人们可能会质疑,让已被过度审视的少数族群在模型中获得更高的代表性会不会造成负面影响。

每个机器学习系统都是某种议会,在议会中,训练数据代表着更大范围的选民——而且,确保每个人都有投票权至关重要。

作者提出了一个引人深思的问题:如果你的数据集已经尽可能具有包容性——比如说,囊括了几乎所有书面语言,几千亿个词汇——而这个世界本身就有偏见,你该怎么做?

在现实世界中,历史数据可能本身就包含社会中的各种偏见,如种族、性别、年龄等方面的歧视。数据收集的方法和渠道可能会导致某些群体的数据更容易被收集到,而其他群体则被忽视。数据标注过程中,标注者的主观偏见也会影响数据的质量。在读完本书后,笔者认为面对世界本身就存在的偏见,机器学习系统开发者需要通过增加数据多样性、使用偏见修正技术、进行公平性评估以及确保透明性和问责制等方式来尽量减轻这些偏见的影响。与此同时,还需要考虑伦理和社会影响,确保这些改进措施不仅技术上可行,而且在社会层面上也能够被广泛接受和支持。

在第1章的后半部分,讨论了基于向量的词表示极其惊人的类比能力。在看似简单的词向量表示背后,也存在极富争议的对齐问题。到底什么是类比?例如,通过简单的向量加法(有时称为“平行四边形”法,或“3CosAdd”算法)就可以得到一个词作为最佳类比。例如,“医生-男人+女人”得到一个向量,最接近的词应当还是医生。

托尔加·博鲁克巴斯和亚当·卡莱的团队发现,用word2vec表示我们所认为的“类比”不能令人满意,类比似乎要求两件事至少是不同的,所以他们采取了另一种策略。他们想象“医生”一词周围有某种“相似半径”,包括了“护士”“助产士”“妇科医生”“内科医生”和“骨科医生”等词,但不包括“农民”“秘书”或“立法者”。然后,他们在这个半径范围内寻找不是“医生”的最近单词。还有其他棘手的问题。词向量的几何--即它们在数学空间中表示为距离--使得类比是对称的,这并不总是能反映人类对类比的直觉。例如,人们认为椭圆像圆,而不是圆像椭圆。

偏见和言外之意虽然看似虚无缥缈,不可言喻,但的确是真实存在的。它们可以细致精确地测量。它们自发地、可靠地从原本是用于猜测缺失词的模型中显现,可测量,可量化,有动态变化。它们呈现了关于职业的真实数据以及对主观态度和刻板印象的度量。所有这些,以及更多的信息,都存在于本来只是用于猜测上下文中缺失词汇的模型中:语言的故事就是文化的故事。

作者认为,这些模型的力量和灵活性使它们不可避免地会被应用于大量商业和公共领域,然而关于应该如何适当使用它们,标准和规范仍处于萌芽状态。

第2章探讨了风险评估工具在刑事司法系统中日益广泛的应用。

用数字模型取代人类不可靠的判断,让社会变得更一致、更准确、更公平,这种想法并不新鲜。事实上,他们在刑事司法中的应用已有近一个世纪的历史。

这些模型所依据的“基本事实”不是被告后来是否犯罪,而是他们是否被再次逮捕和定罪。如果不同群体的人在被捕后被定罪或再次逮捕的可能性存在系统性差异,那么我们充其量是在学习累犯的扭曲替代物,而不是累犯本身。这是一个经常被忽视的关键点。

同样值得审视的是,为了训练模型,我们假装知道被告如果被释放会做什么。我们怎么可能知道呢?典型的做法是查看他们之前在服刑期满后2年内的犯罪记录,并以此作为如果他们被提前释放后2年内的替代。这隐含地假设了年龄和监禁本身都不会影响一个人重返社会后的行为。事实上,在某些情况下,年龄是最具预测性的变量。此外,认为监禁本身没有影响的假设很可能是错误的,而且对一个至少表面上是为了矫正而设计的系统来说,这是一个相当可悲的观点。如果像一些证据似乎表明的那样,监禁经历实际上会增加囚犯出狱后的犯罪行为,那么服满刑期的人的再犯又会成为模型的训练数据,该模型假设如果他们被提前释放,他们也会同样危险。因此,它会建议更长的刑期,从而产生更多犯罪。预测变成了自证预言:人们被不必要地关押,公共安全还因此更糟。

在本章中,作者认为在机器学习的许多领域中,所谓的“迁移学习”被用得很多。迁移学习是一种在一个任务上训练的模型应用到另一个任务的方法。但在这样做时并不总是经过了深思熟虑或很明智。模型被应用到与训练任务不同的领域,可能导致误导性或不准确的结果。例如,COMPAS工具原本设计用于评估被告的再犯风险,但被用作判刑依据时可能引发不公平的结果。当模型用于预测某些偏见存在的情况时,可能强化这些偏见。例如,在有性别歧视的企业文化中,预测女性很少会被雇用的模型可能会导致更加不公平的招聘决策。

虽然“公平”概念暗示了各种看似直观和可取的形式化定义,然而一个残酷的数学事实是,无论是人类还是机器,没有哪个决策系统能同时满足所有这些定义。一些研究人员认为,与其找出这些不同的形式,然后试图“动”协调它们,不如直接用人类认为“公平”和“不公平”的例子来训练一个系统,并让机器学习自己构建形式化、可操作的定义。这本身也可能是一个微妙的对齐问题。

第3章探讨了一个令人鼓舞的研究前沿,关于简单模型的优势,以及寻找最优简单模型的最新技术。

透明也有可能是把双刃剑,因为研究表明即使透明模型是错误的,不应该被信任,人类也更信任透明模型。

还有一个小小的悖论:很难理解为什么一个特定的简单模型是最优的。要详尽回答这个问题,可能有很强的专业性,而且很长。此外,对于任何特定的简单模型,我们还可以问,可能特征的“表单”是怎么来的,更不用说首先是怎样的人类进程推动了对这种工具的渴求和创造。)这些都是合理的透明度问题,本质上是人类、社会和政治问题,机器学习本身无法解决。

在开发能给出解释的架构时,无论是视觉性的还是语言性的,有几件事需要警惕。研究展示了“对抗性解释”的可能性--也就是说,两个系统的行为几乎相同,但对它们的行为方式和原因有截然不同的解释。能够对人的行为给出有说服力的解释是很有用的,不管解释是否正确。事实上,一些认知科学家例如雨果·梅塞尔和丹·斯珀伯提出,人类推理能力的发展,并不是因为它帮助我们做出更好的决定和对世界持有更准确的信念,而是因为它帮助我们赢得争论并说服他人。

第4、5、6章分别探讨了强化学习、奖励塑造和内在动机。

强化学习研究人员称这为稀疏奖励问题,或者更简洁地称为稀疏问题。如果是根据最终目标或与最终目标相当接近的东西来给奖励,那么人们基本上只能等待,直到随机按按钮或动作产生预期的效果。

机器学习中奖励塑造的理论和实践,不仅为操控自主直升机的方法提供了指导,还为理解人类智能和改善人类生活贡献了两个独特的视角。它解释了为什么有些问题或任务比其他的更难解决或完成,这一现象与稀疏性有关。稀疏性指的是在许多复杂问题中,正确的解决方案或有用的信息往往分布得非常稀疏,很难通过简单的搜索或尝试找到。这一观点帮助我们理解,复杂任务之所以困难,部分原因在于有用信息的分散性和难以获取性。它提出了一种增加奖励的方法,使得解决棘手问题变得更加容易,同时避免引入不适当的激励。这一理论的核心是将奖励与状态(而不是行为)挂钩。通过奖励状态而非行为,系统可以鼓励目标状态的达成,而不拘泥于特定行为路径,这样可以避免那些可能会导致不期望后果的行为。这一思路不仅在机器学习中具有实践价值,对人类激励机制的设计和优化也有借鉴意义。

越来越明显的是,“内在动机”——新奇、惊讶等相关范式——是系统能拥有的一种很棒的驱动力,能作为来自环境的外在奖励的补充,尤其是在外在奖励稀疏或难以获得的情况下。

第7章探讨了模仿学习的整个前提中一个基本的但没什么根据的假设。

如果说人类特别擅长模仿,那就自然而然引出了一个问题:为什么?是什么让模仿成为如此强大的学习工具?与通过试错和明确指导的学习方式相比,通过模仿学习至少有三个明显的优势。

模仿的第一个优势是效率。通过模仿,你可以直接获得他人试错所得的宝贵成果,至少从一开始就知道这件事是可行的。这使得你能够跳过繁琐的试错过程,直接受益于他人的成功,节省大量时间和资源。

模仿的第二个优势是一定程度的安全性。我们往往无法承受成千上万次失败的风险。例如,外科医生或战斗机飞行员必须在不犯重大错误的情况下学习极为精确和复杂的技术。这个过程的关键是观察前人的尝试,无论是实时的还是记录的、是真实的还是假想的、是成功的还是失败的。通过观察和模仿他人的操作,可以在降低风险的同时获取宝贵的学习经验。

模仿的第三个优势是能够让学习者(无论是人还是机器)掌握那些难以用言语描述的技能。例如,驾驶汽车就是一个典型的例子。我们希望尽可能快地从A地到B地,但不要超速,或者更确切地说,不要超速太多,除非出于某种原因必须这样做;并且要保持在车道中央,除非路边有人骑自行车或停了车;不要在右边超车,除非这样做比不这样做更安全,等等。这些复杂的判断和行为难以形式化为某个目标函数进行优化,但通过模仿,他人的驾驶行为可以直接被观察和学习,避免了复杂的解释过程。

第8章,主要讲述了随着AI自主体变得越来越复杂,它们将需要对人类进行建模来理解世界是如何运作的,以及它们该做什么和不该做什么。

如果它们把我们建模为纯粹的、无所顾忌的和准确无误的奖励最大化者,而我们不是,那就太糟糕了。如果有人想尽力帮你,但他们并不真正理解你想要什么——无论是短期目标还是人生目标——那么可能还不如不要他们帮忙。如果这个被误导的助手还如同超人一般聪明和强有力,那只会更糟。

正如斯坦福大学计算机科学家斯特法诺·埃尔蒙说的,让AI对齐人类价值观“是我认为大多数人都会同意的事情,但问题当然在于定义这些价值观到底是什么,因为人们有不同的文化,来自全世界不同的地方,有不同的社会经济背景,所以他们对这些价值观会有非常不同的看法,这才是真正的挑战”。

第9章介绍了不确定性。

深度学习系统有一个众所周知的特性是它们特别“脆弱”。2012年诞生的 AlexNet,通过用数十万张属于某一类别的图片进行训练,它能神奇地总结出普遍模式,从而能正确地识别它从未见过的猫、狗、汽车和人。但是有一个问题。它会对你展示的所有图像进行分类,包括随机生成的彩色噪点图它说,这是猎豹,有99.6%的置信度,那是菠萝蜜,有99.6%的置信度。系统就像是在产生幻觉,而且似乎缺乏确认机制,更不用说提醒用户它在这样做。正如2015年一篇被广泛引用的论文说的:“深度神经网络很容易被愚弄。”

现代计算机视觉系统有臭名昭著的脆弱性,原因之一是,它们通常是在这样一个世界接受训练,在这个世界中,它们见过的一切都属于某些类别中的一个,而实际上,系统可能遇到的几乎所有可能的像素组合都不像这些类别中的任何一个。实际上,系统一般都受到约束,无论输入多么陌生,输出都必须是有限类别上的概率分布形式。难怪它们的输出毫无意义展示一张奶酪汉堡的图片,或者迷幻的分形,或者几何网格,然后问:“你有多确信这是猫不是狗?”能给出什么有意义的回答?处理开放类别问题就是为了解决这个问题。

然而,除了缺乏“以上都不是”的选项之外,另一个问题是,这些模型不仅必须猜测现有的标签,而且它们对结果很有信心。这两个问题在很大程度上是相辅相成的:该模型的确可以说,“嗯,它看起来更像狗,而不是猫”,从而输出非常高的“信心”值,掩盖了这张图片的真正所是以及它之前见过的那些东西有多远。

在AI安全领域,最令人不寒而栗、最有先见之明的评论之一来自诺伯特·维纳在1960年发表的一篇著名论文,题为《自动化的道德和技术后果》:“如果我们使用机械自主体来实现我们的目的,一旦启动,我们就不能有效地干预它的运行……那我们最好确定,机器的目的是我们真正渴望的目的,而不仅仅是看着很炫的模仿。”这是对齐问题的第一个精炼表达。

这句话还有同样重要的另一面:如果我们不确定我们给机器的目标和约束完整且正确地说明了我们想让和不想让机器做什么,那么我们最好保证我们可以干预。在AI安全文献中,这个概念被称为“可纠正性”,并且需要警醒的是,它比看起来要复杂得多。

五、结语

在本书最后,作者用故事来回答机器如何学习以及人类如何教机器的问题:

图灵说:“的确,当孩子接受教育时,他的父母和老师会不断干预,阻止他这样做或鼓励他那样做。但是当人试图教机器时,情况就不一样了。我做了些实验,教机器做一些简单的操作,在得到任何结果之前,需要大量这样的干预。换句话说,机器学得太慢了,需要大量的教学。”

杰弗逊打断了他。“是谁在学习呢,”他说,“你?还是机器?”

“嗯,”图灵回答,“我想我们都在学。”

各种事实提醒着我们:地图不等于疆域。

在机器学习中,最危险的事情之一就是找到一个相当好的模型,宣布胜利,然后开始混淆地图和疆域。

作者在书中说:“若我们采用一种无法有效操控其运行机制以达成目标的机械装置,那么最好万分确定输入到该机器中的目标确实是我们的真正意图。”

如今,这已成为AI领域的一个核心关注点,被称为“对齐问题”:让系统不仅仅模仿人类的指令,而是真正达成人类的目的。听起来很简单,但我们该如何实现这一点?这个问题值得我们深思。

本文转自 | 深度club

再建巴别塔
青灯夜读,湖畔沉思。精读人文社科经典文献,探讨新闻传播学术问题。
 最新文章