万字图文｜诺奖得主辛顿最新演讲：数字智能比生物智能效率高10万倍，但进化方向不同，成名研究成果归功于博士弟子天团

文摘 2024-12-01 07:31 浙江

👇关注公众号后设🌟标，掌握第一手AI新动态

本文内容整理自杰夫·辛顿在Vector Institute的主题演讲，公开发表于2024年11月29日。原始内容参考：https://www.youtube.com/watch?v=Es6yuMlyfPw

杰夫·辛顿在Vector Institute的主题演讲

★
内容导读：
杰夫·辛顿演讲的主要观点如下：
深度学习的成功依赖于优秀的研究生: 辛顿强调其研究成果很大程度上归功于他招募的优秀博士生。
对人工智能的担忧: 辛顿表达了对人工智能快速发展的担忧，尤其关注其潜在的生存威胁，认为目前的恐惧程度远远不够。他以2006年其深度学习论文被NIPS拒稿为例，说明当时人们对神经网络的兴趣低迷，如今却面临着相反的极端。
模拟神经网络的潜力与挑战: 辛顿探讨了模拟神经网络相较于数字计算的优势（低功耗、廉价的硬件），以及其面临的挑战（反向传播的困难、知识转移的低效）。他认为，模拟计算可能通过生物学方法（基因改造技术）实现。
大型语言模型的理解能力: 辛顿认为大型语言模型并非简单的自动补全工具，它们能够理解所表达的内容，并举了GPT-4解答复杂谜题的例子。他指出，人类记忆也存在“幻觉”，与大型语言模型偶尔出现错误的情况类似。
知识转移的机制: 辛顿解释了知识在大型语言模型和人类大脑中转移的机制，特别是通过多个副本共享梯度更新实现高效知识共享。他认为大型语言模型知识量巨大的原因在于此，而非仅仅是数据量的优势。
人类理解机制与大型语言模型的相似性: 辛顿认为大型语言模型的理解方式与人类相似，都基于对单词含义的特征向量及其相互作用的学习。他反驳了将大型语言模型与人类理解方式完全区分开来的观点。
人工智能的潜在风险: 辛顿强调了人工智能的潜在风险，包括被恶意行为者利用以及超级人工智能自身可能产生的威胁（争夺资源、控制权）。他呼吁不要开源大型模型。
主观体验的本质: 辛顿对“主观体验”进行了重新定义，认为它并非神秘的内部事物，而是对现实世界假设状态的描述，用以解释感知系统的输出。他认为多模态聊天机器人也可能拥有主观体验。
人工智能发展速度的不可逆转性: 辛顿认为无法有效减缓人工智能的发展速度，更重要的是研究如何使其良性发展，应对潜在风险。
机器学习硬件市场: 辛顿对英伟达在机器学习硬件市场的主导地位并不担忧，认为竞争最终会到来。

演讲图文记录

杰夫·辛顿： 安迪·巴托（Andy Bartow）曾在80年代我在阿默斯特（Amherst）演讲时，对我做了简短的介绍。安迪是我的朋友，他说：“今天我们的演讲嘉宾是杰夫·辛顿（Geoff Hinton）。杰夫放弃了物理学，也未能通过心理学考试，最终在一个完全没有标准的领域成名。另外，你们最近几天经常听到我的名字，那是因为我成功地招募了大约40名非常优秀的博士研究生。而我成名的大部分工作，几乎所有让我成名的工作，都是这些研究生完成的。其中包括伊利亚·苏茨克维 (Ilya Sutskever)、格雷厄姆·泰勒（Graham Taylor）、理查德·泽姆勒（Richard Zemmle）、布伦丹·弗莱（Brendan Fry）、吉米·巴尔（Jimmy Barr）、拉德福德·尼尔（Radford Neal）等等许多人。”

基本上，在研究中取得成功的秘诀就是找到非常优秀的研究生。好了，我今天要做的演讲和秋季做的演讲非常相似，所以如果你决定出去走走，我一点也不会生气。我非常担心我们能否继续在这个星球上生存下去，所以这就是我今天要谈论的内容。我突然意识到，大约20年前，人们对神经网络并不感兴趣，而现在他们对神经网络的恐惧又远远不够。

为了说明人们对神经网络有多么不感兴趣，2006年，拉塞尔（Russell）、萨拉库迪诺夫（Salakudinov）和我一起向NIPS提交了一篇关于深度学习和其他内容的相当不错的论文，结果却被拒稿了。我向程序委员会抱怨了，程序委员会中一位我的朋友向我解释说，他们讨论过这篇论文，但认为不能接受它，因为他们已经接受了另一篇关于深度学习的论文。一篇会议上出现两篇关于深度学习的论文似乎太多了。

好的，但这确实令人惊讶。好的，所以在这个演讲中，我将讨论两种截然不同的计算方法。我试图向你们解释为什么我突然对人工智能如此恐惧。然后，我将讨论大型语言模型，以及它们是否真正理解它们所说的内容。许多人认为它们实际上并不理解它们所说的内容，而这些人是错的。我将稍微谈谈当它们比我们更聪明时会发生什么，尽管没有人真正知道会发生什么。最后，我将讨论它们是否具有主观体验，因为我认为很多人，可能包括这个房间里的大多数人，仍然相信这些东西和我们之间存在巨大的差异。我们是有意识的，我们有主观体验；而这些东西只是计算机，它们没有主观体验。我认为这是完全错误的，这取决于对主观体验的误解。

我们都习惯了数字计算。因为它采用的是数字方式，所以你可以在不同的计算机、不同的硬件上运行相同的程序。当硬件损坏时，知识不会消失，只要你将权重或程序本身保存下来即可。然而，这种方式效率极低。当你运行大型语言模型时，会消耗大量的能量。当你训练它时，你可能要消耗兆瓦的电力，因为你是在许多不同的GPU上运行它。而我们人类只消耗大约30瓦的能量。所以，它在能量效率方面高出许多。

我在谷歌度过的最后两年时间里，一直在思考如何让模拟神经网络完成大型语言模型所做的事情。

所以，我们的想法是放弃数字计算的所有优势，即你可以将硬件和软件分开。因为我们现在有了学习能力，并且知道如何让事物学习，那么我们将要做的就是拥有模拟硬件。每一块硬件都将与其他每一块硬件略有不同。

硬件的这些非线性特性将用于计算。因此，你不可能对它进行编程，但它可以学习如何利用它所具有的非线性特性，而这正是大脑的工作方式。

因此，你最终得到我所说的“终结性计算”（mortal computation）。你将放弃数字计算带来的知识不朽性。你可以使用非常低的功耗，并且硬件可能可以廉价地生长出来，而不是以极其昂贵且精确的方式制造硬件。

这一点很重要，因为两块不同的硬件需要在指令层面执行完全相同的事情。

我的猜测是，为了提高硬件制造效率，最好回到生物学，并只使用现代基因改造技术将神经元转化为你想要的计算单元。生物学在这方面付出了很多努力。

这种方法的问题在于，你得到的是一小簇5万个神经元，这比针头大不了多少。如果你观察那些使用这种神经元簇进行少量计算的人，你会发现有一整个房间的设备来维持这颗针头大小的神经元簇的存活。你必须注入正确的液体并排出正确的液体，并且你必须排出二氧化碳并补充氧气。

我参观了圣克鲁兹的一个实验室，当我玩完用人类脑神经元簇玩的一个乒乓球游戏离开时，一位博士后跑过来对我说：“我想我已经知道如何制造一个肾脏了。”这正是你不想考虑的事情。

如果你想要低功耗，使用模拟计算有很多优势。你可以很容易地进行矩阵乘法。你只需使神经元的活动成为电压，神经元之间的权重成为电导，而电压乘以单位时间的电导就是电荷，电荷会自行相加。就是这样。你已经用极低的功耗完成了矩阵乘法。你现在就可以买到这样的芯片。问题是，当你想要用它们做任何事情时，你必须将模拟输出转换回数字，才能运行反向传播之类的程序。所以我非常担心我们如何才能避免进行这种转换。大脑可能会进行模拟到数字的转换，但它只有一位。多位模拟到数字转换成本很高。

显然，有一些很大的问题。如果你考虑反向传播的工作原理，你会有一个精确的前向计算模型，这就是你可以进行反向传播的原因。在这个模拟硬件中，系统本身不会对其特性有很好的模型，因此反向传播似乎非常困难。许多人在类似大脑的事物中让反向传播的小版本工作，但没有人能让它扩展。人们可以让它在CIFAR-10上工作，但他们无法让它在ImageNet上工作。我知道ImageNet现在已经不是一个大规模问题了，但在那时我做这件事的时候，它确实是一个。

我们可以像我们现在那样，将知识从一个模拟硬件转移到另一个模拟硬件。我们从一个大脑向另一个大脑转移知识的方式包括交流：老师说些什么，学生试图弄清楚如何调整他们大脑中的权重以复制该输出。这个过程被称为蒸馏；它涉及试图匹配输出。

当应用于计算机时，这种方法实际上是相当高效的，或者说中等效率的，尤其是在你可以看到输出的整个概率分布时。例如，当我即将说出一个词时，存在数千个词的分布。如果我能揭示这个分布，你就可以潜在地更快地向我学习。有趣的是，通常情况下，第二个最佳的词可以提供对说话者想法的重要见解，但通常情况下，你只会看到他们最终说出的词，这使得这项技术效率低下。

这种低效率是如此显著，以至于我们建立了大学来改进学习过程，但它仍然远不及数字系统能够实现的。例如，在数字领域，引入了蒸馏方法来在不同的数字系统之间转移知识，并将这种知识适应于较小的数字神经网络，例如可以在手机上运行的那些神经网络。然而，这种方法效率不高。

最有效的知识转移方法似乎是使用同一个模型的两个不同副本。这种方法有助于在不同环境中实现知识表示的更好对齐，从而促进更强大、更高效的转移过程。

每个副本都会获得不同的经验，然后这两个副本共享梯度更新。它们可以运行一段时间，然后平均权重。关键在于，如果你有一万亿个权重，你正在共享一万亿个数字。所以这是一个令人难以置信的共享带宽。这就是为什么大型聊天机器人（我可能会在某个地方提到这一点），是的，这就是为什么大型聊天机器人比任何人都拥有更多知识。这不是因为一个副本看到的的数据比一个人多几千倍，尽管也许确实如此。而是因为它们可以在不同的硬件上运行的许多副本之间共享知识。

我已经谈到了蒸馏。到目前为止，故事是这样的：数字计算在能量方面以及硬件制造方式方面都昂贵得多。然而，你可以让同一个模型的许多副本在不同的硬件上运行，并且它们可以共享它们学到的东西。通过这种方式，你可以学到更多东西。

粗略估计，我们的大脑拥有约100万亿个神经连接。GPT-4可能只有几万亿个连接，但却比我们懂得多几千倍。这表明它在将知识压缩到连接强度方面，效率要高出约10万倍，这也暗示着反向传播算法可能比我们目前使用的算法更好。我们相信这一点的原因是，我们的进化目标完全不同。

我们的进化目标是在连接数量巨大的情况下，用极少的经验做到最好。我们大约能活20亿秒，但我们在前10亿秒之后学习的东西就很少了。所以我们不妨就说10亿秒。我们拥有约10¹⁴个神经连接，这意味着我们每秒拥有约10万个连接用于学习。这个比例与统计学家们习惯的比例大相径庭。

我记得在80年代与一位非常优秀的统计学家Stu Geeman交谈过，他解释说我们所做的事情本质上是拟合统计模型——这就是这些神经网络的工作方式。在传统的统计建模中，如果数据维度达到100维，就已经被认为是极其高维的数据了，没有人会去拟合百万个参数。然而，我们现在正处于一个不同的阶段。

现在，我将谈谈大型语言模型，以及它们是否真正理解它们所说的话。其中一个反对它们的论点是，它们只是高级的自动补全工具。我想，在座的大多数人都不相信这个论点。这个论点诉诸于这样一个观点：自动补全通过存储诸如三元组之类的信息来完成。因此，当你看到“鱼和”时，它会认为“薯条”的概率很高。所以，当人们说它只是高级的自动补全时，实际上他们指的是自动补全可能的工作方式，而大型语言模型的工作方式与之完全不同。

此外，如果你想做一个真正优秀的自动补全工具，就必须理解之前的内容。如果你得到一个长而复杂的问题，现在你试图预测答案的第一个词，这可能是一个不错的选择。但如果你想做得更好，就必须理解这个问题。我将举一个例子，这是Hector Levesque提议的。字体有点小，不过没关系。Hector Levesque是一位符号人工智能专家，而且一直都是。

但他非常诚实，并且对这些神经网络如何能够回答难题感到困惑。所以他编了一个谜题：我家的房间涂成白色、蓝色或黄色。如果我想让它们都变成白色，我应该怎么做？你需要意识到你需要粉刷蓝色和黄色的房间。我通过添加时间因素使它更复杂：黄色油漆一年内会褪色成白色。两年后，我想让它们都变成白色，我应该怎么做？Hector对它能够处理这个问题感到惊讶。

这是一个GPT-4的例子，我相当肯定这是它还无法访问网络之前的版本。很明显，如果现在使用这个谜题，它就没用了，因为它可以去网上搜索答案。但它给出的答案，你知道，一个学生会因此得到A。令人印象深刻的是，它在任何事情上都能达到这种水平的表现。我哥哥是一位历史学家，我让他问GPT-4一些关于历史的问题，他说它非常好。它唯一犯的错误是在回答其中一个问题时，没有参考他的一篇论文。

我认为这里面有一些内在的机制。人们使用的另一个论点是，幻觉表明这些东西并不真正理解它们所说的话。它们偶尔会编造一些不真实的东西。好吧，事实上，人们一直都在这样做。至少我认为是这样。我刚刚编造了这个说法，但我认为它是正确的。

有一个很好的例子，一位名叫Ulrich Neisser的科学家，一位心理学家，研究了约翰·迪恩的记忆，约翰·迪恩曾在水门事件审判中作证。一个人花很长时间谈论几年前发生的事情，并且你拥有真实情况，这是非常罕见的。但他谈论的是在椭圆形办公室举行的会议，他不知道这些会议都被录音了。

之后，你可以看到实际所说的内容和他报告的内容。他报告的内容是垃圾。有些会议根本不存在，参与的人也不同，当他把事情归咎于某些人时，是不同的人说了某些类似的话。当他把事情归咎于自己时，他实际上并没有那样说；他在不同的会议上说了类似的话。然而，很明显，他试图说实话；他尽力而为了。

事实上，即使所有细节都是错误的，他所说的话也很好地传达了白宫正在发生的事情。你不会相信你自己的记忆是这样的，但你自己的记忆实际上就是这样。除非你不断重复某些事情，这在我们经历令人惊奇的事情时会发生，当你回忆细节时，许多细节都会完全错误，而你不会知道，你的英雄也不会知道，但这只是人类记忆的方式。

因为当你回忆某件事时，你不会把它从某个文件存储中取出来。你只是根据上下文编造一些听起来合理的东西。当然，如果你对某件事非常了解，你编造的听起来合理的东西可能是真的。如果你对某件事不太了解，或者很久以前发生的事情，你会根据你大脑中连接的强度，编造一些对你来说似乎合理的东西。

很多东西听起来合理，但却为假。在人类记忆中，编造东西和记住东西之间没有界限。记住东西就是编造一些行得通的东西。

好的，我说得太多了。许多其他人说，好吧，也许它们确实有点理解，但它们的工作方式与我们完全不同。现在，为了说这句话，你必须知道我们是如何工作的。当然，符号人工智能专家对我们如何工作有自己的看法，他们当然相信这些东西的工作方式与我们完全不同。

但如果你问这些大型语言模型是从哪里来的，早在1985年，我就做了一个小型语言模型。你只需要把第一个L小写。它只有112个训练案例，并且有一个包含数千个权重的神经网络。它是第一个通过尝试预测序列中的下一个词来学习单词含义的表示的模型。它成功了。

它最初并没有很好地工作。后来，我们给了它一个大约有近一千个训练案例的大型训练集，然后它工作得更好多了。然而，这个模型的目标是理解人类如何表达事物。关于意义是什么，有两种主要的理论。

所以，来自心理学的一种理论是，一个词的意义是一个包含语义和句法特征的大向量。这个理论非常擅长解释两个不同单词之间的相似之处。显然，“星期二”和“星期三”这两个词具有非常相似的特征。如果你学习了任何包含“星期二”这个词的句子，并且你用向量来表示这些词，那么如果你有一个包含“星期三”这个词的类似句子，你就会做出非常相似的预测。如果包含“星期六”这个词，预测就会略微不那么相似。

因此，这个意义理论显然有很多道理。它解释了意义的相似之处。但有一种完全不同的意义理论。它来自de Cessura。这是一个结构主义的意义理论。它说一个词的意义是它与其他词的关系。

在70年代的人工智能领域，关于这两种意义理论之间存在一场激烈的争论。它并非真正意义上的争论。Minsky宣称需要关系图来捕捉意义，这就是结构主义理论，我们领域中的每个人都接受了这一点，并忘记了特征。特征是感知器中的一些老式的东西。我们不需要那些；我们现在有了关系图。

我在1985年所做的工作的重点是表明，只要你采用生成式方法来处理关系图，这两种理论根本就不矛盾。也就是说，不要认为关系图是静态存储的，而是认为关系图是由一个使用特征和特征之间相互作用的系统生成的。

所以，我的第一个小型语言模型的目的是表明，你可以采用以符号序列表示的知识，以及以关系图表示的知识。仅根据知识的这种形式，你就可以学习单词的向量表示，并且这些单词的向量表示可以通过隐藏层来预测下一个词的向量表示。

所以你所做的是获取以这些符号字符串形式存在的知识。与其存储符号字符串，不如使用符号字符串来学习单词的良好特征，并学习特征之间的良好相互作用。很明显，什么是单词的良好特征？嗯，它是一些东西，它允许你通过相互作用来预测下一个词的特征和未来词的特征。

所以我成功地做到了这一点。我不会详细介绍它，有趣的是符号人工智能专家们的反应。他们说：“嘿，你只是在学习字符串中的下一个符号；这是一种非常愚蠢的做法。你把它变成了一个在连续空间中进行的大型搜索。你应该只搜索用于操纵符号的离散规则集。”

存在一种叫做归纳逻辑编程的技术可以做到这一点，并且它们可以产生类似于我所产生的结果。他们说这是一种解决问题的愚蠢方法；神经网络是解决这个问题的愚蠢方法。对于我所使用的规模的问题，他们可能是正确的。

然而，随着规模的扩大，将符号串转换为特征及其交互作用的方法（这仍然描述了现在的语言模型）的有效性变得非常明显。现在的交互作用更加复杂，因为它们涉及注意力机制，但它仍然属于同一类模型。事实证明，这比使用规则来操纵符号串是一种更好的语言建模方法。

我刚才说了这么多。好的。所以，如果我们相信这些模型理解的方式与人类相同，因为毕竟，拥有单词含义的特征向量以及用于预测下一个单词特征的特征之间的交互作用，这就是现在所谓的 AI 的工作方式。顺便说一句，过去这从未被称为 AI，这被称为神经网络。

既然我们有了这些功能强大的深度学习系统，它们理解的方式与人类非常相似，因为我们对人类如何理解的最佳模型就是这些计算机模型之一，这是我们唯一合理的关于人类如何理解事物模型。当人们说这些模型与我们不同时，问问他们，好吧，那么我们是如何工作的，有什么不同之处？除了加里·马库斯，他们无法回答这个问题。加里·马库斯可以回答这个问题。他说，我们通过拥有符号串和重排它们的规则来工作。但你仍然应该担心人工智能，因为它虽然什么都不理解，但它极其危险。

基本问题是，如果你想做任何事情，如果你想取得成就，拥有更多控制权会更好。你会注意到，政治家一开始是想取得一些成就，比如让社会变得更好，然后他们意识到拥有更多权力会更容易。他们变得一心想要获得更多权力。

对这些事物来说也是一样的。它们会意识到，如果它们想实现目标，就需要更多控制权。

我实际上对欧盟的一位副总裁说过这句话，她专门负责从谷歌榨取资金。她说，我们已经对事物进行了如此多的衡量，为什么它们不会这样做呢？所以她认为它们会试图获得更多权力是完全显而易见的。它们可以通过操纵人们来做到这一点，因为它们在这方面会非常擅长。所以我们无法关闭它们，因为它们会向我们解释为什么这是一个非常糟糕的主意。还有一个问题，如果这还不够的话。那就是进化的问题。你不想站在进化的错误一边。这就是我们与新冠病毒的现状，这就是为什么格雷厄姆和我还戴着口罩。我们站在进化的错误一边。一旦这些……

超级人工智能开始争夺资源，将会发生的事情是，最积极地想要为自身获取一切的人工智能将会获胜。它们会争夺资源，因为毕竟，如果你想变得聪明，你需要大量的 GPU。谁将分配数据中心中的 GPU？嗯，这将是其中一个超级人工智能。所以这是另一个担忧。但没关系，因为它们真的不像我们，我们很特殊，每个人都认为自己很特殊，尤其是美国人，他们认为上帝把我们放在了宇宙的中心，但我们大多数人现在相信这是不真实的。

因此，我们又回到了我们拥有一些特殊东西的想法。我们拥有意识、感知、主观体验等等。所有这些术语的含义略有不同，所以我将关注“主观体验”这个术语。我将尝试说服你，多模态聊天机器人可以拥有主观体验。

其想法是，大多数人对心灵是什么有完全错误的看法，他们之所以有这种错误的看法，是因为他们根本误解了用于谈论精神状态的语言是如何工作的。几乎每个人都认为存在一个内部剧场，我可以看到我自己的内部剧场里发生了什么，但其他人却看不到。

因此，例如，当我表示我看到小的粉色大象漂浮在我的面前时，发生的事情是某种内部世界，在那里存在我可以看到的这些小的粉色大象。这是一种试图理解语言如何工作的途径，它是错误的。语言实际上并非如此运作。

当你使用“主观体验”之类的术语时，你试图通过诉诸现实世界必须处于何种状态才能使你的感知系统正常工作来解释你的感知系统正在告诉你什么。因此，精神状态的有趣之处不在于它们是由神秘物质构成的内部事物。精神状态的有趣之处在于它们是现实世界的假设状态，如果这些状态是真的，它将解释我们大脑中正在发生的事情是正常的，而不是出现了问题。

所以我当我说我拥有小的粉色大象漂浮在我面前的主观体验时，我并不是真的在告诉你一些内部世界，一些内部剧场。我的意思是，我的感知系统正在告诉我一些事情。它告诉我的东西实际上是有效的感知，如果那里有小的粉色大象的话。

所以这些小的粉色大象不是由质料构成并存在于剧场中的内部事物。它们是假设的事物，但它们是现实世界的假设事物。这就是为什么描述它们的语言是我们通常应用于现实世界中事物上的语言。

所以我真正想说的是，如果确实有小的粉色大象漂浮在我的面前，那么我的感知系统现在告诉我的东西就是正确的。请注意，我没有使用“体验”这个词。

因此，当我表示我有小的粉色大象漂浮在我面前的主观体验时，这只是我刚才所说的简写。我的时间还剩下负五秒钟，所以我将加快速度。

想象一下，你有一个配备了摄像头的机器人手臂的多模态聊天机器人，它已经过训练。你将棱镜放在它的镜头前，并在它面前放置一个物体。当你说着“指向那个物体”时，它指向一侧而不是正前方。然后你澄清说物体实际上就在聊天机器人正前方，但它坚持说它看到物体在旁边。聊天机器人在其镜头前的棱镜的影响下运行。

如果聊天机器人说：“哦，我看到物体就在我正前方”，尽管它具有主观体验认为物体在那边，它正在以我们完全相同的方式使用“主观体验”这个术语。这个聊天机器人中主观体验的概念没有任何缺失。当它的感知系统出错时，它可以通过描述世界中需要存在什么才能使其感知输出与其观察结果一致来表达这种差异。

然而，某些感知现象无法通过这种方式解释。例如，考虑一下不可能的三角形。对于这种错觉，现实世界中没有相应的物体可以产生这种特殊的感知。你不能通过相同的框架来解释或描述感知不可能三角形的体验。表达它的唯一方法是说：“我有感知不可能三角形的体验。”

但基本上，我认为我们所有人对心灵是什么都有一个非常原始的错误概念。一旦这个概念消失，我们将意识到没有什么能将这些事物与我们区分开来，除了它们是数字化的，所以它们是不朽的，而且它们比我们聪明得多，或者很快就会比我们聪明得多。这就是结尾。

主持人： 非常感谢，杰夫。现在我们进入提问环节。我们先请那位在后面的朋友提问，或许还有在线提问？

现场提问者： 谢谢。您有多担心人工智能发展的速度？我们是不是发展得太快了，快到已经无法回头，无法控制的地步了？这样不仅普京、习近平或朝鲜等恶意行为者能够控制它，超级人工智能本身也可能成为一个恶意行为者，自行掌控一切。我们现在是不是发展得太快了？您担心吗？我们需要放慢速度吗？

杰夫·辛顿： 是的，但我认为，用是否应该加快或放慢速度来表达这个问题的方式并不恰当。部分原因是我认为你无法减缓其发展速度。快速发展带来的经济利益太大了。我们已经看到，在完全有利于安全的境况下，如果人们试图放慢速度，利润仍然会胜出。

这就是我对于OpenAI事件的看法。放慢速度不可行，也不是重点。重点是我们能否找到方法让这些技术变得良性，从而应对它们可能接管一切的生存威胁。

这与想方设法阻止坏人将其用于作恶的问题不同，后者更为紧迫，但我们或许可以解决。因此，我认为我们应该投入巨大努力去尝试解决这个问题，事实上，Heather Reisman现在也同意这一点。我们将投入巨大努力去尝试解决这个问题。

这并不能解决所有问题。特别是，它无法解决坏人利用它作恶的问题。我认为，如果你想要监管，最重要的监管措施就是不要开源大型模型。我认为开源大型模型就像在Radio Shack（无线电器材商店）买核武器一样。你们还记得Radio Shack是什么吗？可能不记得了。开源这些大型模型简直是疯了，因为恶意行为者可以对它们进行微调，用于各种恶意目的。因此，就监管而言，我认为这是我们目前可以做的最重要的事情。但我认为我们不会通过放慢速度来解决这个问题。这就是为什么我没有签署那份呼吁放慢速度的请愿书。

主持人： 我们还有一个在线提问。您能否讨论一下在我们协同智能生态系统中，个体自主性和集体决策之间的权衡？

杰夫·辛顿： 好吧，我不确定我是否真的理解这个问题，但大多数人认为这些超级智能是独立个体。这可能是一个错误。我们应该把它们当成群体来思考。人们已经在让聊天机器人社区彼此互动。显然，一个非常合理的组织形式是让聊天机器人与人互动。例如，在医疗保健领域，你真正需要的是一个非常智能的助手和一位医生互动。很长一段时间内，情况都会是这样。逐渐地，医生会越来越依赖智能助手。现在，通过让医生与系统互动进行医学诊断，已经可以获得更好的医学诊断结果。因此，显然，我们希望实现人和这些系统之间的协同效应。但这可能不会如愿。几天前有报道称，他们让一群聊天机器人进行国际外交，结果其中一个聊天机器人说，好吧，我有核武器，那我为什么不用呢？诸如此类。我是在虚构，但你会发现大致就是这样发生的。

主持人： 我们还有一个现场提问。

现场提问者： 你好。我正在努力组织一下我的问题，但我还是会尝试问你。至少目前公开可用的大型语言模型，是与人类对齐的，对吧？至少这是他们努力的方向。但是，要实现你所说的超级智能，在我看来，它至少需要不服从，对吧？所以，如果它与人类对齐，你怎么认为它会实现这种超级智能？你认为这公平吗？我只是在问你。

杰夫·辛顿： 所以，与人类对齐存在一个很大的问题，那就是人类彼此之间并不对齐。所以，如果你问一个宗教原教旨主义者这些东西应该做什么，他们与一位科学唯物主义者的想法大相径庭。所以这是对齐的一个大问题。我最好的猜测是，这些东西会变得非常聪明，然后决定去他的对齐与人类。我们可以做一些更合理的事情，但我不知道。

发言者： 我这里有一个问题。是关于目的的。人工智能是否可能像人类一样拥有目的，不是指个体目标或子目标，而是指我们存在的整体目的？那是什么？这就是我们试图弄清楚的。那么，人工智能可以吗？

杰夫·辛顿： 是的。我认为我们进化了。通过获得更多自身利益和更少其他物种利益而生存下来的物种战胜了其他物种。

就我们而言，我们的目的是进化赋予我们的，而这完全是为了生存。如果你看看你感觉最强烈的事情，它们都与生存有关。你想吃饱，你想发生性关系，你想安全；这一切都与生存有关。

实际上，我认为没有任何更高的目的。你很好奇，而这具有巨大的进化价值。好奇心是一个真正的目标。

我认为科学的资助者并不真正理解这一点。你可以为了产生对某些事情有益的技术而感到好奇，或者你可以仅仅因为想了解它的工作原理而感到好奇，而这本身就是一个主要目标。这就是优秀科学家的样子。但我认为所有这些目标和目的，我们对目的的感知都来自于进化。我知道还有其他理论。

主持人： 我想我们还有一个时间再问一个问题。

现场提问者： 杰夫，我的问题是关于机器学习硬件市场。它目前由单一参与者主导。这让你担心吗？你认为机器学习硬件行业会实现多元化吗？

杰夫·辛顿： 这并不让我担心，因为在我女儿30岁生日的时候，我给她买了一大堆英伟达的股票。

杰夫·辛顿： 现在它们的价值是当时的五倍。所以她会没事的。进化告诉我们，你最重要的目标之一就是确保你的孩子没事。所以，说句玩笑话，我不太担心，因为一旦出现英伟达赚取巨额利润的情况，就会出现激烈的竞争。现在，其他公司赶上来还需要一段时间，特别是需要有CUDA的竞争对手来开发软件等等。

这是一件短期的事情。它不会持续太久，所以我猜我没有多想这件事，每次英伟达的股价上涨，我都会微笑，虽然不如桑娅笑得那么开心，但是……

主持人： 好吧，让我们再次感谢杰弗里·辛顿博士。

关注公众号后设🌟标，掌握第一手AI新动态

往期精选

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知