来源:图灵人工智能
2024年12月8日,诺贝尔物理学奖首次授予了人工智能领域的科学家,John Hopfield和Geoffrey Hinton因其在神经网络领域的开创性贡献获此殊荣。在瑞典斯德哥尔摩的颁奖典礼上,被称为"人工智能之父"的Hinton讲述了一个引人深思的话题:人工智能如何逐渐学会理解人类。
"为什么打开短视频,推荐的内容总是那么对你胃口?为什么购物平台总能准确预测你的购物偏好?"这些日常生活中的现象,揭示了人工智能已经开始像人类大脑一样思考和理解。正如诺贝尔评审委员会所说:"神经网络理论让机器开始像人类一样思考,这将彻底改变人类社会的未来。在演讲中,Hinton教授用通俗语言解释人工智能如何"思考"的过程。如果说:"当我们看到一支插在水中的铅笔,它看起来是弯的,但我们的大脑知道它是直的。这种理解能力,正是我们希望赋予人工智能的。" 他同时表示:"AI可能是继人类掌握火种后最重要的发明,它能帮助我们解决从疾病治疗到气候变化等重大挑战。
考虑很多读者可能对专业术语感到陌生,让我们用一个生活中常见的例子来理解Hinton的理论:想象你在寻找回家的路线,可能有多条路可以选择。有些路看起来很近但可能会遇到堵车,有些路绕远一点但最终能更快到家。神经网络的工作方式也很像这个过程,它会不断尝试找到最好的"解释",就像我们在找最佳路线一样。让我们通过下面的图示来直观理解:
演讲文稿
注:本次演讲中专业术语比较多
今天,我将做一件非常冒险的事情,我将尝试向普通观众解释一个复杂的技术概念,而且不会使用任何公式。首先,我需要介绍 Hopfield 网络,我将以一种二元神经元的版本来解释,它们的状态是 1 或 0。
这些网络会趋向于能量的最低点(energy minima)。Hopfield 网络的核心是,每个神经元可以局部计算自己需要采取的动作来降低能量,也就是降低“坏度”(badness)。如果来自其他激活神经元的总加权输入是正的,该神经元应该打开(激活);如果是负的,则应该关闭(不激活)。如果每个神经元按照这个规则行动,并且我们随机选择神经元持续应用这一规则,那么网络最终会稳定在一个能量最低点。
图中配置实际上是一个能量最低点,它的能量是 -4。如果查看其中的任何一个神经元,已经激活的神经元会继续保持激活,因为它们接收到的是总的正输入;未激活的神经元会保持未激活状态,因为它们接收到的是总的负输入。然而,这并不是唯一的能量最低点。一个 Hopfield 网络可以有多个能量最低点,网络的最终状态取决于初始配置以及随机选择神经元更新的顺序。
现在我们看到另一个更好的能量最低点:三角形单元被激活了,这个配置的良度是
3+3−1=5,所以能量是 -5,这是一个更好的最低点。
Hopfield 提议,这类网络的一种好用法是让能量最低点对应于记忆。通过使用上述的二元决策规则(神经元是否打开或关闭),可以对不完整的记忆进行“清理”。你可以从一个部分记忆开始,不断应用该决策规则,最终稳定在一个能量最低点。这种将能量最低点表示为记忆的方法,就实现了一种“内容可寻址的记忆”(content-addressable memory),即通过启动某些记忆内容,网络能够自动补全。
Terry Sejnowski 和我(Terry 是 Hopfield 的一位学生)提出了这些网络的另一种用途:与其用来存储记忆,不如用来对感官输入构建解释。其核心思想是,一个网络可以同时包含可见神经元和隐藏神经元。可见神经元用来接收感官输入,比如一个二元图像;隐藏神经元则用来构建对感官输入的解释。网络某种配置的能量表示解释的“坏度”,我们希望获得能量较低的解释。当我们遇到模糊线条的图画时,大脑通常会产生两种不同的理解方式。这种现象很常见——同一幅二维线条图可以被解读为两种不同的三维物体。这个现象引发了一个有趣的问题:我们能否构建一个神经网络来模拟这种双重解释的能力?
要解决这个问题,首先需要思考图像中的线条如何对应三维世界中的边缘。在现实中,当我们通过某个平面(比如窗户)观察外界时,二维平面上的一条线可能对应三维空间中的多种不同边缘。这些不同的三维边缘都可能在二维平面上投影出相同的线条。这就带来了一个根本性的视觉问题:如何从二维图像中的线条推断出三维世界中的真实边缘。由于物体的不透明性和相互遮挡关系,图像中的每条线只能对应一个真实的三维边缘,但确定具体是哪一个则十分困难。
为了解决这个问题,我们可以设计一个特殊的神经网络。首先,用"线条神经元"来表示图像中的线条,这些神经元的激活状态对应着图像中出现的具体线条。然后,由于每条线条可能对应多个三维边缘,我们需要通过兴奋性连接将这些线条神经元连接到一系列"边缘神经元"。但是,由于每条二维线只能对应一个真实的三维边缘,这些边缘神经元之间需要相互抑制。但仅有这些还不够,我们还需要加入一些基本的视觉解释原则。比如,当图像中的两条线相连时,我们往往认为它们在三维空间中也是相连的。为了实现这一点,我们可以在那些共享端点的三维边缘神经元之间添加强化连接。特别是当两条边缘呈直角相交时,这种连接会更强,因为直角是一种常见且重要的视觉特征。
通过这种方式,神经网络就能够模拟人类视觉系统对二维图像进行三维解释的过程,并可能产生多种合理的解释结果。
2、两个主要问题
现在我们希望,通过调整连接的权重,我们可以得到一个网络,它具有两种可能的稳定状态,分别对应于对Necker Cube的两种不同解读。这引出了两个主要问题:
搜索问题:如果我们希望用隐藏神经元(hidden neurons)来解读由可见神经元(visible neurons)的状态表示的图像,该如何避免陷入局部最优解?网络可能会停留在一个相对较差的解读中,而无法跳跃到一个更好的解读。
学习问题:我之前暗示这些连接是我手动添加的,但实际上我们希望神经网络能够自己学会添加这些连接。
在搜索问题中,神经元的随机性扮演着关键角色。在标准的 Hopfield 网络中,神经元采用确定性的决策规则:系统一旦进入某个能量最低点,就只能沿着能量下降的方向移动。这意味着系统可能会被困在局部最优解中,无法达到全局最优解。
为了克服这个限制,我们引入了随机二元神经元的概念。这种神经元虽然仍然只有两种状态(激活或关闭,即1或0),但它们的行为是概率性的。当神经元接收到强烈的正输入信号时,它几乎必然会被激活;当接收到强烈的负输入信号时,它几乎必然会关闭。然而,当输入信号接近零时,神经元的行为就变得不确定:即使在正输入的情况下,它也可能偶尔保持关闭状态;在负输入的情况下,它也可能偶尔被激活。这种概率性决策机制在处理二元图像时特别有用。具体来说,我们可以将图像的二元数据固定在可见单元上,然后对隐藏神经元采用随机初始化。在更新过程中,我们随机选择一个隐藏神经元,计算它从其他激活神经元接收到的总输入,然后根据输入的强度和符号做出概率性决策:
如果总输入为强正值,该神经元很可能被激活 如果总输入为强负值,该神经元很可能被关闭 如果总输入接近零,神经元的状态将通过概率分布来决定
通过持续应用这个随机更新规则,系统最终会达到一种称为"热平衡"的状态。热平衡是一个源自物理学的概念,它描述了系统在随机波动中达到的一种动态平衡状态。这种机制使得网络能够跳出局部最优解,探索更广阔的解空间,从而有可能找到更好的全局解。
3、热平衡和详细平衡
一旦达到热平衡,隐藏神经元的状态就成为了对输入的解读。在奈克方块的例子中,隐藏神经元可能会有一个神经元为每条线条神经元激活,从而得到一个解读,这种解读会是对Necker Cube的两种解读之一。我们希望低能量的解读是对数据的良好解读。
因此,对于这幅线条图,如果我们能够学习到二维线条神经元和三维边缘神经元之间的正确权重,并且能够学习到三维边缘神经元之间的正确权重,那么网络的低能量状态就可能对应于对图像的良好解读,也即看到3D矩形物体。
关于热平衡,它并不是表面上看起来的"系统达到某种稳定状态"。真正稳定下来的不是系统的状态本身,而是一个更抽象、更难以理解的东西:系统所有配置的概率分布。对于普通人来说,这很难理解。系统会趋向于一种特定的分布,称为"玻尔兹曼分布"(Boltzmann distribution)。在达到热平衡后,系统处于某一特定配置的概率仅由该配置的能量决定,而能量较低的配置会有更高的概率。
关于热平衡(thermal equilibrium),好的状态(低能量状态)比坏的状态(高能量状态)更可能出现。为了帮助理解热平衡,有一个物理学家常用的小技巧。想象有一个非常大的集合(Ensemble),包含无数个完全相同的网络。这些 Hopfield 网络都具有完全相同的权重,因此它们本质上是同一个系统,但每个网络的初始状态是随机的,并且它们各自独立地做出随机决策。
在这个集合中,每个可能的配置都会对应一定比例的网络。最开始,这个比例只取决于它们的初始状态,比如如果你让它们随机初始化,那么所有的配置会等概率出现。在这个巨大的集合中,每个可能的配置都会有相同数量的网络。然而,当你开始运行这个算法时,不断更新神经元的状态,使其倾向于降低能量(虽然偶尔也会升高能量),逐渐地,每个配置对应的网络比例会稳定下来。每个网络可能会在不同的配置之间跳跃,但所有网络中某一特定配置的比例会保持稳定。这种现象被称为详细平衡(detailed balance),此时,系统的配置比例就会稳定下来。
4、生成图像原理
接下来说说生成图像(generating an image)。这里不是解读图像,而是生成图像。生成图像的方式是,从所有神经元(包括隐藏神经元和可见神经元)的随机状态开始。然后,你随机选择一个隐藏神经元或可见神经元,并根据通常的随机规则更新它的状态。如果它接收到大量的正输入,它可能会激活;如果接收到大量的负输入,它可能会关闭;如果输入值接近零,它的行为会有些随机。你不断重复这一过程,直到系统接近热平衡状态。此时,可见单元的状态就是这个网络生成的图像,这个图像来源于网络所“相信”的分布——玻尔兹曼分布(Boltzmann distribution),在这种分布中,低能量的配置比高能量的配置更可能出现。
这个网络“相信”许多可能的图像,你可以通过运行这一过程从中选择一个它“相信”的图像。在玻尔兹曼机(Boltzmann Machine)中的学习目标是使网络在生成图像(可以看作网络“做梦”时随机想象出来的内容)时,这些图像看起来像它在真实感知中看到的图像。如果能实现这一点,那么隐藏神经元的状态将成为解读真实图像的一个有效方式,它们将捕获图像的潜在原因。这种学习方式的另一个表述是,学习网络中的权重等价于找到一种使用隐藏神经元的方法,使得网络能够生成看起来像真实图像的图像。
这听起来像是一个极其困难的问题,大家都认为这种学习算法会非常复杂。然而,Terry Sejnowski 和我却采取了一种过于乐观的方法。问题是,是否可以从一个随机权重的大型神经网络开始,这个网络包括许多隐藏神经元和随机初始化的权重,然后只需要给它展示大量真实的图像。我们希望的是一种看似荒谬的结果:当网络感知到足够多的真实图像时,它会自动在隐藏神经元之间,以及隐藏神经元和可见神经元之间,创建所有必要的连接,并正确地调整这些连接的权重,从而以合理的方式解释图像,比如识别在直角处连接的 3D 边缘。
这听起来非常乐观,而且你可能会认为实现这一目标的学习算法会非常复杂。但令人惊讶的是,玻尔兹曼机的学习算法非常简单。这是我和 Terry Sejnowski 在 1983 年发现的。
5、学习两个阶段
学习算法分为两个阶段:唤醒阶段(Wake phase) 和 睡眠阶段(Sleep phase)。
1、在唤醒阶段,网络被输入图像。你将图像固定在可见单元上,让隐藏单元自由活动,直到它们与可见单元达到热平衡。一旦隐藏单元达到热平衡,对于每一对连接的神经元(可能是两个隐藏单元,也可能是一个隐藏单元和一个可见单元),如果它们都处于激活状态,你就增加它们之间权重的一小部分。这是一个非常简单的学习规则,而且符合唐纳德·赫布(Donald Hebb)提出的学习理论。但是,如果你仅运行唤醒阶段,权重只会不断增加,很快所有的权重都会变为正值,所有的神经元会一直保持激活状态。这显然没有用。因此,你需要引入睡眠阶段。
2、在睡眠阶段,你可以将网络看作是“做梦”。通过更新所有神经元(隐藏和可见神经元)的状态,网络趋于热平衡。一旦达到热平衡,对于每一对连接的神经元,如果它们都处于激活状态,你就从它们之间的权重中减去一小部分。这是一个非常简单的学习算法,而且令人惊讶的是,它的确能够实现目标。
因此,在平均意义上,这种学习算法会调整权重,使得网络在“做梦”时生成的图像更有可能看起来像它在感知真实世界时看到的图像。这部分不适合普通观众,所以请不要读接下来的两行内容。对于统计学家和机器学习领域的人来说,这种算法的本质是,在期望意义上(也就是说,这个算法有一定随机性,偶尔会做错事,但从平均意义上看),它沿着对数似然的梯度进行优化。换句话说,它使得网络在“做梦”时生成的图像更可能是它在“清醒”时观察到的图像。或者换句话说,权重的变化使得网络认为合理的图像(低能量状态)与它“清醒”时看到的图像更加相似。
在这个学习过程中发生的事情是:在“清醒”(Wake)阶段,你降低网络在看到真实数据时到达的整体配置的能量;在“睡眠”(Sleep)阶段,你提高这些配置的能量。换句话说,你试图让网络“相信”它在“清醒”时看到的东西,同时“否定”它在“睡眠”时“梦到”的东西。如果你问达到热平衡的过程实现了什么,那就令人惊叹了。这一过程使得网络的每个权重所需了解的关于其他所有权重的信息都能被提取出来。为了调整一个权重,你需要知道它与所有其他权重的交互关系。而所有需要知道的信息都会体现在两个相关性之间的差异中:一是网络在观察真实数据时,两神经元共同激活的频率;二是网络在“做梦”时,两神经元共同激活的频率。这些相关性在两种情况下的差异包含了权重调整所需的全部信息。
令人惊讶的是,与反向传播等算法不同,这种方法并不需要一个向后传播的过程来传递关于其他权重的信息。在反向传播中,前向传播是传递神经元的激活到后续层,而反向传播传递的是敏感性(sensitivities),这种信息完全不同。反向传播因此显得不太可能是人脑的工作原理。然而,当 Terry 提出了玻尔兹曼机的这种学习方法时,我们完全相信这一定就是大脑的工作方式。我们甚至决定,我们将因为这一理论而获得生理学或医学领域的诺贝尔奖。当时我们从未想到,即使这不是大脑的工作方式,我们可能也会因此获得物理学的诺贝尔奖。唯一的问题在于,对于大型网络来说,达到热平衡的过程非常缓慢,尤其是当权重较大时。如果权重很小,热平衡可以快速达到;但在权重较大时,这个过程会非常缓慢。因此,尽管玻尔兹曼机是一种浪漫的、令人着迷的理论——它有一个极其简单的学习算法,却能实现非常复杂的功能,比如构建隐藏单元的网络以解释数据,但其学习过程实在太慢了。所以,这就是玻尔兹曼机在当时的局限性。讲到这里,演讲其实本应该结束了。但是,在 17 年之后,我意识到,如果对玻尔兹曼机进行大量限制,比如隐藏单元之间没有连接,那么就可以得到一个更快的学习算法。
如果隐藏神经元之间没有连接,那么“清醒”阶段会变得非常简单。你只需要将输入固定在可见单元上以表示一个图像,然后可以并行更新所有隐藏单元的状态。这些隐藏单元会根据它们接收到的可见输入随机选择一个状态,更新完成后,它们就立即达到了与数据的热平衡。这是隐藏单元的改进。但在“睡眠”阶段仍然有问题:你需要让网络进入一个随机状态,然后更新隐藏单元、再更新可见单元,循环这个过程许多次,直到达到热平衡。这仍然是一个非常耗时的过程,因此这个算法依然不可行。不过,后来发现有一个捷径可以解决这一问题。
6、捷径学习算法
将数据输入到可见单元上,这是一个图像。
并行更新所有隐藏单元,使它们与数据达到热平衡。
更新所有可见单元,得到一个“重构”,它会与输入数据相似,但不完全相同。
再次更新所有隐藏单元,然后停止。
,以此类推。每个受限玻尔兹曼机都在上一层隐藏单元中找到结构。
1、网络的学习速度比随机初始化时快得多,因为它已经学到了一些对建模数据结构有用的特征。虽然它尚未学会物体的名称,但它学到了数据中的结构。因此,学习物体名称变得相对快速。就像小孩子一样,他们不需要被重复告知“那是一头牛”2000 次才能学会。他们自己能够推断出“牛”的概念,当母亲告诉他们“那是一头牛”时,他们很快就能记住,大概只需要听两次就足够了。 2、网络的泛化能力更强,因为它的大部分学习过程并未依赖标签。网络不需要大量标签,也不是通过标签提取信息,而是通过数据中的相关性提取信息。这使得它在标签较少的情况下仍然具有很好的泛化能力。
7、实际应用
原视频链接:
我对吴有训、叶企孙、萨本栋先生的点滴回忆 | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅰ) | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅱ) | 《物理》50年精选文章
原子核裂变的发现:历史与教训——纪念原子核裂变现象发现60周年 | 《物理》50年精选文章
回顾与展望——纪念量子论诞生100周年 | 《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(上) |《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(下) |《物理》50年精选文章
为了忘却的怀念——回忆晚年的叶企孙 | 《物理》50年精选文章
从分子生物学的历程看学科交叉——纪念金螺旋论文发表50周年 | 《物理》50年精选文章
美丽是可以表述的——描述花卉形态的数理方程 | 《物理》50年精选文章
一本培养了几代物理学家的经典著作 ——评《晶格动力学理论》 |《物理》50年精选文章
熵非商——the Myth of Entropy |《物理》50年精选文章
普渡琐记——从2010年诺贝尔化学奖谈起 |《物理》50年精选文章
天气预报——由经验到物理数学理论和超级计算 | 《物理》50年精选文章
纪念Bohr的《伟大的三部曲》发表100周年暨北京大学物理专业建系100周年 | 《物理》50年精选文章
凝聚态材料中的拓扑相与拓扑相变——2016年诺贝尔物理学奖解读 |《物理》50年精选文章
通用量子计算机和容错量子计算——概念、现状和展望 | 《物理》50年精选文章
谈书说人之一:《理论物理学教程》是怎样写成的?| 《物理》50年精选文章
时空奇点和黑洞 ——2020年诺贝尔物理学奖解读 |《物理》50年精选文章
凝聚态物理学的新篇章——超越朗道范式的拓扑量子物态 | 《物理》50年精选文章
对于麦克斯韦方程组,洛伦兹变换的低速极限是伽利略变换吗?| 《物理》50年精选文章