模型漫谈:获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

文摘   2024-10-09 17:45   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               

文章目录

  • 2024诺贝尔物理奖得主

  • 人工神经网络起源:模仿大脑

  • 霍普菲尔德和他的Hopfield network

    • 模型特点总结

    • 应用和局限

  • 辛顿和他的玻尔兹曼机 (Boltzmann machine)

    • 模型特点总结

    • 应用和局限

  • 机器学习——现在和未来

  • 从AI教父获奖谈如何环境科学研究启发

2024诺贝尔物理奖得主

24小时之前,即北京时间10月8日17时45分,瑞典皇家科学院宣布将2024年诺贝尔物理学奖授予美国科学家约翰·霍普菲尔德(John J. Hopfield)和英国裔加拿大科学家杰弗里·辛顿(Geoffrey E. Hinton),获奖理由是:
通过人工神经网络实现机器学习的基础性发现和发明
for foundational discoveries and inventions that enable machine learning with artificial neural networks
1-2_

696

John J. Hopfield

2024 年诺贝尔物理学奖

出生日期:1933 年 7 月 15 日,美国伊利诺伊州(简称IL)芝加哥市

获奖时所在机构:美国新泽西州普林斯顿大学


2024 年诺贝尔物理学奖

出生日期:1947 年 12 月 6 日,英国伦敦

获奖时所属:加拿大多伦多大学

人工神经网络起源:模仿大脑

人工神经网络使用整个网络结构来处理信息。其灵感最初来自于对大脑工作原理的理解。20 世纪 40 年代,研究人员开始围绕大脑神经元和突触网络背后的数学原理进行推理。另一个谜题来自心理学,这要归功于神经科学家唐纳德·赫布的假说,即学习是如何发生的,因为神经元之间的联系在协同工作时会得到加强。
后来,人们尝试通过建立计算机模拟的人工神经网络来重现大脑网络的功能。在这些神经网络中,大脑的神经元由赋予不同值的节点模拟,突触由节点之间的连接表示,这些连接可以变得更强或更弱。Donald Hebb’s hypothesis仍然被用作通过称为训练的过程更新人工网络的基本规则之一

Donald Hebb’s hypothesis: 通常被称为 Hebbian 理论或 Hebbian 学习规则,即如果神经元 A 经常在神经元 B 之前激活,并且这种模式重复出现,那么 A 到 B 的突触效率将会增加。这可以通过改变突触权重来实现,使得在未来当 A 被激活时,B 更有可能被激活。Hebbian 学习的概念对于理解大脑如何处理信息、形成记忆以及进行学习有着深远的影响,并且它也是许多人工神经网络模型中的一个重要组成部分。

自然和人工神经元的图示
20 世纪 60 年代末,一些令人沮丧的理论结果导致许多研究人员怀疑这些神经网络永远不会有任何实际用途。然而,人们对人工神经网络的兴趣在 20 世纪 80 年代被重新唤醒,当时有几项重要的想法产生了影响,其中包括今年获奖者的研究成果。

霍普菲尔德和他的Hopfield network

霍普菲尔德从物理学中获得了灵感,他理解了由许多小组件共同作用的系统如何产生新的有趣现象。他特别受益于对磁性材料的了解,这些材料由于原子自旋而具有特殊的特性——这种特性使每个原子都成为一个微小的磁铁。相邻原子的自旋相互影响;这可以形成自旋方向相同的域。霍普菲尔德利用描述自旋相互影响时材料如何发展的物理学,创建一个带有节点和连接的模型网络,即Hopfield网络。
Hopfield网络的节点,便是通过不同强度的连接连接在一起。每个节点都可以存储一个单独的值(在 Hopfield 第一篇关于联想记忆的文章中,这个值可以是 0 或 1,就像黑白图片中的像素一样)。霍普菲尔德用一种相当于物理学中自旋系统能量的属性来描述网络的整体状态;能量是使用一个公式计算的,该公式使用了节点的所有值以及它们之间连接的所有强度。Hopfield 网络的编程方法是将图像输入到节点,节点被赋予黑色 (0) 或白色 (1) 的值。然后使用能量公式调整网络的连接,以便保存的图像获得较低的能量。当另一个模式被输入到网络中时,有一个规则是逐个检查节点,并检查如果该节点的值发生变化,网络是否具有较低的能量。如果结果发现如果黑色像素变为白色,能量就会降低,它会改变颜色。这个过程一直持续到不可能找到任何进一步的改进。当达到这一点时,网络通常会重现它所训练的原始图像。

模型特点总结

  1. 二值神经元:Hopfield网络由一组可以处于两种状态(通常是0和1,代表激活和非激活)的神经元组成。

  2. 完全连接:网络中的每个神经元都与其他所有神经元相连接(但没有自连接),这意味着每个神经元都会接收到网络中所有其他神经元的输出。

  3. 对称权重:神经元间的连接权重是对称的,即连接神经元i和神经元j的权重与连接神经元j和神经元i的权重相同。这有助于网络达到能量最小化,从而稳定下来。

  4. 更新规则:神经元的状态更新通常是异步的,即在每个时间步中随机选择一个神经元根据其输入来更新自身的状态。状态更新取决于输入信号的加权和是否超过某个阈值。

  5. 能量函数:Hopfield网络有一个定义良好的能量函数,这个函数随着网络状态的更新而下降,网络最终会收敛到能量最低的一个或多个稳定状态,这些稳定状态对应于网络的记忆。

插图

霍普菲尔德将搜索网络中保存的状态比作将球滚过山峰和山谷,摩擦力会减慢球的运动速度。如果球掉落在某个特定位置,它将滚入最近的山谷并停在那里。如果网络获得的模式接近于已保存的模式之一,它将以同样的方式继续向前移动,直到它最终到达能量景观中的山谷底部,从而找到其记忆中最接近的模式。

应用和局限:Hopfield网络在某些类型的优化问题和图案识别任务中非常有用。然而,它们也有明显的局限性,如容量有限(通常只能存储约0.15倍于神经元数的独立记忆),并且如果输入与任何存储的记忆都不够接近,它们可能收敛到混合或不相关的状态。随着深度学习和其他类型的神经网络模型的发展,Hopfield网络的直接应用已经减少,但它们对于理解神经网络动态和复杂系统的全局稳定性提供了宝贵的见解,并在理论研究中仍然具有重要价值。

辛顿和他的玻尔兹曼机 (Boltzmann machine)

当霍普菲尔德发表关于联想记忆的文章时,杰弗里·辛顿正在美国匹兹堡的卡内基梅隆大学工作。他之前曾在英格兰和苏格兰学习过实验心理学和人工智能,他想知道机器是否能学会以类似于人类的方式处理模式,找到自己的类别来对信息进行分类和解释。辛顿与他的同事特伦斯·塞诺夫斯基一起从Hopfield network开始,并利用统计物理学的思想对其进行扩展,构建出了一些新的东西。统计物理学描述的是由许多相似元素组成的系统,例如气体中的分子。追踪气体中所有单独的分子是困难的,甚至是不可能的,但可以将它们作为一个整体来考虑,以确定气体的总体特性,如压力或温度。气体分子以不同的速度在其体积中扩散,并仍然具有相同的集体特性,这有很多潜在的方式。可以使用统计物理学分析各个组件可以共同存在的状态,并计算出它们发生的概率。有些状态比其他状态更有可能发生;这取决于可用能量的数量,这在 19 世纪物理学家路德维希·玻尔兹曼 (Ludwig Boltzmann) 的一个方程中有所描述辛顿利用了该方程,该方法于 1985 年以引人注目的玻尔兹曼机 (Boltzmann machine)的名称发表。
不同类型的网络图示
玻尔兹曼机通常与两种不同类型的节点一起使用。信息被馈送到一组节点,这些节点称为可见节点。其他节点形成隐藏层。隐藏节点的值和连接也对整个网络的能量有贡献。该机器通过应用规则来运行,每次更新一个节点的值。最终,机器将进入一种状态,其中节点的模式可以改变,但整个网络的属性保持不变。然后,每个可能的模式将具有特定的概率,该概率由网络能量根据玻尔兹曼方程确定。当机器停止时,它已经创建了一个新的模式,这使得玻尔兹曼机成为生成模型的早期例子。d玻尔兹曼机可以学习——不是通过指令,而是通过给出的例子。它通过更新网络连接中的值进行训练,以便在训练时输入可见节点的示例模式在机器运行时具有最高的出现概率。如果在训练过程中多次重复相同的模式,则该模式的概率甚至更高。训练还会影响输出与机器训练的示例相似的新模式的概率。经过训练的玻尔兹曼机能够识别出它之前未见过的信息中的熟悉特征。想象一下,当你遇到朋友的兄弟姐妹时,你立刻就能看出他们一定是亲戚。同样,如果一个全新的示例属于训练材料中的某个类别,玻尔兹曼机也能识别它,并将其与不相似的材料区分开来。

模型特点总结

  1. 二分图结构:玻尔兹曼机通常包含两组神经元:可见神经元(visible units)和隐藏神经元(hidden units)。可见神经元对应于观测数据,而隐藏神经元可以捕捉数据中的高级特征或潜在因素。

  2. 全连接:可见神经元与隐藏神经元之间是全连接的,但同组内的神经元之间没有连接。这种结构是为了简化学习过程,减少模型复杂度。

  3. 随机二值状态:与Hopfield网络类似,玻尔兹曼机的神经元也可以处于两种状态(如0和1),状态的更新是根据概率进行的。

  4. 能量函数:玻尔兹曼机定义了一个能量函数,用来描述网络的状态。网络的目标是找到能量最低的状态,这些状态对应于模型的理想解。

  5. 温度和概率:神经元状态的更新是基于概率的,这个概率与系统的"温度"有关,模拟物理系统中粒子的行为。温度较高时,系统更随机;温度较低时,系统趋向于稳定状态。

  6. 学习规则:玻尔兹曼机使用对比散度(Contrastive Divergence, CD)算法进行训练,这是一种基于梯度的优化技术,用于调整权重以最小化实际数据和重建数据之间的差异。

应用和局限:在其原始形式中,波尔兹曼机效率相当低,需要很长时间才能找到解决方案。当它以各种方式开发时,事情变得更加有趣,而欣顿一直在探索这一点。后来的版本一些单元之间的连接已被移除,事实证明,这可能会使波尔兹曼机更有效率。20 世纪 90 年代,许多研究人员对人工神经网络失去了兴趣,但 辛顿 继续在该领域工作的研究人员之一。他还帮助开启了令人兴奋的新一轮成果热潮;2006 年,他与同事 Simon Osindero、Yee Whye Teh 和 Ruslan Salakhutdinov 开发了一种使用一系列逐层叠加的玻尔兹曼机对网络进行预训练的方法。这种预训练为网络中的连接提供了更好的起点,从而优化了其训练以识别图片中的元素。目前波尔兹曼机通常用作大型网络的一部分。例如,它可以根据观众的喜好推荐电影或电视剧。

机器学习——现在和未来

凭借自 20 世纪 80 年代以来的工作,霍普菲尔和辛顿为 2010 年左右开始的机器学习革命奠定了基础。我们现在所见证的发展是通过获取可用于训练网络的大量数据以及计算能力的大幅提升而实现的。当今的人工神经网络通常非常庞大,由多层构成。这些被称为深度神经网络,其训练方式称为深度学习
快速浏览一下霍普菲尔德 1982 年发表的关于联想记忆的文章,可以对这一发展提供一些看法。在这篇文章中,他使用了一个有 30 个节点的网络。如果所有节点都相互连接,则有 435 个连接。节点有自己的值,连接有不同的强度,总共有不到 500 个参数需要跟踪。他还尝试过一个有 100 个节点的网络,但考虑到他当时使用的计算机,这太复杂了。我们可以将其与当今的大型语言模型进行比较,这些模型被构建为可以包含超过一万亿(一百万亿)参数的网络。
目前,许多研究人员正在开发机器学习的应用领域。哪一个领域最有前景还有待观察,同时围绕这项技术的开发和使用的伦理问题也引发了广泛的讨论。由于物理学为机器学习的发展贡献了工具,因此有趣的是,物理学作为一个研究领域也受益于人工神经网络。机器学习长期以来一直应用于我们可能熟悉的领域,从以前的诺贝尔物理学奖中可以看出。其中包括使用机器学习来筛选和处理发现希格斯粒子所需的大量数据。其他应用包括降低碰撞黑洞引力波测量中的噪声,或寻找系外行星。近年来,该技术也开始用于计算和预测分子和材料的特性,例如计算决定其功能的蛋白质分子结构,或确定哪种新材料可能具有最佳特性,以用于更高效的太阳能电池。

从AI教父获奖谈如何环境科学研究启发

霍普菲尔德和辛顿因他们在神经网络和机器学习领域的贡献而获得诺贝尔物理学奖,这对环境科研领域的人士有以下几个方面的启发:
  1. 数据驱动的方法大势所趋:环境科学涉及大量的观测数据,从生态系统动态,到小型反应器的运行监测。机器学习技术可以用来处理这些大数据集,从中发现模式、趋势以及预测未来的变化。例如,通过分析历史气候数据来预测未来的气候变化。

  2. 跨学科思维:这次诺贝尔奖颁发给了计算机科学领域的研究者,表明了跨学科研究和思维的重要性。环境研究工作者可以从其他领域的创新中汲取灵感,以解决复杂的环境问题。

  3. 追随兴趣和热情:上世纪末,在对人工神经网络不看好的氛围下,霍普菲尔德和辛顿依然凭借兴趣对人工神经网络进行研究,最终带来重大的突破。无论是环境科学还是任何其他领域,对研究课题的热情是推动创新和持久工作的关键动力。愿每一位科研人员都能在自己的研究课题中找到激情,找到成就感,实现自我价值。

               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章