📝 机器学习与物理学的结合:一条双向道路
Machine learning meets physics: A two-way street
摘要
本文介绍了一个关于快速发展的机器学习领域与正在进行的物理学研究之间相互作用的特刊。本期论文的前半部分讨论了机器学习能为物理学做些什么的问题。第二部分则反其道而行之,即物理学能为机器学习做些什么?正如我们将看到的,这两个方向都在大力推进。
当然,物理学是一门非常广泛的学科,几乎每个部分都在探索机器学习 (ML) 的可能用途。我们显然无法系统地涵盖所有这些发展。相反,我们将提供各种示例,并尝试提出一些初步的一般见解。鉴于活动的巨大轰动,我们确信我们的观点需要根据积累的经验不断修改。尽管如此,我们仍将继续。
1. 机器学习与蛋白质折叠问题
机器学习在解决重要物理问题方面的典型例子是AlphaFold及其继任者在从序列确定蛋白质结构方面的表现。这一问题在生物物理学领域已经研究了许多年,社区积极参与名为CASP的两年一度的比赛,在比赛中评估方法对已知但尚未揭示的数据的表现。2018年,AlphaFold在总排名中名列第一,2020年再次如此。到2022年,在CASP15中,大多数参赛者采用了某种形式的AlphaFold理念用于他们的方法。该方法变得如此普遍,以至于“AlphaFold”一词开始被用作动词,如“我们能用AlphaFold来应对下一次大流行吗?”Park等人在这期特刊中的论文提供了如何在现代计算系统上有效使用AlphaFold2的指南。
从蛋白质折叠应用的历史中可以汲取一些教训。上世纪80年代末,我们在加州大学圣地亚哥分校(UCSD)时,听Terry Sejnowski讲述他使用神经网络研究球状蛋白质二级结构的论文,当时他的算法表现平平,许多人离开时都在想为什么有人会放弃传统的生物化学方法而选择机器学习。那么,从那时到2018年的30年间发生了什么变化?似乎有四个因素在起作用。首先,计算能力以几乎不可思议的速度增长。例如,1985年左右的Cray 2超级计算机达到每秒1.9亿次浮点运算,现在相当于iPhone 4。当前的超级计算机领导者达到了每秒109亿次浮点运算。当时在计算上不可能实现的事情现在完全是微不足道的。类似的数据也适用于内存容量。可以说,如果没有相关研究人员可用的计算能力,进展将受到极大阻碍。
硬件改进是必要的但不够的。第二个因素是发明了各种机器学习技术,从可用数据中学习预测模型。上世纪80年代,神经网络领域还处于因Minsky和Papert在其关于感知器的著作中提出的著名“不可能”结果的严重限制而带来的绝望中。构建具有隐藏层的“深层网络”将开辟一条新道路的想法才刚刚开始实现,最初是通过诸如玻尔兹曼机等结构,然后是反向传播训练算法的形成。如今,诸如transformer架构、自编码器和对抗性网络等想法已经彻底改变了人们对机器学习过程的理解。对于AlphaFold的例子,transformer的想法显然是至关重要的。Martin等人的论文简要介绍了transformer如何与从Hopfield联想记忆模型到更一般的机器学习概念联系起来。
下一个因素是训练数据的可用性。蛋白质数据库(PDB)于1971年建立,用于存储有关蛋白质结构的信息。再次,结构数据量对所有研究人员的可用性爆炸式增长。结构数量大约每6到8年翻一番;到2024年初,PDB档案超过20万结构,而1990年大约为1000。图1展示了一份关于PDB核心档案增长的2019年报告。
最后,我们达到了可能是最有趣的因素相关问题,即对未来机器学习研究计划有重要意义的问题。问题是,三十年广泛的传统技术研究对蛋白质折叠的研究有多重要?更简单地说,在没有人关注蛋白质折叠计算的另一个宇宙中,直到AlphaFold时代,我们的现状会落后多少?当然不可能知道答案,但我们的感觉是理论确实在推动当前进展方面发挥了重要作用。我们已经提到,使用比较基因组学数据的想法来源于理论社区。同样重要的是将结构数据编码到标准生物物理模型中的想法的形成,利用了物理见解和测量信息。此外,我们不应该将推进蛋白质折叠在从序列预测结构中的工程应用与通过如最小挫折和折叠漏斗等概念更好地理解蛋白质折叠混淆。这些概念在其他背景下也具有全球重要性,既包括分子层面,也包括细胞层面。有时,即使从纯粹的实用角度来看是多余的,但人们还是喜欢有“人类可解释”的方法。
当前这条研究方向的挑战是什么?可以指出的是那些没有唯一结构的系统,而是折叠问题转化为找到一组结构及其间过渡的相关动力学。这些系统包括本质无序蛋白质以及基因组的折叠。另一方向涉及相互作用的生物分子,其中纯ML方法的Alpha-Multimer在许多应用中尚未被证明足够可靠。Lupo等人通过将语言模型应用于更好地对齐蛋白质-蛋白质界面处的相关相互作用序列,尝试解决这个问题。
2. 机器学习的扩展
生物物理学是探索机器学习应用的自然途径。与物理学的许多其他领域不同,大多数与生物世界相关的实验系统都极其复杂,因此形成第一性原理模型的能力相当有限。举一个比分子规模更大的例子,没有任何关于集体细胞运动的第一性原理模型(32)能够充分反映用于这种行为的细胞机制的复杂性。也没有 Navier-Stokes 方程来解决这个问题,因此人们自然会想知道,是否可以用纯数据驱动的模型有效地取代手工制作的模型(33、34 )。许多实验细胞运动系统(35、36)正在积极研究这个问题,当然,在许多生物医学背景下,人们也在深入研究这个问题,例如数字病理学方面的研究(37 ) 。值得注意的是,人们可以尝试通过机器学习自己推导出更好的手工制作模型(例如参见参考文献38);目前还不清楚为什么这比直接使用学习神经网络的预测更好。
鉴于上述情况,机器学习方法渗透到名义上具有可靠计算框架的物理系统的研究中或许更令人惊讶。Yu 和 Wang ( 39 ) 在论文中对这些不同的系统进行了出色的总结。有一种观点认为,即使存在第一性原理模型,机器学习也可以加快计算速度。Kochkov 等人 ( 40 ) 提出了这样一种主张,他们明确关注前面提到的流体动力学 Navier-Stokes 方程。也许对于物理原理上可知但可能过于复杂而无法实现的情况,可以提出更有说服力的案例;人们可以将气候模拟器中的云模型视为这样一个例子。从总体来看,似乎在寻找将传统建模的可解释性与机器学习方法的可推广性相结合的最佳方法方面还有很大的进步空间。
如果人们对某个非常具体的物理系统的模型感兴趣,那么他们通常可以进行必要的大规模计算以获得有意义的结果;而且,随着计算能力的持续呈指数级增长,这变得越来越容易。然而,正如 King 等人(41)在本期论文中强调的那样,在材料组装的背景下,当任务是设计新产品时,这变得更加困难。这一挑战需要一个迭代过程来在微观尺度上挑选相互作用,最终会在更大规模上产生一些功能行为。这个迭代过程通常涉及使用某种功能度量的某种梯度下降,但是“前向”问题必须作为收敛过程的一部分计算多次。正如本文所讨论的,机器学习的思想可以极大地帮助解决这个问题,包括自动微分的概念(42),它能够将大规模误差“反向传播”到微观程度的必要变化。当然,这个想法是神经网络模型中隐藏层训练算法的核心,但现在,这个想法可以自动应用于任何大规模计算。
当人们思考 ML 及其在物理学中的应用时,不太可能立即想到弦理论。然而,弦理论界正在积极探索 ML 方法是否有用 ( 43 )。当然,弦理论是一种试图制定“万物理论”的尝试,用存在于 11 维中的“弦”(在一维上扩展的量子物体)来解释所有基本粒子及其相互作用。ML 被用来寻找将这个 11 维空间压缩成我们所体验的 4 维世界的方法,寻找合理的紧化是一个非常困难的计算问题,可以通过 ML 思想来改善。谁知道呢?
ML-Physics 接口还有最后一个研究方向。一些研究小组正在尝试使用 ML 方法自动从数据中发现新方程;想象一下,获取行星数据并尝试学习牛顿运动定律和引力平方反比定律。Yu ( 39 ) 在论文中简要概述了这个想法,并附有相关参考文献。我们可以将这一努力视为最终用人工智能版本取代理论物理学家。在我们看到一台可以查看天体物理数据并找出正确的理解框架是四维时空中的黎曼几何的机器之前,我们并不担心我们的工作。
3. 物理学能为机器学习做什么?
当然,机器学习的影响远不止于其在推动物理科学发展方面的应用。深度学习神经网络 (DLNN) 模型 ( 44、45 ) 在图像识别 ( 46 )、机器翻译 ( 47 )、游戏 ( 48 ) 以及我们已经讨论过的解决长期存在的重大科学难题(如蛋白质折叠 ( 1 ))方面取得了一系列快速而巨大的成功。无论好坏,最新的生成模型(如 ChatGPT)正在从根本上改变我们这个时代的社会、经济和政治格局。
然而,DLNN 最近取得的巨大成功也带来了一个副作用,那就是人们忽视了它的理论动机和基础,而倾向于快速、狭隘的应用驱动开发。这逐渐导致实践越来越不理想,包括大量浪费计算周期和时间来调整无原则的优化和正则化程序允许的大量超参数、高精度编码参数的低效使用、昂贵标记数据的低效使用、最终结果缺乏可重复性,以及滥用这种强大技术的可能性。为过度参数化的联结主义机器学习模型(如深度学习神经网络)开发一个原则性的理论基础将有助于避免此类问题,从而简化其优化并允许在较少数据上训练出稳健的模型。同时,规范理论提供的预测可以指导改进未来架构和训练范式的开发。
人工神经网络 (ANN) 模型起源于两门自然科学学科——统计物理学和神经科学的结合。ANN 的核心描述是一组高度抽象的“神经元”在与大脑中的真实神经网络有一定相似的网络中以自适应方式相互作用的突发(集体)行为。模型动力学使 ANN 能够进行关联和学习。从历史上看,统计物理学和神经科学在 ANN 的诞生和早期发展中都发挥了开创性的作用。1943 年,McCulloch 和 Pitts ( 49 ) 首次为建立生物神经网络模型而引入的线性-非线性人工神经元以及神经元之间的突触权重,至今仍是现代深度学习神经网络的基本组成部分。统计物理学在人工神经网络的初始发展以及 20 世纪 80 年代末和 90 年代的理论理解中也发挥了重要作用,推动了霍普菲尔德模型 ( 14 )、玻尔兹曼机 ( 9 ) 以及自旋玻璃理论在神经网络中的应用 ( 50 ) 等关键发展。
那么目前有什么不同呢?在元素层面上,变化并不大,McCulloch-Pitts 神经元仍然是所有深度学习算法的基石,线性求和与非线性激活仍然是单个神经元级别的基本计算过程。然而,规模已经大不相同。正如上文在蛋白质折叠方面所讨论过的,我们现在拥有大量数据可用于训练大型 ANN 模型;反过来,这些模型可以通过使用大量参数来吸收这些大型数据集中的信息。这些大型模型的架构比 Rosenblatt ( 51 ) 的原始感知器模型复杂得多,例如,Transformer 架构对于现代大型语言模型 (LLM) 至关重要。当然,这些大型 ANN 的性能远远超出了我们基于单个神经元的预期。
这让我们想起了 PW Anderson 的名言:“多即是不同”(52),他主张整个系统不仅大于其各部分的总和,而且由于系统中各个部分的相互作用,可能会出现突发(不同)行为。正如 Anderson 的名言激励了一代又一代的物理学家研究复杂多体系统的突发行为一样,我们希望将其作为物理学家的战斗口号,研究这种令人着迷的突发行为,即在(有时)庞大但始终结构良好的人工神经网络中学习。这些研究必须回答一些一般性问题,例如学习如何从 DLNN 中的神经元相互作用中产生,网络学习了什么,以及它们是否可以概括所学到的知识。
事实上,我们相信深度学习的下一个突破可能来自于基于统计物理学概念和方法的坚实理论基础的开发。这将与越来越先进的 DLNN 算法的引入相结合,这些算法将加速物理和生物世界中的科学发现速度。这两个相互关联的新兴研究课题,即基础理论和复杂应用,将极大地推动科学和人工智能技术的发展。接下来,我们将介绍一个描述机器学习过程的一般框架,然后深入探讨几个可能取得进展的有希望的方向。我们的讨论包含本期特刊中发表的与这些方向相关的论文的简要概述。
图 2所示的机器学习工作流程立即提出了机器学习中的两个重要问题。第一个问题侧重于学习动态。更具体地说,给定训练数据,模型的参数如何变化?通常的学习过程是通过最小化损失函数来实现的,该损失函数表征模型与训练数据的拟合程度。从一组初始参数值开始,参数在高维参数空间中迭代更新,由损失函数引导,直到达到最小值。参数给定在这样一个最小值的模型就是问题的解决方案。优化过程,即参数更新序列,可以被视为学习动态,更新步骤以时间为单位。第二个问题涉及泛化。通常,DLNN 是过度参数化的。因此,对于拟合训练数据的问题,有许多可能的解决方案(最小值)。问题是哪种解决方案具有更好的泛化能力,即在训练过程未使用的测试数据上表现更好。如果我们知道哪种类型的解决方案具有更好的通用性,那么一个相关的问题是,我们可以使用什么正则化项(除了损失函数之外)来推动系统朝着那些更通用的解决方案发展。在接下来的两节中,我们将更详细地探讨这两个一般问题,并重点介绍这些方向上的一些最新进展。
4. 机器学习中的中心法则
在《学习如何运作》一书中,Ambrose等人将学习定义为“一个导致变化的过程,这种变化是经验的结果,增加了改进表现和未来学习的潜力”。该书是在人类(学生)学习的背景下写的,但这一简洁的学习定义也可以用来描述机器学习。图2展示了神经网络为基础的深度学习的关键组成部分和工作流程,我们称之为机器学习的“中心法则”。机器学习过程的目标是学习一个模型,该模型捕捉外部世界的内在属性,并由观察数据表示。模型具有一定的结构,即函数形式,并由其参数(在神经网络模型中为权重)参数化。根据Ambrose等人的定义,在学习过程的训练阶段,模型中的参数会随着训练经验或在机器学习中称为训练数据的结果而变化。训练完成后,可以通过在未见过的测试数据上评估训练模型的表现来评估学习质量,并确定训练后的模型是否形成了未来学习的良好基础(起点)。
机器学习的工作流程如图2所示,立即揭示了机器学习中的两个重要问题。第一个问题是学习动态。更具体地说,模型参数如何根据训练数据变化?通常,学习过程通过最小化一个损失函数来进行,该函数表征模型对训练数据的拟合程度。从一组初始参数值开始,参数通过高维参数空间逐步更新,由损失函数引导,直到达到最小值。参数值在这些最小值处的模型是问题的解决方案。优化过程,即参数更新的序列,可以视为学习的动态,每一步更新作为时间。第二个问题是泛化。通常,DLNNs是过参数化的。因此,有许多可能的解决方案(最小值)可以拟合训练数据。问题是哪个解决方案在测试数据上表现更好,即哪个解决方案具有更好的泛化性能。如果我们知道哪种类型的解决方案具有更好的泛化性,那么一个相关的问题是我们可以使用什么正则化项(除了损失函数外)来推动系统朝这些更具泛化性的解决方案发展。在接下来的两节中,我们将详细探讨这两个一般性问题,并强调在这些方向上最近的一些发展。
4.1 随机学习动态:在波动损失景观中下降
ANNs中的一般优化策略包括通过沿损失函数的梯度更新权重,这种方法称为梯度下降(GD)。由于DLNNs的前馈架构,GD可以通过反向传播高效地进行。然而,如果使用所有训练数据平均的整体损失函数,那么对于大数据集而言,GD在计算上是不可行的。为了绕过大数据集问题,使用了随机梯度下降(SGD)方法,通过根据每次迭代随机选择的样本子集(minibatch)更新权重。值得注意的是,后来发现SGD对于在DLNNs中找到更具泛化性的解决方案也至关重要。
尽管深度学习取得了巨大成功,但SGD在高维非凸损失函数(能量)景观中为何如此有效地学习好解决方案仍然理解甚少。随机元素似乎是SGD的关键,但也使其更难理解。幸运的是,许多物理和生物系统包含此类随机元素,例如布朗运动和随机生化反应,并且已经开发了强大的工具来理解具有许多自由度的随机系统中的集体行为。事实上,最近统计物理学和随机动力系统理论的概念和方法已经被用来研究SGD动态、损失函数景观及其在DLNNs中的关系。
为了展示这种基于物理的方法在理解DLNNs中的效用,我们简要描述了一个研究SGD学习动态的理论框架及从中获得的一些有趣的见解。我们首先将基于SGD的学习过程视为一个随机动力系统。学习系统如神经网络(NN),特别是深度神经网络(DNN)具有大量的权重参数()。对于监督学习,有一组个训练样本,每个样本具有输入和正确输出,其中。对于每个输入,学习系统预测一个输出,其中输出函数取决于NN的架构及其权重。学习的目标是找到权重参数以最小化预测输出与正确输出之间的差异,该差异由整体损失函数(或能量函数)表征:
其中是与之间的距离度量。一个典型的距离度量是交叉熵。具体来说,在SGD中迭代时权重的变化为:
其中是学习率,表示迭代时使用的随机minibatch。minibatch损失函数(MLF)为minibatch的大小为时定义为:
其中()标记随机选择的样本。在连续时间近似和保留一阶时间导数项后,我们得到SGD的以下随机偏微分方程:
其中时间和所有时间尺度以minibatch迭代时间为单位。连续时间极限意味着考虑的时间尺度远大于,例如一个周期时间为。方程类似于统计物理中的Langevin方程。第一个项是由整体损失函数支配的确定性梯度下降,对应于物理中的能量函数。第二个项是权重参数依赖的噪声,其平均值为零。
因此,基于SGD的学习过程被视为权重在复杂非凸损失(能量)景观中的随机漫步。SGD学习动态的一个关键问题是噪声项的统计性质。通过假设训练样本是独立的随机样本,可以推导出噪声项的自相关函数。具体来说,噪声的协方差矩阵为:
其中表示minibatch样本的统计平均。根据协方差矩阵,噪声项在高损失区域(远离最小值)的平均值比在低损失区域(接近最小值)的平均值更大。这表明SGD动态倾向于探索更平坦的最小值区域,从而可以解释SGD在训练DNNs中找到具有良好泛化性的解的经验观察。
4.2 泛化与损失景观的几何结构
过参数化神经网络的泛化行为是机器学习中的一个基本问题,近年来在物理学社区中得到了广泛研究。通过统计物理学的方法和概念,研究人员对神经网络的损失景观几何结构及其与泛化之间的关系进行了深入研究。
损失景观的几何结构可以通过分析损失函数的Hessian矩阵来理解。Hessian矩阵是损失函数对参数的二阶偏导数矩阵,其本征值谱包含了关于损失景观曲率的重要信息。在Hessian矩阵的本征值谱中,较大的正本征值对应于损失函数的陡峭方向,而较小的正本征值对应于平坦方向。研究表明,SGD倾向于找到具有较小Hessian本征值的平坦最小值区域,从而导致更好的泛化性能。
一个有趣的研究方向是探讨不同优化算法在损失景观中的动态行为。与SGD不同,全批量梯度下降(GD)方法在损失景观中没有随机元素,因此更容易陷入陡峭的局部最小值,导致较差的泛化性能。相比之下,SGD的随机噪声使其能够逃离局部最小值,并找到更平坦的全局最小值区域。
4.3. 来自现实神经网络和真实神经元的启发。
如上所述,人工神经网络受益于两门自然科学学科,即神经科学和统计物理学。然而,除了最初从神经科学中汲取的灵感(体现在 McCulloch-Pitts 神经元和分层前馈神经网络(感知器)架构中)之外,DLNN 中并没有融入太多神经科学见解。尽管本期特刊主要讨论物理学和机器学习之间的相互影响,但对神经科学产生的新概念的需求比以往任何时候都更大。DLNN 的几个特定限制架构方面可以从更强大的神经科学原理基础中受益。例如,深度学习的成功主要局限于静态任务和静态数据集,而且需要大量明确标记的数据。由于许多研究人员已经注意到生物大脑能够完美地适应动态环境中的动态任务,我们认为,更好地理解大脑如何执行动态任务将带来新概念,从而推动 ML 在这些任务上的表现得到改善,这是合理的。新的脑启发算法可能来自于探索大脑的实际计算与 DLNN 算法和架构之间的重大差异。在本期特刊中,Haim Sompolinksy 等人 ( 85 ) 提出了一种新颖的视角,并在表征和泛化方面对人工神经网络和脑神经网络进行了深入比较。
除了表征和泛化之外,我们还列出了人工网络和脑网络之间的另外两个区别,希望能够激发未来的研究,因为它们都可以用前面章节概述的基于物理的方法来研究:
•
大脑通过局部学习规则和少量监督进行学习。首先,DLNN 主要关注监督学习,其中有明确的标签表示给定输入模式的正确输出,而大脑似乎很少进行监督学习。相反,理论和实验数据表明神经学习主要采用无监督、时间预测和强化学习 (RL) 技术。在算法层面,DLNN 中的学习是通过反向传播进行的,这是一种全局学习规则,而大脑中的学习是通过局部学习规则(如赫布规则)实现的。
•
大脑高度动态,并不断与环境互动。大多数 DLNN 使用静态前馈架构,或者具有导致静止状态的松弛特性。相比之下,大脑表现出由大量循环连接促成的复杂动态行为(例如,不同的大脑节律/振荡)。此外,当前的 DLNN 几乎专门用于静态感知任务,而大脑的首要目的是与环境一起在持续的感知-动作循环中产生行为。
5. 总结
机器学习与物理学的结合为科学研究和技术进步开辟了新的前沿。通过利用物理学中的理论概念和方法,研究人员能够更深入地理解机器学习的动态行为和泛化性能,从而推动更加高效和稳健的机器学习算法的发展。与此同时,机器学习在物理学中的应用也展示了其在处理复杂系统和大规模数据分析方面的巨大潜力。未来的研究将继续探索这一双向互动的广阔领域,为科学和技术带来更多创新和突破。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!