物理学与深度学习:2024年诺贝尔物理学奖介绍

百科   2025-01-31 08:03   北京  

|者:唐泽宸 段文晖 徐勇

(清华大学物理系)

本文选自《物理》2025年第1期








摘要   2024年诺贝尔物理学奖授予神经网络相关的研究工作,充分肯定了以人工神经网络为代表的深度学习方法在多学科交叉前沿中的变革性影响。物理学家约翰·霍普菲尔德与“AI教父”杰弗里·辛顿因其在人工神经网络发展史上的杰出贡献荣膺此奖,引发了学术界的广泛关注与深入讨论。文章将从物理学研究者的视角,解读两位诺奖得主的代表性研究成果,探讨物理学与深度学习的紧密联系,分析物理学在推动深度学习发展中的启示性作用。并以深度学习与第一性原理计算方法的结合为例,展望深度学习对物理学未来发展的深远影响。


关键词  诺贝尔物理学奖,神经网络,深度学习,统计物理,第一性原理计算,人工智能驱动的材料发现



01
 
引 言

2024年,诺贝尔物理学奖与化学奖同时授予了深度学习相关的研究工作,引发了关于“自然科学AI元年”的热烈讨论。其中,理论物理学家约翰·霍普菲尔德(John Hopfield)与“AI教父”杰弗里·辛顿(Geoffrey Hinton)因其在人工神经网络发展史上的重大贡献,荣膺诺贝尔物理学奖(图1)。尽管大语言模型等人工神经网络应用正在深刻重塑人们的生活,但将诺贝尔物理学奖颁发给此领域的研究者仍然引发了广泛关注与争议。

图1 2024 年诺贝尔物理学奖得主约翰·霍普菲尔德(John Hopfield,左)和杰弗里·辛顿(Geoffrey Hinton,右)


在当前的主流学科划分中,人工神经网络通常属于计算机科学范畴。神经网络是人工智能(artificial intelligence,AI)领域的重要研究方法,其旨在模拟人类大脑的运作方式。神经网络的基本组成单元是“神经元”,每个神经元接收来自其他神经元的信号,加权相加并经过非线性激活函数后,得到输出信号,并进一步作为输入提供给其他神经元。在传统计算方法中,算法通常固定;而神经网络所属的机器学习方法中,算法包括大量可学习参数,通过从大量已有数据进行训练、优化参数,改进算法的精度,从而实现目标计算结果的预测。神经网络方法的发展中,网络架构设计、神经网络训练如何与硬件兼容始终是其核心问题。在神经网络的发展史上,计算机硬件、软件的发展无疑是人工神经网络方法发展的主要推动力[1]

然而,与许多新兴研究领域类似,人工神经网络领域在其发展早期也受到了诸多其他学科的影响,其中主要包括神经科学、生物物理、统计物理等。神经科学是神经网络早期发展的主要灵感来源之一。神经网络的起源之一可以追溯到1943年,神经科学家麦卡洛克(Warren McCulloch)与逻辑学家皮茨(Walter Pitts)共同提出了关于神经元相互作用的数学模型,首次提出类似神经网络的概念[2];1958年,罗森布拉特(Frank Rosenblatt)提出将3层的前馈神经网络用于图片分类,提出了罗森布拉特第一定理[3]。视觉研究领域中有一个神经科学启发神经网络设计的例子:研究人员在1959年通过测量猫的视神经电流,首次发现了视神经的分层结构,启发了后来神经网络应用于图像识别的架构设计[4]。20世纪后半叶,随着计算机硬件技术的发展,利用计算机搭建实用的神经网络也逐渐成为人工智能领域一个受关注的问题。

神经科学为人工神经网络搭建了基本框架与顶层设计,而计算机硬件的发展为人工神经网络提供了“肌肉”和“骨骼”。虽然比重不如上述两个领域,神经网络的发展也受到来自物理学科的重要启发,多种物理知识的引入,为神经网络的数学化、实用化做出了决定性贡献,这些工作一定程度上发挥了早期神经网络“灵魂”的作用。将物理知识融入神经网络设计,启发了多个神经网络架构的提出,其中的两个代表性实例便是霍普菲尔德提出的霍普菲尔德网络与辛顿等人提出的玻尔兹曼机,即本次诺奖授予的主要成果[5,6]。接下来,我们将介绍这些突出成果及其背后的物理知识,回顾物理学家如何推动神经网络发展。


02 
霍普菲尔德与霍普菲尔德网络

霍普菲尔德出生于1933年,1958年获得康奈尔大学物理学博士学位,此后先后供职于贝尔实验室、加州大学伯克利分校、加州理工大学,以及普林斯顿大学。本次获奖前,霍普菲尔德已被公认为知名的理论物理学家。1969年,霍普菲尔德因在发光二极管中的杰出贡献,获得美国物理学会凝聚态物理最高奖“巴克利奖”。随后,霍普菲尔德转向生物物理领域,并成为这一新兴交叉学科的开拓者之一。因其跨领域的杰出贡献,霍普菲尔德在2001年荣获“狄拉克奖”。在他取得的诸多学术成就中,发明“霍普菲尔德网络”是影响最为深远的成果之一。尽管霍普菲尔德网络并非最早的人工神经网络,但其创新性地将物理概念融入神经网络的基本设计,是人工神经网络数学基础建立的里程碑式工作。

霍普菲尔德在生物物理领域的早期研究与神经科学并无直接联系。机缘巧合下,霍普菲尔德被邀请参加麻省理工学院的“神经科学研究项目”(Neuroscience Research Program),开始接触最前沿的神经科学。在交流过程中,霍普菲尔德深感当时的神经科学缺乏必要的数学基础,例如缺乏对复杂生物过程“收敛性”的数学描述。霍普菲尔德选择从一个神经科学中基本且重要的具体问题——联想记忆入手,尝试对这一过程进行数学化。联想记忆是人类记忆的通常模式,其工作原理有别于传统计算机基于逐个比对的查找方法,而有一定的“联想”功能,比如:我们看到一个人时,很容易想起他的名字。联想记忆还具有从不完整或模糊的输入出发,找到记忆存储相关内容的功能。霍普菲尔德回忆:联想记忆具有双向特性,这与双向连接的网络有相似性,进而启发他联想到凝聚态物理中常见的自旋物理模型[7]。通过引入与自旋哈密顿量形式类似的“霍普菲尔德能量函数”,他发明了霍普菲尔德网络,优美地解决了联想记忆数学化的问题,为研究这一复杂系统的收敛性提供了坚实的数学基础。

图2 霍普菲尔德网络与联想记忆[8]。在霍普菲尔德网络架构中,神经元s通过对称的权重w两两相连,共同定义了霍普菲尔德能量函数。霍普菲尔德网络从模糊或缺失的输入出发,通过优化霍普菲尔德能量函数(红色轨迹),更新神经元状态,找到霍普菲尔德函数预先存储的能量极小点,即存储的记忆点

霍普菲尔德网络的架构十分简单,如图2所示[8]。该网络由若干神经元构成,神经元之间两两连接。每个神经元允许处在状态si=1或者si=-1,神经元之间的链接具有对称的权重wij=wji。霍普菲尔德网络的精髓在于霍普菲尔德能量函数,它的定义为:。霍普菲尔德能量函数记录了神经元之间的关系:以使得能量E较小为目标,若wij为正,则sisj倾向于同号,若wij为负,则sisj倾向于反号。这一能量函数形式无疑受到了凝聚态中自旋模型的启发:神经元与电子自旋均有两种可能的取值、神经元之间与自旋之间均有耦合作用项,霍普菲尔德能量函数形式上也完全类似于伊辛自旋模型的哈密顿量[7]。霍普菲尔德网络的灵魂便是霍普菲尔德能量函数,其与训练、预测和最小化这一能量函数的过程与网络密切相关。

霍普菲尔德网络将联想记忆编码入霍普菲尔德能量函数对应的势能面中,利用能量函数的局部极小值点存储记忆。联想记忆的一个关键特性是:对于模糊或缺失的输入,联想记忆机制能唤起存储的“类似”记忆。对应到霍普菲尔德能量函数,能量函数存储的局部极小值点正对应于预先“存储”的记忆。每个极小值点构成势能面上的一个“吸引子”:对于这个极小值点附近的输入,通过改变神经元状态、优化霍普菲尔德能量函数,即可找到对应的极小值点。这一过程可类比于联想记忆的自动纠错或补全,以找到类似记忆的过程。霍普菲尔德网络的训练目标是构建具有局部极小值点的势能面,即优化wij,使得霍普菲尔德能量函数的样貌可以编码我们关心的记忆内容。赫布训练定律为霍普菲尔德网络的训练提供了理论基础[9]。运用霍普菲尔德网络进行联想记忆模拟时,则固定wij,通过改变si来优化能量函数,以找到霍普菲尔德能量函数存储的、位于输入附近的记忆点(极小值点)。在更新过程中,霍普菲尔德网络根据所有wijsj的数值,通过的符号,判断是否需要改变si的状态,这一更新过程总能保证霍普菲尔德能量函数不变或降低,从而使其收敛性得到了保障。当变更所有的si均不能使得霍普菲尔德能量函数降低时,神经元更新停止,停止的状态对应于霍普菲尔德能量函数的局部最小。一个利用霍普菲尔德网络,从模糊的输入出发,寻找相似记忆的例子如图2所示。以上,以霍普菲尔德能量函数为核心,霍普菲尔德网络开创性地完成了对联想记忆的数学化。值得一提的是,尽管霍普菲尔德网络是最具影响力的同类工作,类似的想法也被其他科学家独立提出,如日本科学家甘利俊一(Shun-Ichi Amari)早在1972年便提出了类似架构[10]

除了联想记忆,霍普菲尔德网络还被应用于一些其他场景。一些研究将其应用于解决实际问题,如旅行商问题[11]。近年来,霍普菲尔德网络还以“现代霍普菲尔德网络”的形式被重新发掘,其保留了霍普菲尔德网络的设计思路,并融入了更先进的神经网络架构,产生了广泛影响[12]。然而与具体应用相比,霍普菲尔德网络最主要的成功还在于其首次引入能量函数的概念,使得神经网络收敛性这一过去被认为极难研究的问题成为了可能。此研究不仅处理了联想记忆这一广为关注的具体问题,还为后续更先进的神经网络架构,如玻尔兹曼机的发明铺平了道路。


03 
辛顿与玻尔兹曼机

辛顿生于1947年,1978年获得爱丁堡大学人工智能博士学位,现任教于多伦多大学。辛顿是人工智能领域的先驱之一,有“AI教父”的美誉,曾获2018年计算机科学最高奖“图灵奖”。辛顿对人工智能,特别是神经网络中许多现在广为人知的技术,包括反向梯度传播、Dropout策略、混合专家模型、自编码器、图像识别等方法或领域的早期发展均有重要贡献[13—16],其中一些正是日后构建“大语言模型”涉及的关键技术。本次诺奖辛顿主要的获奖原因是提出玻尔兹曼机(Boltzmann machine)与受限玻尔兹曼机(restricted Boltzmann machine)的架构或训练规则,并将这些架构推向实用[6,17]。虽然当前已有更先进的神经网络设计,但玻尔兹曼机的发明无疑是神经网络发展史上的标志性突破之一。

辛顿和霍普菲尔德的学生谢泽诺斯基(Terry Sejnowski)是玻尔兹曼机的主要发明者,玻尔兹曼机是在霍普菲尔德网络基础上一种重要的改进架构。与霍普菲尔德网络相比,玻尔兹曼机保留了霍普菲尔德能量函数的概念,但与霍普菲尔德网络具有确定性的神经网络采样过程不同,玻尔兹曼机的采样过程是随机的。霍普菲尔德网络的神经元状态si的更新完全基于其接收信号的符号,而玻尔兹曼机则是一个随机过程:如果为正,则si在更新后“更可能”取值为+1;越大,si更新后取值为+1的几率越大。在霍普菲尔德网络中,由于更新过程确定,因此确定的输入将得到确定的输出;在玻尔兹曼机中更新过程随机,在随机更新无数轮后,将达到统计力学中的平衡分布,这种分布正是霍普菲尔德能量函数对应的玻尔兹曼分布,即处在一个状态{si}的几率正比于e-βE[{si}],其中,E[{si}]是状态对应的霍普菲尔德能量,是预先选定的参数。随机更新使玻尔兹曼机有两个明显特征:(1)玻尔兹曼机可以输出某种概率分布,如图3所示,比最初“联想记忆”的输出更为丰富;(2)玻尔兹曼机基于随机更新神经元的过程,根据统计力学的各态历经假设,无论初始处于何种状态,经过足够长时间的采样后,其概率分布总可以达到玻尔兹曼分布对应的平衡统计分布[18]

图3 霍普菲尔德能量函数对应的玻尔兹曼分布。玻尔兹曼机通过随机更新神经元状态得到平衡的随机分布,即玻尔兹曼分布

在辛顿的设计中,玻尔兹曼机网络结构与霍普菲尔德网络也略有不同。玻尔兹曼机的神经元仍然全连接,但分为“可见”与“隐藏”神经元。玻尔兹曼机的主要用途之一是建模概率分布,而数据集对应于“可见”神经元上的一系列数据点。“隐藏”神经元的状态并不被数据集标注,但这些神经元的存在有助于增强玻尔兹曼机的表达能力。玻尔兹曼机的采样过程依赖于不断随机更新神经元状态,最终达到玻尔兹曼平衡分布。训练玻尔兹曼机的目的是使其输出的分布尽量接近数据集的数据分布。辛顿与学生在后续工作中,很快提出了训练玻尔兹曼机的实际方法[6]

虽然框架简洁优美,且表达能力强大,但玻尔兹曼机的实用仍面临巨大挑战,这一挑战来源便是训练的消耗。玻尔兹曼机的训练与统计力学中非平衡态到平衡态的演化过程类似,而随着神经元数目的增大,达到热平衡所需的步数迅速增加,使得具有较多参数的玻尔兹曼机几乎无法训练,这使辛顿也一度认为玻尔兹曼机很难付诸实用。转机出现在2002年,辛顿和学生发现如果简化玻尔兹曼机的架构,将使得训练过程大大简化,这一简化的架构被命名为“受限玻尔兹曼机”,对应的训练方式是“对比分歧”(contrastive divergence)算法[17]。在受限玻尔兹曼机中,可见神经元与隐藏神经元之间互相连接,但可见神经元与可见神经元、隐藏神经元与隐藏神经元之间并无连接。由于信息单向传递,因此在训练过程中,不再需要使得神经元状态达到热平衡即可进行训练,极大地提升了训练效率。辛顿和合作者随后还发现:通过增大隐藏神经元的层数(将受限玻尔兹曼机堆积若干次),并结合反向传播技术进行训练,可以进一步增强神经网络的表达能力与训练效果[19]

解决了训练消耗这一棘手问题后,受限玻尔兹曼机逐渐迈向各个应用领域,取得了广泛的成功,给神经网络研究注入了新的活力。辛顿研究组在将玻尔兹曼机推向实用方面同样是先驱,如将其应用于语音识别领域,并很快超越了已有算法[20]。物理学家广泛熟悉玻尔兹曼机大多是在2017年,来自苏黎世联邦理工的研究者利用受限玻尔兹曼机构造了神经网络量子态,并用于复杂自旋模型基态波函数的求解,也是玻尔兹曼机泛用性的一个实证[21]尽管后来被其他网络架构逐渐取代,玻尔兹曼机的许多设计思想与概念,如预训练、生成模型、反向梯度传播等,仍深刻地影响着如今的深度学习领域。


04 
从Physics for AI到AI for Physics

总结本次诺奖涉及的两个工作,可以看到物理知识确实在人工神经网络的发展过程中发挥了重要作用。(1)无论是霍普菲尔德网络还是玻尔兹曼机,均基于霍普菲尔德能量函数;(2)虽然网络架构有所不同,但霍普菲尔德能量函数的形式均基于自旋哈密顿量,类似于伊辛自旋模型;(3)霍普菲尔德网络通过引入霍普菲尔德能量函数,首次为神经网络这一复杂系统的收敛性提供数学基础,玻尔兹曼机则借助统计物理中玻尔兹曼分布的概念,对霍普菲尔德网络的应用场景进行了广泛的推广。这些由物理知识启发的神经网络突破进一步激发了更多现代化的神经网络设计。本次诺贝尔物理学奖发布时,一度引起广泛讨论,通过上面的介绍,虽然仍会有争议,但我们也能看到物理学家和物理知识确实曾为神经网络的早期发展做出奠基性贡献。或许2018年图灵奖得主、辛顿的博士后杨立昆(Yann LeCun)的评价能代表未来很长一段时间内的主流观点:由于霍普菲尔德是生物物理学家、辛顿的玻尔兹曼机又以统计物理中的核心概念命名,因此如此授予诺贝尔物理学奖“一定程度上是合理的”。

本次诺贝尔奖的授予对于AI领域的意义或许可以从AI发展史中窥见一二。AI历史中有两次较为公认的“AI寒冬”,分别发生在20世纪70年代与90年代。虽然略有争议,但霍普菲尔德网络与受限玻尔兹曼机的发明分别是AI走出两次寒冬的标志性事件,重新为AI领域注入了活力。受限玻尔兹曼机引发的人工智能技术高速发展一直延续至今,21世纪10年代开始的时期也被称为“AI春天”,见证了图像识别、语音识别、自然语言处理、生成式AI(如ChatGPT)等领域的一系列重大突破。

随着人工神经网络的不断发展,这个在发展早期受到自然科学极大启发的方法,也开始反过来影响自然科学的诸多领域,这一新兴研究方法也被称为“AI for Science”(AI4S)。美国科技巨头谷歌旗下的DeepMind公司是AI4S的一个代表性研究机构。DeepMind创立于2010年,第一次进入大众视野是在2016年推出AlphaGo围棋机器人[22]。紧接着,DeepMind进军AI4S领域,在研究蛋白质折叠这一问题中取得了巨大成功,自2018年起先后推出了AlphaFold、AlphaFold2和AlphaFold3模型,其中AlphaFold2展现出相比传统方法的精度优势,并在2024年获颁诺贝尔化学奖,标志着AI4S领域得到了自然科学界的广泛认可[23,24]

尽管人工神经网络功能强大,然而不同科学问题适用于深度学习的程度也有所不同。2024年诺贝尔化学奖得主、DeepMind创始人兼CEO哈萨比斯(Demis Hassabis)对何种科学问题适用于AI4S有精辟的总结,归纳为三点:(1)问题需要有高维、复杂的搜索空间——神经网络适合解决复杂的问题,反而难以处理简单的问题;(2)问题需要有明确的优化目标函数——如霍普菲尔德能量函数的引入正是神经网络的首次数学化;(3)问题需要有大量现有数据或高效的数据产生器——例如AlphaFold处理的蛋白质折叠问题长期受科学界关注,已经积累了“蛋白质数据银行”等海量数据。

在AI4S的各个子领域中,AI与物理学科的结合展现出极高的研究价值与科学意义。AI与理论、实验、计算物理均有结合:以符号回归为代表的人工智能方法在挖掘物理规律、推进理论前沿方面有显著的初步进展[25];基于人工智能技术的自动化实验流程则是实验科学的方法前沿之一,在一些场景下展示出远超传统人工实验手段的效率优势[26]。按照哈萨比斯提出的科学问题与AI适配性的总结,计算物理与AI的结合较为自然。计算物理学一般旨在求解形式复杂、参数空间大、解析求解困难的物理问题,问题复杂性较高;计算物理的计算流程稳定,计算目标量明确;计算物理涉及大量数值模拟,其中蕴含丰富的底层数据。基于这些特性,在AI4S研究中,AI与计算物理的结合占据重要地位。以下,本文将介绍神经网络技术与计算物理结合的实例。


05 
深度学习与第一性原理计算

第一性原理计算方法指的是不依赖于经验参数,基于量子力学基本原理,数值求解物理性质的方法[27]。以密度泛函理论(density functional theory,DFT)为代表的第一性原理计算方法能对材料体系的电子结构进行数值模拟,从而实现对材料物性的高通量、高精度预测,是材料设计中的一种不可或缺的研究手段[28]。尽管取得巨大成功,DFT方法的发展仍面临挑战:受限于计算量,DFT在大尺度或高通量材料计算中的应用较为受限,限制了其更广泛的应用。如何在维持精度的前提下提升DFT的效率是计算物理领域的重大挑战问题,近年来,相关算法的进展多次获得高性能计算最高奖“戈登·贝尔奖”[29—31]。然而,传统算法发展往往面临精度与效率难以兼得的困境,即更高效的算法往往以部分牺牲精度为代价[32]

以神经网络为代表的AI技术为第一性原理计算方法的发展引入了新的机遇。第一性原理计算的目的在于构建材料—物性映射关系,即给定材料结构,预测其物理性质。得益于神经网络的海量参数与强大表示能力,神经网络有望高精度学习这一关系,从而跳过耗时的第一性原理计算数值模拟过程,实现物理性质的高效预测。这类AI与第一性原理计算交叉研究的目标可以归纳为:在维持第一性原理精度的前提下,开发具有效率优势的深度学习第一性原理计算方法。这类研究中,较早开始、也是目前备受关注的问题是利用深度学习建模材料结构到能量(与受力)的映射关系。此类研究也被称为深度学习力场,即用神经网络建模分子或固体材料的势能面,并基于这一神经网络势能面提供的能量与受力信息,开展高效的分子动力学等模拟,从而研究其原子结构层面性质[33]。利用神经网络建模力场的研究可以追溯到近20年前,后来随着神经网络技术的爆发式发展,深度学习力场领域蓬勃发展,涌现出DeepMD、NequIP、Equiformer等由国内外研究者开发的深度学习力场方法[34—36]。通过预测材料的形成能,深度学习力场还可以辅助判定材料稳定性,从而加速材料搜索与发现,其代表性工作如DeepMind开发的GNoME框架,结合材料搜索与深度学习力场发现了220万种稳定或亚稳的全新晶体结构,极大地扩充了材料数据库[37]。2024年10月,美国Meta公司下属研究团队通过第一性原理计算,结合深度学习力场加速采样等手段,构建了包含超过1亿个材料结构的大型数据集OMat24,是迄今为止公开的规模最大的深度学习力场训练数据集[38]

图4 深度学习哈密顿量(DeepH)原理示意图。该深度学习方法旨在建立材料结构—DFT哈密顿量的映射关系。传统DFT通过复杂的数值模拟建立这一映射(灰色箭头),DeepH方法则利用神经网络从数据中学习这一映射,从而实现对哈密顿量的高效预测(蓝色箭头)。得到的DFT哈密顿量经过后处理计算,即可得到多样化的电子结构性质

深度学习原子结构使得神经网络加速原子间作用的计算模拟成为可能,这类方法目标明确、数学形式简洁、应用广泛。然而,许多我们关心的物性还与电子结构有关。于是与此同时,另一个新兴AI+第一性原理计算的研究领域,即深度学习电子结构也正在兴起。其中的一类代表性研究方法,深度学习DFT哈密顿量方法(deep learning DFT Hamiltonian,DeepH),通过学习电子结构的核心物理量——DFT哈密顿量,实现通用的电子结构性质预测,其原理如图4所示[39]。与直接预测物理性质相比,预测DFT哈密顿量具有以下优势:(1)更通用。对DFT哈密顿量进行后处理计算,可以高效地得到任意电子结构性质(也包括能量、受力的计算),即用一个神经网络实现所有DFT框架下的物理性质预测;(2)数据量充足。相比每个材料只有一个或几十个数据的能量、受力或特定性质,即使是水分子这样的小结构,也包含了数百个哈密顿量矩阵元数据,充足的数据使对应的深度学习任务极具优势;(3)可泛化性好。哈密顿量具有量子近视性等物理先验,具备从小体系泛化到大体系的独特能力,从而可以在小结构上训练DeepH、在大结构上进行预测,进一步压缩构造数据集的计算消耗。

DeepH理论框架在2021年初提出[40],其神经网络模型表现出高精度预测能力与极强的泛化能力,展现出取代传统计算程序的潜力[39]。经历了近4年的发展,DeepH神经网络架构多次迭代、神经网络性能不断提升、面向的物理问题也逐渐多样化。DeepH方法采用建模材料结构时最为常用的图神经网络架构[41]:将原子、原子对分别映射为图神经网络的节点和边,分别承载一部分神经网络特征;通过与附近的其他节点、边进行消息传递,神经网络特征得以更新,并逐渐获得更远处原子的结构信息,最终用图神经网络的边特征构造原子对之间的哈密顿矩阵元。DeepH网络的设计宗旨是在神经网络设计中充分利用物理先验:根据科恩(Walter Kohn)提出的“量子近视性原理”,材料中原子对之间电子跃迁的有效哈密顿量只与局域原子结构有关[29]。图神经网络的消息传递只在近邻原子或原子对之间发生,从而很好地兼容了这种空间上的近视性。DFT哈密顿量作为原子结构的函数具有协变性,即在材料结构发生平移、旋转、空间反演等操作下,哈密顿量的变换关系确定。DeepH架构采用了AI+材料学研究中常用的“等变网络”架构处理此协变性,进一步利用物理先验提升了神经网络表达能力[42,43]。在哈密顿矩阵元预测方面,DeepH在多种数据集中均可达到或超越毫电子伏特精度,预测能带结构、电极化率、位移电流等性质时也展现出与DFT训练程序的高度吻合,并被先后拓展到自旋—轨道耦合体系[43]、磁性体系电子结构模拟[44]、更精确的第一性原理计算方法(杂化密度泛函)[45]、BCS超导体计算模拟[46]等丰富的物理问题与应用场景中。DeepH系列研究中提出了以DFT哈密顿量为AI+电子结构研究的核心目标量这一研究范式,并实现了在神经网络设计中体现近视性与协变性等物理先验的设计原则。这一框架的物理意义被学术界广泛认可,在有关综述文章中被评价为AI+DFT领域的“开创性的”(groundbreaking)进展[47]。基于类似原理,国内外研究组发展出包括PhiSNet、HamGNN、QHNet等多种预测DFT哈密顿量的AI+第一性原理计算程序包[48—50]

伴随着“大语言模型”的成功,材料科学领域也开始关注:能否构建通用性强、适用于各种性质预测任务的“材料大模型”?为实现此目标,“材料大数据”必不可少。DeepH方法通过建模电子哈密顿量这一基本物理量,充分发掘DFT计算中蕴含的海量底层数据,为“材料大模型”奠定了数据基础。随着DeepH网络架构的发展,适用于更广泛材料、覆盖元素周期表多种元素的DeepH模型(DeepH通用材料模型)成为了可能,有望应用于建模普适的材料构效关系。DeepH通用材料模型不仅可用于预测DFT哈密顿量,还可以作为高效的物性数据产生器,加速乃至取代传统DFT计算程序,促进“材料大数据”和“材料大模型”的构建。以DeepH通用材料模型为基础,我们有望实现AI驱动材料研究范式:(1)用生成式AI产生大量候选材料结构;(2)利用DeepH通用材料模型进行高通量、高效率、高精度功能材料筛选;(3)结合高通量自动化的实验技术,对性能优异的筛选材料进行实验验证。此流程将在各个环节充分融入AI技术,实现材料研究的全面加速与革新。在近期研究中,DeepH团队初步验证了开发DeepH通用材料模型的可行性,构建了覆盖元素周期表前4个周期上万种材料的DeepH通用材料模型,哈密顿矩阵元预测精度可达毫电子伏特级别,并可精确预测多种电子结构性质。此成果表明,基于DeepH方法构建“材料大模型”的愿景已初现曙光[51]


06 
总结与展望

本文从2024年诺贝尔物理学奖入手,介绍了有关神经网络研究的物理基础以及后续发展。从诺贝尔奖授予的两个代表性工作,即霍普菲尔德网络、玻尔兹曼机中,我们能清楚地看到物理知识如何促进神经网络的突破性发展。正如霍普菲尔德在诺奖讲座中的结束语,其特别感谢了“其他领域研究者进行交叉研究的专家们”。自2021年诺贝尔物理学奖颁发给复杂物理系统有关研究后,2024年的诺贝尔奖被再次授予神经网络这一交叉性质浓重的研究领域,或许预示着跨领域交叉合作是21世纪科学研究的主流之一。

着眼于神经网络本身,我们也能看到其不仅深刻改变着我们的生活方式,也反过来影响了包括物理学科在内的科研领域,各种AI4S交叉领域高速发展,展现出全新的发展契机。以AI+第一性原理计算领域为例,在算法改进、融入物理先验等考量的共同推进下,深度学习第一性原理计算展现出维持精度、提升效率的能力,为实现人工智能驱动的高通量材料筛选、材料发现提供了全新的路径。展望未来,这一全新的材料发现范式有望发现更丰富的功能材料,从而进一步推动计算机硬件、能源领域、量子信息等领域的发展,乃至再次反哺AI领域,实现人工智能—物理发现相互促进的良性循环。


参考文献

[1] LeCun YBengio YHinton G. Nature2015521436

[2] McCulloch W SPitts W. Bull. Math. Biophys.19435115

[3] Rosenblatt F. Psycholog. Rev.195865386

[4] Hubel D HWiesel T N. J. Physiol.1959148574

[5] Hopfield J J. Proc. Natl. Acad. Sci. USA1982792554

[6] Ackley D HHinton G ESejnowski T J. Cogn. Sci.19859147

[7] Amit D JGutfreund HSompolinsky H. Phys. Rev. A1985321007

[8] Popular Science Background. the Nobel Prize in Physics 2024.https://www. nobelprize. org/uploads/2024/11/popular-physicsprize2024-3.pdf

[9] Hebb D. The Organization of Behavior. A Neuropsychological Theory. Wiley1949

[10] Amari S I. IEEE Transac. Comput.19721001197

[11] Hopfield J JTank D W. Biol. Cybern.198552141

[12] Ramsauer HSchäfl BLehner J et al. 2020arXiv2008.02217

[13] Nowlan SHinton G E. Evaluation of Adaptive Mixtures of Competing Experts. InAdv. Neural Inf. Process. Syst.31990

[14] Srivastava NHinton GKrizhevsky A et al. J. Mach. Learn. Res.2014151929

[15] Hinton G ESalakhutdinov R R. Science2006313504

[16] Krizhevsky ASutskever IHinton G E. Adv. Neural Inf. Process. Syst.2012251106

[17] Hinton G E. Neural Comput.2002141771

[18] Tierney L. Ann. Statist.1994221701

[19] Salakhutdinov RHinton G. Deep Boltzmann Machines. InArtificial intelligence and statistics. PMLR2009. p.448

[20] Jaitly NHinton G. Learning a Better Representation of Speech Soundwaves using Restricted Boltzmann Machines. In2011 IEEE International Conference on AcousticsSpeech and Signal

Processing (ICASSP). IEEE2011. p.5884

[21] Carleo GTroyer M. Science2017355602

[22] Silver DHuang AMaddison C J et al. Nature2016529484

[23] Jumper JEvans RPritzel A et al. Nature2021596583

[24] Abramson JAdler JDunger J et al. Nature20241

[25] Udrescu S MTegmark M. Sci. Adv.20206eaay2631

[26] Burger BMaffettone P MGusev V V et al. Nature2020583237

[27] Martin R M. Electronic StructureBasic Theory and Practical Methods. Cambridge university press2020

[28] Kohn WSham L J. Phys. Rev.1965140A1133

[29] Kohn W. Phys. Rev. Lett.1996763168

[30] Das SKanungo BSubramanian V et al. Large-scale Materials Modeling at Quantum AccuracyAb Initio Simulations of Quasicrystals and Interacting Extended Defects in Metallic Alloys. InProceedings of the International Conference for High Performance ComputingNetworkingStorage and Analysis. 2023. p.1

[31] Stocks RVallejo J L GYu F C et al. Breaking the Million Electron and 1 EFLOP/s BarriersBiomolecular-Scale Ab Initio Molecular Dynamics Using MP2 Potentials. InProceedings of the International Conference for High Performance Computing

NetworkingStorageand Analysis. 2024. p.1

[32] Perdew J PSchmidt K. Jacobs Ladder of Density Functional Approximations for the Exchange-correlation Energy. InAIP Conference Proceedings. American Institute of Physics2001. p.1

[33] Behler JParrinello M. Phys. Rev. Lett.200798146401

[34] Zhang LHan JWang H et al. Phys. Rev. Lett.2018120143001

[35] Batzner SMusaelian ASun L et al. Nat. Commun.2022132453

[36] Liao Y LWood B MDas A et al. EquiformerV2Improved Equivariant Transformer for Scaling to Higher-Degree Representations. Inthe Twelfth International Conference on Learning

Representations

[37] Merchant ABatzner SSchoenholz S S et al. Nature202362480

[38] Barroso-Luque LShuaibi MFu X et al. 2024 arXiv 2410.12771

[39] Li HWang ZZou N et al. Nat. Comput. Sci.20222367

[40] Li HWang ZZou N L et al. 2021arXiv2104.03786

[41] Xie TGrossman J C. Phys. Rev. Lett.2018120145301

[42] Geiger MSmidt T. 2022arXiv2207.09453

[43] Gong XLi HZou N et al. Nat. Commun.2023142848

[44] Li HTang ZGong X et al. Nat. Comput. Sci.20233321

[45] Tang ZLi HLin P et al. Nat. Commun.2024158815

[46] Li HTang ZFu J et al. Phys. Rev. Lett.2024132096401

[47] Mortazavi B. Adv. Energy Mater.20242403876

[48] Unke OBogojeski MGastegger M et al. Adv. Neural Inf. Processing Syst.20213414434

[49] Zhong YYu HSu M et al. npj Comput. Mater.20239182

[50] Yu HXu ZQian X et al. Efficient and Equivariant Graph Networks for Predicting Quantum Hamiltonian. InInternational Conference on Machine Learning. PMLR2023. p.40412

[51] Wang YLi YTang Z et al. Sci. Bull.20246930

(参考文献可上下滑动查看)


END


更多精彩文章请点击下面“蓝字”标题查看:


《物理与工程》期刊是专注于物理教育教学研究的学术期刊,是中国科技核心期刊,1981年创刊,欢迎踊跃投稿,期刊投审稿采编平台:

http://gkwl.cbpt.cnki.net


欢迎关注

《物理与工程》微信公众号


物理与工程
《物理与工程》期刊由教育部主管,清华大学主办,教育部大学物理教指委直接领导,主编是王青教授。主要发表物理教育教学研究论文以及物理与工程中的学术论文,是中国科技核心期刊,1980年创办,1981年创刊。
 最新文章