诺贝尔物理学奖
Nobel Prize 2024
2024年10月8日,瑞典皇家科学院郑重宣布,2024年诺贝尔的物理学奖将被授予给美国普林斯顿大学的约翰·霍普菲尔德(John J. Hopfield)和加拿大多伦多大学的杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们“为推动利用人工神经网络进行机器学习作出的基础性发现和发明”。两位获奖者将平分1100万瑞典克朗(约合745万元人民币)奖金。
虽然2024年诺贝尔物理学奖的公布已过去一个月,但其深远的影响仍在持续发酵。为了进一步挖掘这一重要科学成就的内涵,北京大学、复旦大学、中国科学技术大学、南京大学、清华大学(PFUNT)五所高校物理学系研究生会决定邀请五校相关专业的博士生共同讨论本次物理学历史上里程碑式的事件。五校研会希望通过本次活动促进校际学术交流,通过多维度视角的探讨来深化同学们对新时代前沿科学的理解,同时培养博士生们的深度思考和批判性思维能力,激发博士生们对未来科研的热情和责任感。接下来,让我们欣赏邀请嘉宾们的解读和分享吧~
上下滑动阅读
嘉宾一:清华大学 陈泽洲
嘉宾1:
陈泽洲
研究方向:
人工智能辅助的第一性原理算法开发
Topic 1 关于诺奖
2024年诺贝尔物理学奖获奖名单一经公布,便引起物理学界的热烈讨论。其中,Hinton教授在剑桥大学获得实验心理学学士学位,在爱丁堡大学获得人工智能博士学位,并于2018年获得图灵奖,其学术生涯似乎和物理学并无关联。但在仔细查阅官方给出的颁奖理由后,我们可以发现,两位教授的工作都是建立在统计物理的基础上,即利用物理学来寻找信息的模式,在经典物理模型启发下更加有效地处理信息,最终使得神经网络可以模仿人类大脑的功能。如今AI模型走入千家万户,在人脸识别、自动驾驶、辅助创作等方面改善了人们的生活。在感叹神经网络技术为人类社会带来巨大进步的同时,回顾其发展早期的历程,我们更能感受到两位教授做出的巨大贡献,以及物理学为人工智能时代打下的坚实基础。
Hopfield教授的突出贡献是提出了Hopfield网络,仿照人类的联想记忆让神经网络具有记忆功能。Hopfield教授借鉴统计物理中的经典模型伊辛模型,构建出Hopfield网络,其网络的每个节点取值0或1,节点与节点可以相互连接,连边的值为可学习参数,类似伊辛模型中不同格点间的相互作用强度。他用类似于物理学中自旋系统能量的属性来描述网络的整体状态,能量计算依赖于所有节点和连边的值。Hopfield 网络的训练方法是将图像编码输入到节点,然后使用能量公式调整网络的连接,获得具有较低能量值的网络。当输入另一个模式时,则按照某个规则逐个遍历节点,并检查如果该节点的值发生翻转时,网络是否具有较低的能量,是则改变颜色,否则不变。这个过程一直持续到找到能量最低的状态,达到这一状态时,网络通常会重现它所训练的原始图像。Hopfield网络的特别之处在于可以同时保存多个图像,对应于自旋模型的多个量子态,并在输入一个新的图像后,可以迅速找到最接近的稳定态,亦即之前训练过程中最接近新图形的记忆图像,从而实现图像还原的目的。其最广泛的应用在重新创建包含噪声或已被部分删除的数据。
Hinton教授则借助统计力学玻尔兹曼方程中蕴含的概率论思想,提出了玻尔兹曼机。玻尔兹曼机有两种不同类型的节点,其中,信息直接被馈送的节点是可见节点,其他节点形成隐藏层,而连接边的值代表的是条件概率,训练会改变连边的值。使用大量数据训练后,玻尔兹曼机将完成训练,并有这样的特性:当输入训练中可见节点的示例模型时,其标签的输出概率最高。训练好的玻尔兹曼机能够识别它未见过信息中的熟悉特征,当输入一个新的例子时,玻尔兹曼机能够提取特征并分类。现在,玻尔兹曼机通常用作大型神经网络的一部分,完成多种不同的任务,例如,它可以根据观众的喜好推荐电影或电视剧。
两位教授早期的工作都是从基础物理学中受到启发,将相关的物理模型应用于神经网络的设计中。经过近40年的发展,如今的神经网络已经脱胎换骨,有了一系列崭新的架构设计,如CNN,RNN,transformer架构等,在图像识别、自然语言处理等众多领域有广泛的应用。人们自然开始好奇,人工智能的发展是否能促进基础科学的进步呢?今年诺贝尔化学奖授予了DeepMind团队的AlphaFold模型,便是利用神经网络大模型实现快速高效的蛋白质结构预测,推动了结构生物学的发展。而在物理学中,近几年也有越来越多的学者将神经网络融入他们的研究中,例如机器学习力场DeepMD模型,机器学习电子结构DeepH模型,稳定材料生成模型GNoME等。我们认为,未来神经网络会与物理学尤其是计算物理学建立更加深度的结合,极大促进人们对更加复杂体系的探索。我们相信,发源于上世纪中叶的计算物理学,会在近几年内迎来又一次重大变革,充分将神经网络融入到传统计算方法中,催生出新的计算方法,不但有利于计算更大的体系,而且可以有效加快计算速度,提高计算精度。
Topic 2 课题延伸
我所在的清华大学物理系段文晖、徐勇教授课题组,利用自2021年起便使用神经网络驱动凝聚态物理研究,开发出深度学习第一性原理计算方法软件包DeepH-pack。该方法能够从DFT数据中学习,并预测给定材料结构的哈密顿量,从而高效地计算物理性质。随后,我们融入了先进的网络架构——等变神经网络,提出能够正确处理自旋轨道耦合体系的DeepH-E3模型;将磁结构纳入考虑,提出应用于复杂磁结构计算的xDeepH模型;将此方法扩展至DFPT计算中,提出能够获得材料微扰响应性质的DeepH-DFPT模型;构建覆盖元素周期表及大量材料的通用数据库后得到通用材料大模型DeepH-UMM;将深度学习电子结构计算方法推广到平面波基组后,得到能够对接平面波基组的DeepH-PW模型;在算法层面实现了神经网络与密度泛函理论的深度结合后,我们构造了DeepH-Zero模型,使其获得基于物理原理的非监督学习能力;进而我们把DeepH方法推广至杂化密度泛函,得到了将这种高精度第一性原理计算方法应用于大体系、高通量材料计算模拟中的DeepH-hybrid模型……我们相信,未来神经网络会与传统的第一性原理计算方法有更加紧密的结合,进一步发挥神经网络的优势,推动物理学前沿的研究。
上下滑动阅读
嘉宾二:复旦大学 高仕岩
嘉宾2:
高仕岩
研究方向:
机器学习算法辅助第一性原理计算
2024年的诺贝尔物理学奖颁发给了John J. Hopfield与Geoffrey E. Hinton,以表彰他们在神经网络领域的奠基性工作。他们的理论和模型不仅深刻影响了人工智能的发展,还揭示了自然界中能量与记忆的奥秘。让我们一起走进这项精彩的研究,从Hopfield网络到受限玻尔兹曼机(RBM),探寻背后的科学逻辑。
John J. Hopfield于1982年提出了Hopfield网络。其核心思想是通过能量最小化实现模式识别和记忆。Hopfield网络的每个节点(神经元)只能取0或1两种状态,分别代表激活和未激活。节点之间相互连接,连接强度的大小各异,通过训练过程学习这些连接强度,使得网络能够记忆多组数据。Hopfield网络巧妙地定义了节点间连接强度与节点状态的关系,使得训练数据在该网络下满足能量最低状态。这个训练过程可以比作在能量山谷中绘制出山顶、沟壑与谷底,我们的训练数据便存在于各个谷底。当训练完成后,输入新数据时,网络会演化到与这组数据相对接近的某个能量最低状态,而这个状态就代表了“记忆”的数据,类似于从高处滚落的球最终停在某个谷底。这种“记忆”在物理中常被理解为稳定态。Hopfield网络的设计借鉴了物理学中的Ising模型,后者用于描述自旋系统中的相互作用。Hopfield网络为神经网络的研究提供了清晰的理论框架,并证明了神经网络可以通过能量最小化过程实现模式识别和联想记忆。
在Hopfield网络的基础上,Geoffrey Hinton提出了玻尔兹曼机(Boltzmann Machine)与受限玻尔兹曼机(RBM)。最初的玻尔兹曼机网络结构与Hopfield网络非常相似,但与后者不同,玻尔兹曼机没有直接定义节点间连接强度与节点状态的关系,而是通过统计力学中的玻尔兹曼方程中的概率论思想,更好地规定了网络中能量、节点状态与连接强度之间的关系。相比于Hopfield网络,玻尔兹曼机并不再是刻板地进行记忆,而是学习数据的分布规律。由于习得的数据分布,玻尔兹曼机能够通过模拟数据的联合概率分布,对观测数据进行建模,并生成与训练数据相似的样本,这也是最早的生成模型。然而,上述两类网络都存在一些问题:首先,网络结构相对单一,层次性不足,而人脑具有多个分区,能够合理调度资源以完成不同任务;其次,它们的网络更新方式依赖于马尔可夫链蒙特卡罗算法,这种方法中状态更新依赖于前一步状态,每个节点之间的更新是异步的,收敛速度较慢,尤其在节点数目较多、数据分布复杂的情况下表现不佳。
为了解决这些问题,Geoffrey Hinton改进了自己的玻尔兹曼机,提出了受限玻尔兹曼机(RBM)。与最初的玻尔兹曼机相比,受限玻尔兹曼机具有可见层和隐藏层两部分,只有不同层之间的节点可以互相连接,这大大简化了模型的连接关系,提高了训练效率。在这种连接关系下,同层的节点可以同步进行更新,相比于马尔可夫链蒙特卡罗算法,受限玻尔兹曼机使用对比散度算法,平衡了效率与计算精度,通常只需进行1-5步采样便可完成一步更新。此外,受限玻尔兹曼机还引入了稀疏性,即隐藏层中的大部分神经元在特定样本下应保持未激活状态,只有少量神经元被激活。这一特性可以避免模型对训练数据的过度拟合,提升泛化能力,并使每个神经元能够捕捉数据中的特定特征,使得网络学习的特征更加清晰。这也更好地模拟了人脑中神经元的工作状态,神经元通常在特定情况下才会活跃,而大部分时间则处于休眠状态。
Hinton在1986年提出的反向传播算法解决了多层神经网络的训练难题。反向传播利用链式法则逐层计算每个参数的梯度,以更新权重。然而,早期的神经网络训练面临梯度消失问题,特别是在使用Sigmoid激活函数时,导数趋于零,导致深层网络训练困难。Hinton提出利用RBM进行预训练的突破性方法。在这一过程中,将每两层网络视作一个RBM进行训练,通过逐层优化权重,降低了直接训练深层网络的复杂性。这种预训练方法使得深度学习网络更容易收敛,并成为现代人工智能发展的关键一步。随着算力和数据规模的提升,加之正确的参数初始化、ReLU激活函数的应用以及正则化技术的发展,深度神经网络的训练逐渐不再依赖于受限玻尔兹曼机中繁琐而低效的初始化步骤。因此,现代深度学习逐渐占据主流地位,卷积神经网络和循环神经网络在计算机视觉和自然语言处理领域取得了突破性进展。随着数据集规模的急剧扩展和GPU硬件性能的飞跃,模型结构也从传统的几层网络迅速发展到数百层的复杂体系。Transformer架构的问世更是彻底重塑了深度学习的格局,成为如今各类基础模型的标杆。
尽管Hopfield网络和受限玻尔兹曼机等早期模型逐渐淡出主流机器学习的舞台,但它们作为神经网络发展史中的重要奠基石,仍然具有不可忽视的历史意义。它们不仅推动了神经网络训练技术的发展,还在物理学、统计力学和量子计算等跨学科领域中占有一席之地,继续作为研究物理系统和优化问题的强大工具,展现出独特的价值。
如今看来,神经网络不仅在网络结构上很大程度上源自物理,而且极大地推进了物理学的发展。以我的个人研究经历为例,我所在的徐长松和向红军老师的课题组使用图神经网络开发的HamGNN模型,可以准确且快速地预测磁性体系的电子结构。此外,还有神经网络势能面模型,能够高效地预测分子和材料的势能,从而使得对大体系和复杂体系的模拟成为可能,这也为实现“more is different”提供了有效的手段。我们有理由相信在不远的未来,随着算法和计算能力的进一步提升,神经网络将能够更有效地模拟复杂物理系统,为材料科学、量子计算等领域带来新的突破。
上下滑动阅读
嘉宾三:北京大学 钱思天
嘉宾3:
钱思天
研究方向:
人工智能与高能物理实验
2024年诺贝尔物理学奖有一个出人意料的结果:美国新泽西州普林斯顿大学的John J. Hopfield教授和加拿大多伦多大学的Geoffrey E. Hinton教授获此殊荣,他们的发现和发明对于利用人工神经网络进行机器学习这一领域做出的基础性的贡献收到了表彰。相较于稍微时候公布的也授予人工智能相关工作的化学奖,物理学奖的获奖结果获得了极大的争议,也引发了物理学界乃至整个社会的广泛讨论。笔者也有幸在此分享个人对这一决定的解读。
Topic 1
为什么是他们?
“AI for Science/Physics” vs “Science/Physics for AI”
若讨论物理学乃至自然科学与人工智能研究的有机结合,我们将发现这一讨论将落入两类终极方法论,即“AI for Science”(意即人工智能加速自然科学研究)和“Science for AI”(意即自然科学研究对人工智能的促进)。如果说,诺贝尔化学奖是对于“AI for Science”的认可,那么诺贝尔物理学奖即是对于“Science for AI”这一方法论的肯定。
展开来说,Hopfield教授的获奖的突出贡献是提出了Hopfield网络。这一算法的提出收到了统计物理中的伊辛模型的启发,其网络的每个节点取值非0即1,节点与节点相互连接,连边的值为可学习参数,而网络参数的“学习”(Learning,即优化)过程则通过与伊辛模型类比得来的能量最小化过程得以实现。Hinton教授获奖的贡献是提出了玻尔兹曼机,这一算法可以视为对于Hopfield网络的继承与发展。Hopfield网络基于能量最小化的“学习”过程属于确定性的演化,因而容易陷入局部最优解。Hinton教授则借助统计物理学,通过引入噪声将这一优化过程引入随机性,利用随机退火算法进行网络参数的“学习”,从而避免陷入局部最小值的困境中。另一方面,基于随机算法的优化过程也使得网络优化过程的计算量得以减小,从而能够引入更多的参数,构建更大的,乃至于更深的网络,后者可以通过引入不直接与输出值相关联的隐藏层得以实现。
因此,不难看出,即使Hopfield教授现在就职于分子生物学院,即使Hinton教授的教育与职业背景中鲜有与物理相关之处,即使他们的工作被Yann LeCun教授不无调侃的评论为“not used anymore”(不再被使用),“completely useless in practice”(实际上没用),诺贝尔奖委员会的这一决定仍然是有其内在逻辑的,也与2021年诺贝尔物理学奖授予复杂系统方向一脉相承。笔者认为,这一决定反映了诺奖委员会对于“借助自然科学促进人工智能进步”这一方法论的肯定与推崇,更是其利用自身影响力对于如今自然科学与人工智能结合这一研究方向作出的指向。
Topic 2
为什么选择物理学科?
“大模型”时代下的人工智能:现象学与理论构建
笔者认为,诺奖委员会这一决定的深层次原因,与当下人工智能领域发展的现状有着密切的关系。以深度学习为核心的这一轮人工智能发展热潮,以AlexNet这一深度卷积网络的成功为起点,通过诸如残差链接,(多头)注意力等机制的提出,发展到了如今以Transformer架构为核心的“大模型”时代,已然有了十数年的历史。这不得不让人思考,为何诺奖委员会并没有将生理学与医学奖授予人工神经网络的奠基性学者?倘若谈及“自然科学对人工智能的促进”,人工神经网络是再合适不过的议题。
笔者看来,这一现象的背后,除了囿于诺奖的颁奖规则,也更是体现了诺奖委员会这一决定的指导性作用。回顾这十数年的深度学习热潮,似乎人工智能的现象学已然形成:我们似乎永远都可以通过更大的模型结构,更多的训练数据来得到更好的模型表现。这一“Scaling Law”的出现与形成,刻画了整个深度学习这十数年的发展历程。从十数层到上百层(残差链接),从基于归纳偏置的各色各样、相对小巧紧致的网络模型(例如蕴含平移不变形的卷积神经网络,和借鉴人类记忆机制的长短期记忆模型)到基于多头注意力机制的Transformer模型的“一统天下”(Attention is all you need)。将网络越做越大的“Scaling Law”俨然成为人工智能的黄金定律。与之相对的,对于“Scaling Law”成功的背后机制,乃至于神经网络本身的工作机理,目前学术界的理解还难称深入,可解释性AI的发展也难以望大模型之项背。
因此,诺奖委员会选择物理学进行“Science for AI”的表彰,在笔者看来,是诺奖委员会结合物理学在自然科学研究中的特殊性而决定的。如果说,自然科学中的不同门类是对不同领域、不同尺度和不同对象的“客观规律”(也即“现象学”)的归纳、总结与提炼,那么物理学方法论则往往承担着探索机理并抽象出数学模型的角色,也因此催生出大量的交叉学科。
基于此,笔者大胆的将诺奖委员会的这一决定理解为其对于物理学的期许:利用物理学的方法论,提升人类社会对于人工智能背后机理的理解,并由此促进人工智能领域的发展。纵观物理学的发展,无论是基于还原论的对于基本组成单元的追求,还是基于涌现论“多者异也”的对于不同尺度不同问题的思考方式,不同的物理学研究方法论,都将为深度学习时代下的人工智能的蓬勃发展添砖加瓦。随着模型尺度的增大与人类计算能力发展的相对瓶颈,可以预见将有越来越多的计算机科学家投身于大模型的工程问题。基于此,诺贝尔奖委员会的这一决定,若能带动越来越多的的物理学人乃至自然科学家投身于人工智能的根本机制的研究,将会为人类社会的发展带来深远且重要的影响。
上下滑动阅读
嘉宾四:南京大学 孔德鹤
嘉宾4:
孔德鹤
研究方向:
人工智能辅助的第一性原理算法开发
Intorduction
2024年10月8日诺贝尔奖物理物理学奖揭晓,美国普林斯顿大学教授约翰·J·霍普菲尔德(John J. Hopfield )和加拿大多伦多大学教授杰弗里·E·辛顿(Geoffrey E. Hinton)获奖,以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。这儿的发现和发明具体指的是什么呢。让我们来看看两位领域大家贡献出的算法模型,以及一些同为“物理启发算法“思想下的其他算法。
图1 2024诺贝尔物理学奖
Hopfield Neural Network
具体到个人,约翰·J·霍普菲尔德(John J. Hopfield )教授是基于物理学中的能量模型发明创造了一种能够实现联想记忆的网络--Hopfield网络,并且利用Lyapunov方法证明了按照Hebb法则设计权重的神经网络的稳定性。该网络模型区别于通常的神经网络,不是“输入层+隐藏层+输出层”的结构,而是一种内部所有节点进行全连接的无向图模型(如图2),即完全图。所完成的任务也不是通常的回归或者分类任务,而是模式识别和联想记忆的任务。该能量模型在形式上和物理人所熟知的Ising模型相似,以一个图像任务为例,类比我们物理人所更为熟知的Ising模型来看,我们在任务中便是将每一个离散的像素点视作一个能参与相互作用的粒子,每两个粒子之间的相互作用力的大小便是图像中每个像素点之间的关联关系的大小,就譬如说一个面部图像中,鼻子的出现和嘴巴的出现存在关联关系。额外的偏置项即是可以类比为局部的静态场。而在训练网络之时训练的主要就是每个节点之间的关联系数以及偏置,当在一定的条件下训练得到固定的参量之后,该网络模型便可以进行联想记忆的任务了。就像在一定温度下,我们的孤立系统中的粒子会关于能量有一个稳定的分布一样,参量确定后的Hopfield网络在特定输入下也会演化产生和训练时接触到的图像相近的结果,也即是一种动态模型实现联想记忆。
图2 Hopfiled网络
Boltamann Machine
而杰弗里·E·辛顿(Geoffrey E. Hinton)教授受Hopfield网络启发,进一步提出了玻尔兹曼机(Boltzmann Machine)模型。玻尔兹曼机最初作为一种广义的“联结主义”引入,用来学习二值向量上的任意概率分布。这个模型也是基于能量的模型,不过区别于Hopfield网络的是,Hopfield网络是一个动态演化的确定性模型,而玻尔兹曼机则是按照概率分布进行状态转移的模型。玻尔兹曼机并不强制要求连接结构为完全图,虽然下图给的是完全图的图片(图3)。玻尔兹曼机在结构上创新性的提出将节点区分为隐藏节点和可见节点,隐藏节点是可以按照一定的条件概率设置转化为可见节点的。如图3所示,蓝色为隐藏节点,白色为可见节点。这个举措是的玻尔兹曼机具有很强的表达能力,看到这里,相信不少读者会觉得这个方法比较眼熟,没错这和马尔科夫链有异曲同工之妙,依照一定的状态转移矩阵进行演化,事实上玻尔兹曼机就是可以通过MCMC(Markov Chain Monte Carlo,MCMC)方法进行训练。不过训练和收敛还是相对复杂,后续的一些改进使得其能够真正的推广进行应用。更准确的来说和隐马尔可夫模型(Hidden Markov Model,HMM)更为接近,HMM在时间线上也更为靠前,HMM和玻尔兹曼机属于比较早期的生成式模型了。和今年2024年年初时爆火的Sora属于同一类模型,不过现在的生成式模型算法已经经过大的迭代了,巧的是关算法也和物理有一定关系。虽然算法在往前发展,不过我觉得其中的核心还是一脉相承的:基于概率的演化过程。
图3 玻尔兹曼机
后续玻尔兹曼机有几次比较重要的发展,诞生了受限玻尔兹曼机(Restricted BoltzmannMachine,,RBM)和深度玻尔兹曼机(Deep Boltamann Machine,DBM)。Hinton教授在其中做出了重大贡献,就像大家所熟知的,Hinton教授提出的反向传播算法,并引领神经网络走向深层,所以DBN的出现也是很自然的。受限玻尔兹曼机与玻尔兹曼机最大的区别是,受限玻尔兹曼机具有二分图结构,就是将节点分为不可见的隐单元,以及可见单元两层,并作出一个限制,同层单元之间没有连接(如图4,蓝色节点为隐层,红色节点为可见层),这就比较像现在的神经网络了,包含输入层、隐藏层、输出层。而DBM则是将网络层次从两层发展到多层。至此受多粒子相互作用能量模型启发的算法模型已经可以在许多应用中大展拳脚了。
图4 受限玻尔兹曼机
Denoise Diffusion
Probabilistic Model
Hopfield网络和玻尔兹曼机都属于上世纪的产物了,我们浅尝辄止的挑选一些重要的相关算法说一下。去噪扩散概率模型(Denoise Diffusion Probabilistic Model,DDPM)发表于2020年,作者自述灵感来源于非平衡态统计物理的一篇PRL。一开始文章并没有引起多大反响,直到2022年Google的Imagen使用扩散模型使得生成的图片有了质的提升,才引起了大家的广泛关注。到了2024年,OpenAI利用他们掌握的LLM的优势,将Transformer嵌入到模型中得到了Sora,随即发布了Sora的一些生成结果,这才一石激起千层浪,获得了广泛的关注。要说这个模型的原理说来也不复杂,算法分为两个过程:
1. 前向加噪过程;
2. 后向去噪过程;
图5 玻尔兹曼机
简单说来前向加噪过程就是不断的给图片引入随机噪声,直到有效信息被淹没。后向去噪过程就是按照一定的步数,把一个白噪声般的图片恢复成一个有意义的图像。就像物理学中的一个熵增熵减的过程,就像我们所知道的那样一个孤立体系是不可能自发熵减的,所以这个模型的关键就是消耗资源在这个去噪的过程上。如图5所示。就像DDPM的名字那样,基于概率的模型,我觉得这是它表达能力的主要来源,使得其能在生成式模型中脱颖而出。
Physics Informed
Neural Network
物理信息神经网络(Physics Informed Neural Networks,PINN)就和物理的关系就比较直接了,是直接将微分方程作为限制加到神经网络上,然后将其用于求解一些物理系统的数值解,将求解PDE的问题转化为损失函数优化问题。算法模型结构如图6所示。该模型的思想具有泛用性:"将物理知识嵌入到网络中",但是单个具体的模型适用的任务就稍比较单一了。该模型可以在嵌入一些先验知识的的帮助下,在一些数据可用性低的应用中得到不错的结果。在科学计算中的应用非常广。
图6 PINN算法模型示意
图7 PINN应用在流体力学中
Physical Neural Network
物理神经网络(Physical Neural Network, PNN)是近些年提出的概念,与上面的相区别的是,上面所提的大多是物理启发算法,而PNN的重点则是放在了物理和算法共同启发硬件。通过巧妙的设计,将实际物理中的自然现象利用起来做计算,属于是将思想-算法-硬件一体化的方向。此类网络实现方法并不唯一,比较好的一个例子便是利用光的衍射进行运算,实时的训练则是通过扰动系统得到的反馈来进行训练,如图8所示。笔者印象里好像还有用声学做的,这里忘记具体文献了,就没挂。该领域目前还是比较前沿且具有生命力的领域。
图8 基于光的物理神经网络
Conclusion&Outlook
综上所述,物理学和人工智能之间的关系非常密切,有许多算法模型是由物理模型和物理定律启发而来的,随着这些模型的演进,又慢慢用于我们真实物理世界。这不禁让我们开始思考,物理学和人工智能之间的关系能否更进一步?能否直接将我们的物理系统尽量高效的用于计算之中,其中的计算的准则则从之前的间接,变成更为直接的利用物理定律进行计算。不再是间接的将算法映射到物理硬件上,而是将算法和物理硬件融为一体。相信人类那时对于物理世界的理解和利用会上到一个全新的维度。
上下滑动阅读
嘉宾五:中科大 孙浩然
嘉宾5:
孙浩然
研究方向:
凝聚态及量子模拟理论
引言
瑞典皇家科学院于2024年将诺贝尔物理学奖授予了John J. Hopfield和Geoffrey E. Hinton,以表彰他们"在实现人工神经网络机器学习方面的基础性发现和发明"。诺奖委员会的这一决定凸显了物理学与机器学习之间深刻的联系,特别是统计物理和凝聚态物理对神经网络发展的重要影响。本文将简单介绍两位诺贝尔奖得主的重要贡献,Hopfield网络和Boltzmann机器,包括其背后的物理思想,以及它们对机器学习领域的意义。
神经网络的物理学根源
神经网络的发展历程展现了物理学与神经科学的深度交融。在20世纪40年代,Warren McCulloch和Walter Pitts首次将数学模型引入神经元研究。随后在1958年,Frank Rosenblatt 提出的感知器(Perceptron)模型开启了神经网络研究的新篇章。然而,直到Hopfield和Hinton将来自统计物理的深刻见解引入这一领域,神经网络才展现出其真正的潜力。
Hopfield网络:
自旋系统的神经网络映射
Hopfield在1982年提出的网络模型展示了物理系统与神经网络之间的优雅对应关系。这一突破源于他对自旋玻璃系统的深刻理解。在自旋玻璃中,磁性原子之间的随机相互作用导致系统呈现出复杂的能量景观,这与神经网络中神经元的相互作用具有惊人的相似性。
Hopfield网络的能量函数可以表示为:
其中wij表示神经元间的连接权重,si表示神经元状态,θi表示阈值。这与自旋玻璃系统的哈密顿量在数学形式上完全对应:
其中Jij是自旋相互作用强度,hi是外场。这种对应关系不仅具有理论美感,更提供了分析网络动力学行为的强大工具。在Hopfield网络这个确定性模型中,神经元按照能量下降的方向更新其状态:
系统总是趋向于能量最小的状态,这一性质使得Hopfield网络能够实现联想记忆和模式识别功能。
Boltzmann机:
统计物理学的神经网络实践
Geoffrey Hinton和他的合作者认识到,引入温度参数和概率涨落可以帮助网络跳出局部最小值,从而提升学习效果。他们提出的Boltzmann机本质上是Hopfield网络的概率化版本,保持了相同的能量函数形式,但引入了基于玻尔兹曼分布的状态转换概率,为神经网络引入了概率性行为。在Boltzmann机中,神经元状态的概率分布遵循:
其中Z是配分函数,
β=1/T是系统的"逆温度"参数。与确定性的Hopfield网络不同,Boltzmann机中的神经元状态更新是概率性的:
这种概率性更新规则允许系统在能量景观中进行更广泛的探索,有助于找到更好的解。通过调节温度参数T,我们可以控制系统的探索程度:高温时系统行为更随机,低温时系统更倾向于局部最优解。这正是统计物理学中模拟退火方法的核心思想。这种构造与统计物理学中的正则系综完全类似,使得我们可以运用统计力学的全部工具箱来分析网络行为。
从Boltzmann机到深度学习
对相对简单体系的持续研究最终帮助Hinton发展出反向传播算法。这一算法解决了深层神经网络的训练问题,标志着深度学习时代的开始。反向传播算法可以看作是在神经网络参数空间中进行梯度下降优化:
这里L是损失函数,yi是神经元输出,xi是神经元输入。这种链式求导的方法使得我们能够高效地训练具有多个隐藏层的深度网络。
展望未来
Hopfield和Hinton的开创性工作展示了物理学思维在人工智能发展中的重要作用。从自旋玻璃到玻尔兹曼分布,从能量最小化到统计涨落,物理学的基本概念为神经网络的设计和分析提供了强大的理论框架。随着量子计算技术的发展,物理学与神经网络的结合可能会带来新的突破。量子神经网络的研究已经显示出巨大的潜力,这预示着人工智能发展的新方向。2024年诺贝尔物理学奖的颁发不仅是对过去成就的肯定,更是对未来研究方向的指引。物理学的基本原理将继续为人工智能的发展提供理论指导,特别是在网络架构设计、优化算法改进等方面。这种跨学科的研究方向必将带来更多突破性的发现,推动科技进步,造福人类社会。
展开阅读
嘉宾六:复旦大学 黄一旻
嘉宾6:
黄一旻
研究方向:
黑洞双星吸积盘X-ray相对论反射
引言
10月8日,2024诺贝尔物理学奖授予 John J.Hopfield和Geoffrey E.Hinton,以表彰他们为利用人工神经网络进行机器学习作出的基础性发现和发明。自上个世纪人工神经网络被发明以来,一直广为学界利用,为科学的发展做出了巨大的贡献。
人工神经网络的历史
人工神经网络的创作灵感来自于生物神经回路,1943 年,神经生理学家Warren McCulloch和数学家Walter Pitts用电路模拟了一个简单的神经网络,之后由心理学家Frank Rosenblatt开发了第一个人工神经网络。在20世纪70到80年代,对人工智能进行的研究很少,这一时期被称为人工智能的冬天。
到 21 世纪,硬件的进步以及 GPU 计算的引入,反向传播(Back propagation)算法,卷积神经网络(CNN),循环神经网络(RNN)的发展重新引起人们对人工神经网络的兴趣。随着算法和硬件的发展,很多天才般的神经网络架构随之出现(ResNet, Transformer, AlexNet, GPT, Diffusion, GAN),为人类生活发展进步带来许多便利。
2024 年的诺奖得主Hinton,在1980年大力推动的反向传播算法的发展,该算法在神经网络模型架构中有十分重要的地位: 使模型更新网络权重,自洽的使模型接近使用者的目的。是神经网络发展中里程碑的一步。同样,John在同时期提出了Hopfield 网络,并发现神经网络可以自发地“学习”并稳定域特定的模式,这种想法首次展示了计算机可以模拟人类的联想记忆过程。
几类神经网络模型概述
一、多层感知器(MLP)
MLP是一种前馈神经网络,通常由几个隐藏层和输入输出层组成,隐藏层中含有多个神经元,在上一层的输入向量映射到该隐藏层的向量空间后通过激活函数来引入非线性。现代MLP 通常使用反向传播算法进行训练。输入向量和神经元的线性映射如下
其中 w 为矩阵,大小取决于神经元的数量,x 为输入向量,y 为输出向量,b 为偏置。
激活函数(activation function)
一个神经元的功能是求得输入向量和权重矩阵的内积后,经过一个非线性传递函数得到一个标量结果,该结果用于下层的输入或作为网络的输出。激活函数的引入是必要的,否则,输入向量仅仅是在不同空间内做映射操作。几个常用的激活函数如下:
1
ReTU
为了避免梯度消失,通常会采用ReLU的变式 LeakyReLU,SELU等。
2
sigmoid
3
Tanh
训练算法
MLP 在每次处理数据后,通过反向传播算法更新权重矩阵,降低输出与预测结果的误差量。
二、卷积神经网络(CNN)
卷积神经网络在处理图像上有出色的表现,由一个或镀铬卷积层和顶端的全连接层(MLP)构成,同时也包括关联权重和池化层。
卷积层
利用卷积核(也叫滤波器)对输入数据进行卷积操作,从而提取数据的局部特征。卷积层通过平移滤波器来获得不同的局部特征图,生成的特征图捕捉到了输入数据的空间结构。
每个卷积核大小较小,但可以在多个位置扫描输入图像,因此参数量相对较少,从而提高了计算效率和模型的泛化能力。
假设进入卷积层的图像尺寸为 (N,Cin,H,W),其中N为模型一次处理的分批次数量,C为通道数,H,W 分别为高和宽。输出图像的尺寸为(N, Cout,Wout),满足
其中,⋆为 2D cross-correlation 算符,具体操作与卷积核大小等参数选择有关。
池化层
池化层通常放置在卷积层之后,用于对卷积层提取的特征进行下采样,从而减少特征图的尺寸,降低计算量,同时保留特征的重要信息。
常见的池化操作有最大池化(Max Pooling)和平均池化(Average Pooling),其中最大池化通常用于保留局部最显著特征。
全连接层
在网络的最后,通常会加入一个或多个全连接层,将提取的特征映射为最终的分类或回归结果。全连接层将高层次的特征组合起来,输出预测结果。
CNN 的卷积层使用局部连接(卷积核覆盖局部区域),并在整个输入上共享权重(即相同的卷积核应用到输入的多个区域),使得模型能够高效处理大规模输入数据。卷积操作和池化操作赋予 CNN 对输入平移的空间不变性,即使输入图像在空间上有些许平移或变化,CNN也能识别出其中的特征。
然而,基础 CNN 会导致梯度消失和梯度爆炸问题,继而何恺明教授于 2015 年开发了一种残差网络,使得在深度增加的情况下可以有效计算卷积层的特征改变并更新梯度。
ResNet
假定原始的映射为ℋ(x),定义残差函数ℱ(x):ℋ(x)− x,并引入残差块,原始映射可以写作ℱ(x)+x,如此以来,在网络很深的情况下,也允许网络保留较强的表达能力。
ResNet是卷积神经网络,乃至神经网络领域一里程碑式的架构,在ResNet之前,深度网络难以训练,常见的CNN模型层数在10-30层。ResNet成功训练了152层和更深的网络,成为第一个在如此深度下取得优异性能的模型。ResNet-152 在 ImageNet 上的表现大大超越了之前的浅层模型,同时极大推动了深度学习研究向更深、更复杂的网络架构发展。
三.生成式网络
就物理研究领域而言,生成式网络的应用极为广泛,其目的不同上述分类,识别模型,生成式网络皆在生成新的数据,并且我们期望他无限接近于训练数据。就目前发展而言,众所周知的DALL即是基于diffusion模型架构,MoCoGAN等模型利用GAN 模型架构在时间序列上生成连贯的视频片段。
在天体物理领域,Arya Mohan et,al(2023)基于相对论磁流体模拟的数据和CPGAN的模型架构生成了逼真的M87黑洞图像,Ethan Tregidga(2024)基于VAE(变分自编码器)开发了一种快速拟合光谱的方法。故而生成式对抗网络在物理领域有广泛的应用,具体而言生成式对抗网络有以下几种架构
1. 变分自编码器(VAE)
该模型架构由一个编码器(Encoder)和解码器(Decoder)构成,编码器将输入数据映射到一个潜在空间,生成数据的潜在变量和均值方差。解码器从编码器输出的潜在变量中采样,从而在潜在空间中生成新样本。Michelle Ntampaka(2022)研究了编码器生成的潜在空间中其数据的物理合理性,并且认为潜在空间中的变量是可作物理解释的。
2. 生成式对抗网络 (GAN)
该网络的思想巧妙而高效,网络架构由一个生成网络和一个判别网络组成,生成网络从潜在空间中随机取样做为输出,判别网络则判别生成网络的输出是否是真实数据。两个网络在训练过程中对抗,互相优化进步,这种左右互搏的思想构成了生成式对抗网络,最终判别器无法判断生成器的输出是否是假的图像,既代表生成器的输出已经足够逼成。
然而,GAN 以其难以训练而臭名昭著。该网络架构对超参数(学习率,bacth size 等)非常敏感,为解决这个问题,Martin Arjovsky于2017年通过引入Wasserstein距离作为衡量loss function函数构建了Wasserstein GAN,使得 GAN 的训练过程变得更加稳定高效,继而涌现出很多基于此的模型架构,如WCGAN,WGAN等。
3. 扩散模型(diffusion model)
扩散模型在图像生成上有广泛的应用,其算法包括正向扩散过程和反向生成过程。
模型先将数据逐步加入随机噪声,经过多次迭代,将原始数据分布转换为标准高斯分布。这一过程是不可逆的,定义为“正向扩散”。训练完成后,模型可以从高斯噪声开始,通过“去噪”一步步逆向还原原始数据。该过程被称为“反向扩散”,实际上是逐步预测和去除噪声,使得模型可以从随机噪声中逐步生成真实数据样本。
由于其逐步去噪的方式,扩散模型在图像生成质量上表现优异,甚至超越了 GAN 和 VAE。并且扩散模型在生成的稳定性和多样性上优于 GAN,因为其生成过程不依赖对抗训练,因而不会产生模式崩溃等问题。
基于物理的模型架构(PINN)
PINN(Physics-Informed Neural Network, PINN)是一种结合物理方程(如微分方程)和神经网络的计算方法,主要用于求解复杂的物理问题或辅助模拟物理系统。PINN 的关键在于将物理约束(如控制方程)直接嵌入神经网络的损失函数中,从而使模型在学习数据的同时满足物理定律。
建模:
PINN 使用多层神经网络来表示未知函数,输入通常是时间、空间坐标等物理变量,输出是待求解的物理量(如速度、温度、压力等)。
方程嵌入:
通过自动微分技术,PINN可以计算网络输出对输入的偏导数,用于求解物理方程。例如,对于一维热传导方程,PINN可以将时间和空间的导数加入损失函数。
损失函数
a. 在满足物理方程(如偏微分方程)的点上计算的误差。网络训练的目标是最小化这两 个损失,以逼近真实解并符合物理规律。
b. 在已知数据点上计算的误差。
PINN已在流体力学,材料科学(热传导)等领域高度使用,但其在处理高精度物理问题时仍面临挑战,例如在高频区域误差较大、训练时间较长等。为此,研究者正开发改进方法以提升模型的精度和效率。
总结
神经网络是一种受人类大脑启发的机器学习模型,特别适用于处理复杂数据模式。它主要由输入层、隐藏层和输出层组成,其中每层包含大量“神经元”或节点,这些节点通过权重连接来传递和处理信息。神经网络的核心在于通过调整权重来最小化损失函数,逐步提高对数据的拟合能力。近年来,深度神经网络(DNN)和卷积神经网络(CNN)等模型的出现,使得神经网络在图像识别、语音处理和自然语言理解等领域取得了突破性进展。此外,诸如前向传播、反向传播和激活函数等技术进一步优化了神经网络的学习效率和模型性能。
神经网络的成功还得益于大规模数据集和高性能计算资源的发展,如GPU,使得训练深层网络成为可能。其应用现已经深刻地影响我们的生活。科学研究高效利用神经网络可以很大程度上提高我们的效率,结果等。再次感谢诺贝尔奖得主在神经网络领域的奠基作用。
供稿丨北京大学物理学院研究生会
复旦大学物理学系研究生会
中国科学技术大学物理学院研究生会
南京大学物理学院研究生会
清华大学物理系研究生会
编辑丨曾宪泓 封懿磊 张琦悦
审核丨张帆 李佳益 杨怡蕊 詹研 陈素欣 盛浩 李路遥