唐乾元 (香港浸会大学物理系)
2024年10月8日,瑞典皇家科学院宣布将该年度的诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,以表彰他们在人工神经网络和机器学习领域的开创性贡献. 这一决定在科学界内部引起了广泛热议与好奇. 来自计算机科学、物理学以及相关领域的研究人员纷纷对此表示疑惑:为何传统上被视为人工智能与神经网络领域内的研究者能够获得物理学领域的最高荣誉?
实际上,John Hopfield和Geoffrey Hinton的工作恰恰展示了物理学、机器学习及神经计算原理之间的深刻联系. 这些开创性的工作在统计物理学、计算神经科学与人工智能之间建立了关键桥梁,不仅对计算机科学领域意义重大,也体现了物理学在人工智能发展中的关键作用,故而能够得到诺贝尔奖委员会的认可. 本文旨在介绍物理学原理在神经网络发展中起到的关键作用,探讨物理学与人工智能这两个领域之间的深刻联系,重点阐述Hopfield和Hinton如何将统计物理中的概念与模型应用于机器学习领域,建立神经计算的理论框架,为现代人工智能的发展奠定理论基础.
1
John Hopfield的贡献:从凝聚态物理到神经计算
图1 Hopfield模型及其工作原理示意图. (a) 一个包含6个神经元的Hopfield网络示意图,每个圆圈代表一个神经元,其状态si可取+1或-1;连接线表示神经元间的突触连接,权重为wij. (b) 利用11×11个像素点的二值图像(每个像素值对应一个神经元状态,取值为+1或-1)展示Hopfield网络的模式存储和恢复过程. 网络将“十”字形图案编码为能量最小值状态,当以随机噪声作为初始神经元状态时,经过多轮迭代更新,系统状态逐渐演化为其所记忆的模式. (c) 系统能量函数随着神经元状态的迭代更新而单调下降,最终在到达能量极小值时完全恢复出存储的图像模式
1.2 Hopfield模型:基础与物理解释
Hopfield模型[7]为机器设计了一种“联想记忆”的能力. 就像人们能够通过记忆将一张模糊破损的老照片拼凑完整一样,Hopfield模型可以通过不断调整自身状态提取所记忆的信息. 如图1(a)所示,Hopfield网络由N个全连接神经元组成,其中神经元i的状态用si表示,可以将其设定为±1两种状态,也可以取各种连续数值以提高网络处理模拟模式的存储和处理能力[8]. 神经元之间由突触连接,神经元i与j之间的突触连接权重为wij. 该网络构成了一个循环神经网络(recurrent neural network, RNN),其状态演化遵循一个简单的动力学规则, 即对于任意神经元i,其t+1时刻的状态由t时刻的状态决定:
其中,连接权重wij由Hebbian学习规则[9]确定。该规则可以简单表述成“一起激发的神经元连在一起(Neurons that fire together wire together)”:
其中,代表的是网络所记忆的第μ个模式的第i分量. 由上述规则描述的Hopfield网络的动力学可以描述为如下的能量函数:
该能量函数与自旋玻璃系统的能量函数在形式上完全相同[10,11]:神经元状态对应于粒子的自旋状态,突触连接对应于粒子自旋间的相互作用. 如图1(b)和(c)所示,网络中存储的记忆模式对应于系统的基态,而记忆提取过程则类似于系统向局部能量极小值的弛豫过程. Hopfield模型与自旋玻璃理论都关注系统的基态与能量最小化的过程. 在Hopfield模型中,通过Hebbian学习规则确定的突触权重,使得期望记忆的模式对应于能量函数的局部最小值,这些局部最小值构成了网络的吸引子. 该模型为理解神经系统的信息存储与检索机制提供了重要的理论框架.
Hopfield模型证明分布式的表征可以实现稳健的信息存储,这不仅启发了生物神经系统吸引子动力学的广泛研究[12],也为后来出现的各种人工神经网络架构、类脑计算等提供了理论依据. 具体来说,该模型引入了能量景观(energy landscape)作为理解神经动力学的有力工具. 利用自旋玻璃中的副本方法,可以严格解析Hopfield网络的存储容量,对于随机模式,网络可以可靠地存储和检索的模式数与网络的节点数N成正比,大约为0.138N [13].
Hopfield网络在被提出后,经历了许多拓展与创新,显著扩展了其能力和应用范围[14~16]. 这些增强型架构通过高阶相互作用,或使得模型的存储容量呈指数级增长,或使得模型在噪声环境下的能力显著改善,对存储模式之间的干扰表现出更强的鲁棒性. 也有学者将经典的Hopfield网络与现代的深度学习架构“注意力机制”结合起来,在模式识别任务中取得了成功[17]. 这些后续工作显示了Hopfield网络并未过时,其基础原理仍在持续影响人工智能的发展.
1.3 其他代表性工作
20世纪90年代,Hopfield将注意力转向神经系统中的时间编码,尤其是嗅觉信号的处理[18]. 他的工作指出,类似于物理系统中的相位锁定的同步现象也能够在生物神经网络中实现稳健的模式识别[19]. 这一模型展示了时间动力学如何显著增强神经网络的计算能力,为生物系统中的信息处理提供了新的视角.
此外,值得一提的是,Hopfield还是“临界脑假说”的先驱之一. 1994年,他将神经网络与Per Bak、汤超、Kurt Wiesenfeld提出的自组织临界性(即开放系统自发演化到临界状态的现象)[20]联系起来,并将其与描述地震的物理模型进行了类比[21]. 1995年,Hopfield与合作者观察到了神经系统中的集体活动出现的突发性协同行为,这种协同放电活动遵循与地震系统相似的幂律分布,表明神经系统可能在临界状态附近运行[22]. 这一发现为理解大脑信息处理的动力学机制提供了新的视角.
2
Geoffrey Hinton的贡献:从统计物理到深度学习
2.1 学术背景
Geoffrey Hinton于1947年出生于英国温布尔登,1970年在剑桥大学获得实验心理学学士学位,1978年获爱丁堡大学人工智能博士学位. Hinton一直活跃于人工神经网络学术研究与工业应用的第一线. 自20世纪80年代以来,Hinton在人工神经网络结构设计和训练方法上做出了一系列重要贡献. 他在美国卡内基梅隆大学、加拿大多伦多大学和Google公司的相关工作很大程度上推动了深度学习的诞生(或者说,深层人工神经网络的复兴). Hinton的工作还使得深度学习在计算机视觉和自然语言处理等领域取得了突破性进展,为今天广泛应用的人工智能奠定了坚实的理论和实践基础. 2019年,Hinton与另外两位深度学习领域的先驱者Yoshua Bengio和Yann LeCun一同获得了当年的图灵奖.
2.2 从Boltzmann机到深度信念网络
Hinton与Sejnowski、Ackley合作提出的Boltzmann机[23,24]是基于神经网络的概率模型的一种基础架构,体现出统计物理在机器学习中的深刻应用. 在标准的Boltzmann机中,网络的所有神经元之间都允许双向连接(如图2(a)所示),其能量函数定义为
其中,wij表示连接权重,si和sj表示神经元状态(自旋),bi表示偏置项(外场). 基于该能量函数,系统状态的概率分布满足玻尔兹曼分布,其中Z为配分函数,β为逆温度. 其学习过程基于极大似然原理,梯度可表示为
其中,和分别表示经验分布和模型分布下的期望. Hopfield网络某种程度上可以视为确定性的Boltzmann机,而Boltzmann机可以视为随机性的Hopfield网络. 然而,尽管该模型在理论上简洁优雅,但由于其全连通特性,导致训练难度较大,其广泛应用受到了限制. 在该模型的基础上,后续发展出的最著名的一种模型是受限Boltzmann机(restricted Boltzmann machine, RBM). RBM的想法最早由Paul Smolensky[25]提出,随后,Freund和Haussler[26]证明了与RBM结构一致的二值两层随机网络能够逼近任意二值向量分布,为RBM的理论发展奠定了理论基础. 2000年代初期,Hinton[27]提出了高效的对比散度训练算法,并将RBM成功应用于深度学习预训练. 如图2(b)所示,该架构引入了一个关键的架构约束:连接仅允许在可见层和隐藏层之间建立,消除了层内连接. 这种限制显著简化了训练过程,同时保持了强大的表示能力. RBM的能量函数可以表示为
其中,v表示可见单元,h表示隐藏单元. 该能量函数所对应的概率分布服从Boltzmann分布:, 其中Z为配分函数.
RBM的训练最常用的是Hinton等人[27]提出的对比散度(contrastive divergence,CD)算法,其通过最小化模型平衡分布与数据分布之间的KL散度(Kullback-Leibler divergence)来实现. 从统计物理的视角来看,两个概率分布之间的KL散度可以解释为数据分布pdata(v)与模型分布pmodel(v)之间自由能的差异,系统的学习过程可以表示为最小化两个分布之间的自由能差. 在实践中,CD算法通过截断Gibbs采样步数来近似计算梯度,显著提高了训练效率. 由于该算法在k步采样后即停止,因而该方法得名“CD-k算法”[27~29],其中的k通常取一个较小值(k=1). 这个过程类似于“受限退火”,每次进行k步采样相当于让系统进行一次短暂的退火,然后根据退火结果来调整系统参数. 理论与实践都证明,虽然这种近似可能导致估计偏差,但在大多数应用场景中都能取得令人满意的效果.
深度信念网络(deep belief network, DBN)由Hinton等人[30,31]在2006年首次提出,它由多个RBM堆叠而成(如图2(c)所示). DBN的训练采用贪婪逐层训练策略, 该训练方法显著提高了深度网络的训练效果,被认为是深度学习得以广泛应用的关键创新. 实践表明,DBN在图像识别等任务中展现出良好的性能. 与单层RBM相比,DBN能够学习到更加抽象的特征表示,并且在面对包含噪声的数据时仍能保持良好性能. 以重整化群理论的视角来看[32],DBN方法之所以能产生上述优点,就在于其提取的特征在不同尺度上呈现了层级化的组织.
以Hopfield网络、RBM、DBN等为代表的基于能量的模型(energy-based models, EBMs)为概率密度估计和表示学习提供了一种统一的框架[33],这类模型的理论基础可以都追溯到统计物理中的自旋玻璃模型[34]. EBM通过定义能量函数来表示所希望学习的概率分布,因而也可作为生成模型(generative model)学习数据分布并生成与训练数据类似的新样本. 与显式定义概率分布的模型相比,EBM具有更大的灵活性,能够建模更加复杂的依赖关系. 近年来,基于能量的模型的理论仍在不断发展[35,36],同时也面临不少挑战:其中,配分函数的计算和采样效率问题仍是制约模型应用的主要瓶颈. 其次,能量函数的设计缺乏系统的指导原则,往往需要依赖经验和启发式方法. 此外,模型的理论性质(如表达能力、泛化性能等)亦缺乏更深入的研究.
图2 从Boltzmann机到深度信念网络. (a) 一个包含8个神经元的全连接Boltzmann机示意图. (b) 一个受限Boltzmann机示意图,其中包含4个隐藏层节点(H1, H2, H3, H4)与6个可见层节点(V1, V2, …, V6). (c) 一个由多层受限Boltzmann机堆叠的神经网络示意图. 该网络包含4层: 一个输入层(I),两个隐藏层(H1,H2),一个输出层(O). 这4层分别包含8, 6, 6, 4个神经元. 这种多层的神经网络结构不断堆叠,构成了深度信念网络
2.3 Hinton在深度学习领域的其他实践创新
除了DBN以外,Hinton还在深度学习领域做出了其他开创性贡献,从各种理论方法的创新,再到各种创新性的模型架构和训练技术,这些工作极大推动了深度学习的理论发展和实践应用. 首先,Hinton等人[37,38]关于反向传播的工作为训练深度神经网络提供了基础算法,通过对链式求导法则的巧妙应用,大大降低了模型训练的计算复杂度,使得深度网络的训练在计算上变得可行. 其次,2006年,Hinton和Salakhutdinov[39]提出了使用深度自编码器(autoencoder)进行降维的方法. 该工作的关键创新在于提出了一个两阶段的训练策略:(1) 对网络进行逐层预训练,即首先将输入层和第一个隐藏层构成一个RBM,使用CD算法训练这个RBM,然后用这个RBM的隐藏层激活值作为第二个RBM的输入层,逐层堆叠并训练RBM,直到完成所有编码层的预训练; (2) 使用反向传播对整个网络进行微调. 实验表明,采用RBM预训练可以显著改善深度自编码器的性能,这说明无监督预训练为网络提供了一个好的参数初始化,帮助网络避免陷入不良局部极小值,从而克服了深度网络训练中的梯度消失问题[40].
在深度学习的实践应用方面,Hinton及其合作者提出了一系列创新技术. 2012年,他与学生Krizhevsky等人[41]提出的AlexNet在ImageNet竞赛中取得了优异的成绩,展示了深度卷积网络在图像识别领域的强大性能,被认为是深度学习复兴的标志性工作. 同年提出的Dropout[42]是一种简单有效的防止过拟合的技术,通过在训练时随机丢弃神经元来提高模型的泛化能力. 在神经网络的训练方面,Hinton提出的动量(momentum)法[43]成为深度学习训练中广泛使用的技术. 2015年提出的知识蒸馏方法[44]则为模型压缩和知识迁移提供了新范式,通过使用大模型指导小模型的训练来实现知识迁移. 此外,t-SNE算法[45]能够在低维空间中保持数据的局部结构特征,成为高维数据可视化的重要方法. 近年来,Hinton提出了胶囊网络[46]来解决CNN在处理空间关系时的局限性;他提出的GLOM理论[47]和前向-前向网络[48]分别探索了神经表示的组织原理和新型学习范式.
纵观Hinton的研究轨迹,我们可以看到一条坚守与创新之路:他始终坚持探索基于神经网络的学习机制这一核心主题,在模型架构与优化方法等方面提出创新性解决方案. 他的工作对人工智能领域产生了深远影响,使他当之无愧地被称为“深度学习之父”.
3
总结与展望
3.1 人工神经网络作为物理系统:Physics of AI
Hopfield与Hinton两位科学家的工作在物理学与人工智能之间建立起了“连接”,这种“连接”不仅体现在学科的联系上,更深刻地体现在他们对认知的理解方式——“联结主义”(Connectionism)上. 联结主义是认知科学的重要理论范式,其核心主张如下:认知系统是由大量简单处理单元构成的网络[49,50];这些处理单元通过权重可调的连接相互作用,形成分布式的信息处理系统;所有认知功能,包括感知、记忆、推理等复杂的心理过程,都可以通过网络结构来实现和解释. 作为联结主义的代表人物,Hopfield与Hinton的核心观点与凝聚态物理学家P. W. Anderson “More is different”的涌现论观点[51]不谋而合:复杂的认知功能是大量简单神经元通过动态连接相互作用后的涌现属性,而不能仅从单个神经元的行为来解释. 深度神经网络的强大能力正是源于其具备足够的规模和复杂性,使得高层次的复杂功能能够涌现[52,53].
统计物理与复杂系统还为理解神经网络深度学习提供了系统性工具[54]:能量景观的概念揭示了神经网络状态的演化规律[55]、自旋玻璃理论解释了神经元间的相互作用如何导致网络形成稳定的信息表征模式与学习数据的层次结构[56]. Huang和Toyoizumi[57]发展的高阶平均场理论精确描述了RBM的相态特征. Decelle等人[58]从热力学角度研究了RBM的学习动力学,发现了训练过程中的关键相变点. 此外,动力系统理论为理解神经网络的非线性特性提供了关键工具[59~63]. 这种动力系统视角不仅揭示了神经网络计算能力的本质,还为设计更稳健或更易于训练的网络架构提供了理论指导. 在理解机器学习的工作原理方面,重整化群理论可能有助于解释深度网络的特征提取机制[64~66],动力系统理论可用于分析随机梯度下降的收敛特性和泛化行为[67~70]. 此外,在扩散模型等生成模型中,随机过程理论也提供了重要的理论支撑[71,72]. 此外,由于量子态的Hilbert空间具有指数级的维度,而量子叠加和纠缠等特性则为信息处理提供了独特优势[73~75],这种扩展的计算能力开辟了经典计算无法企及的量子机器学习新范式[76]. 未来,随着深度学习技术的不断发展,物理学与深度学习的结合可能在许多领域重新焕发活力,推动跨学科的突破性进展.
3.2 跨学科的融合推动未来创新:AI for Sciences
Hopfield与Hinton的开创性工作展示了物理学原理在计算问题中的深远影响. 通过将深度学习视为复杂动力学和涌现行为的物理系统,物理学方法为理解深度学习提供了理论基础以及与“Science of AI”相关的新研究课题. 与此同时,人工智能也正在革新传统科学研究方法,形成了“AI for Science”的学术研究新范式[77]. 最具代表性的是AlphaFold 2在蛋白质结构预测领域的突破性进展[78]:它将原本需要数月乃至数年的结构解析时间缩短到小时级别,极大推动了生物化学和医药研究的发展. 这一成就使得其主要开发者Demis Hassabis、John M. Jumper与计算蛋白质设计专家David Baker共同获得2024年诺贝尔化学奖. 此外,深度学习模型还在气象预测[79]、材料特性分析[80]和量子系统研究[81]等领域展现出强大潜力.
“Science of AI”与“AI for Science”的这种双向互动正在加速跨学科融合,开创了科学研究的新范式. 这种融合不仅提高了科学研究效率,更为理解自然界提供了新的方法论,这必将不断打破传统的学科壁垒,带来影响更广泛领域的科技突破.
【致谢】 感谢国家自然科学基金(12305052)、香港研究资助局杰出青年学者计划(22302723)和香港浸会大学(RC-FNRA-IG/22-23/SCI/03)的支持. 感谢集智俱乐部组织的2024年诺贝尔物理学奖专题讨论,特别感谢张江教授与尤亦庄副教授的深入见解. 同时,感谢梁金与任昊达对本文初稿提出的宝贵建议.
作者简介
唐乾元
香港浸会大学物理系助理教授,南京大学物理学博士,曾于日本东京大学、日本理化学研究所脑科学中心从事博士后研究。研究领域主要聚焦于利用计算和数据驱动的方法来理解包括蛋白质和大脑在内的各类生物复杂系统,通过结合计算、统计与物理工具,深入分析生物数据,揭示其中潜在的普适原理与物理规律。