|作者:王磊1,† 张潘2,††
(1 中国科学院物理研究所)
(2 中国科学院理论物理研究所)
本文选自《物理》2025年第1期
摘要 2024年诺贝尔物理学奖授予约翰·霍普菲尔德和杰弗里·辛顿,这对很多人来说是出乎意料的。文章将从统计物理的视角,从伊辛模型出发,逐步介绍霍普菲尔德和辛顿的主要贡献,其中包括Hopfield模型、玻尔兹曼机、非监督学习,以及现代生成模型。还将回顾统计物理和机器学习在20世纪末期的精彩合作历程,并对未来物理与机器学习交互领域的发展方向进行简单展望。
关键词 玻尔兹曼机,Hopfield模型,伊辛模型,机器学习,统计物理,生成模型
其中E(s)是能量函数,是配分函数,即玻尔兹曼分布的归一化因子。如果要问每个构型s严格的概率,我们需要知道配分函数的数值。直接的配分函数计算需要对2n个构型的玻尔兹曼权重求和,这在大的系统中也是个天文数字,无法直接计算。因此我们可以看到,在机器学习和统计物理中都面对着非常相似的计算困难,也都需要有效的算法,以及强大的计算能力。相比于统计物理中那些自然界给定的哈密顿量和分布,在机器学习中描述概率分布是更加困难的问题,因为人们甚至没有一个“给定”的模型来描述数据分布。正如本文将要向大家介绍的,在生成学习的开端,受到统计物理的启发,杰弗里·辛顿(Geoffrey Hinton)确实是用自然界的分布——玻尔兹曼分布,来参数化数据的概率分布的。
在自然界中,玻尔兹曼分布是司空见惯的。例如我们都很熟悉的冰和液态水,它们由同样的水分子构成,但水分子的构型在不同温度下遵从的玻尔兹曼分布不同。在不同温度下对玻尔兹曼分布进行采样,所观察到的水分子的构型就不相同了。这造就了在低温下常常看到冰这种形态,而在高温下一般看到的是水这种形态。而这些样本是大自然从玻尔兹曼分布中采样所生成的,采样的能力来自于自然界。
图1 同样的水分子在不同温度下的玻尔兹曼分布是不同的,对它们进行采样会得到不同的样本以及物质形态
图2 (a)数据作为动力学的吸引子;(b)Hopfield模型的相图[9]
图3 与机器学习相关的统计物理和神经网络发展的对照表格
在机器学习方面,生成学习的确是在20世纪80年代时沿着玻尔兹曼分布展开的。Hopfield模型虽然在理论神经科学、联想记忆、机器学习领域都具有里程碑似的意义,但它最多能存储0.138n个数据[9],且要求数据之间不能存在关联,这给Hopfield模型的实际应用带来了很多困难。对Hopfield模型的改进是非常自然的:可以不用通过Hebb规则构造伊辛模型的耦合参量Jij,逐步学习这些耦合参量。在统计物理中这种做法被称为反伊辛问题(inverse Ising problem)。在反伊辛问题中,损失函数是负对数似然度(negative log-likelihood)。对它优化的目标是找到一组Jij,使得玻尔兹曼分布在生成所有训练数据时的概率最大化,也等价于最小化训练数据的经验分布与玻尔兹曼分布之间的Kullback—Leibler(KL)散度。通常的优化方法是计算出损失函数相对于参数的梯度,然后利用梯度信息优化损失函数。对于反伊辛问题[18],它的梯度为
辛顿与合作者发明的玻尔兹曼机(Boltzmann machine,BM)[19]可以解决反伊辛模型中对关联的表述,以及模型的整体表达能力问题。在玻尔兹曼机中,n个显变量的构型v={v1, v2 ⋯, vn}以及m个隐变量的构型h={h1, h2 ⋯, hm}的联合分布概率满足玻尔兹曼分布:
图4 从训练数据中学习到RBM的参数Wia,使得在RBM的能量图景中,数据构型能量低而随机构型能量高。从RBM的分布中采样可以生成新的数据
图5 生成式机器学习的时间轴
图6 有4个变量的自回归模型的一个简单实现
人们利用ChatGPT和类似的模型根据提示词生成新的文本,这个生成过程的本质是利用了自回归模型的采样,因为描述一句话中字符(token)的联合分布概率的Transformer加上了因果掩码(Causal mask)之后,就可以从学习到的联合分布中一个词一个词的采样,就像图6中所展示的,一个自旋一个自旋地生成4个变量的自旋构型一样。这种方式也造就了近年来大语言模型的辉煌。
在粒子物理和宇宙学方向上,例如LHC、LSST、LIGO等大科学装置需要处理大量的数据,本身就离不开机器学习的方法。而在处理数据的过程中需要做大量正向的量子场论、微扰方法、广义相对论等模拟计算,已经广泛地采用神经网络和GPU进行计算的大幅加速,机器学习方法也广泛应用于Jet物理中的flavor标记、jet聚类、谱密度分析等等。在中微子物理中,神经网络被用于信号处理从而寻找中微子相互作用位置;在引力波物理中,神经网络分类器被用于快速判断是否存在引力波信号,流模型也被用于引力波波源的参数学习。在格点量子色动力学中,即使不考虑符号问题计算也非常困难,传统方法利用Hamilton MCMC需要花费巨大的计算代价才能获取有限的组态,因此如何利用生成模型提高组态获取的效率是非常重要的问题。
参考文献
(参考文献可上下滑动查看)
END
更多精彩文章请点击下面“蓝字”标题查看:
《物理与工程》期刊是专注于物理教育教学研究的学术期刊,是中国科技核心期刊,1981年创刊,欢迎踊跃投稿,期刊投审稿采编平台:
http://gkwl.cbpt.cnki.net
欢迎关注
《物理与工程》微信公众号