神经网络理论研究的物理学思想(二)
接下来首先介绍感知器模型。这个模型当之无愧可称为人工智能的伊辛模型。它研究的是一群神经元如何实现对输入数据的分类,这从数学上可以表达为一个不等式, 这里向量是神经连接,为神经输入(例如,机器学习常用的MNIST数据集中,每张手写体数字为784维实向量),而通常称为学习的稳定性(越大越稳定)。当, 时,我们可以定义这样的玻尔兹曼统计系综:
其中, 代表分类图片总数,代表神经连接数目,而则为统计物理学中的配分函数。如果上面的不等式针对每个输入模式都能满足的话,则该显然具有构型数(解的数目)的特征,从而可定义自由熵:。因为数据的随机性,求解该熵并非易事,我们这里省去细节(感兴趣者可参阅教科书[1])。1989年,法国物理学家Mezard和他的博士生 Krauth利用复本方法进行了计算,得出当时,自由熵消失(意味着该学习问题无解)。这是凝聚态物理理论(自旋玻璃)在计算机和统计学交叉学科的早期典型应用。非常奇妙的是,该结果于今年初被数学家完全证明严格[2],这让高维随机统计预测变成数学里相当有生命力的一个分支。
该模型自从被提出以来伴随着不可协调的矛盾,因为长期以来在区间,解是存在的,但很多算法找不到它们,或者随维度升高,算法所能求解的最小变小,这显示这个统计推断问题虽然定义上简单但从算法复杂度看高度非平庸!这个问题的解释要等到2013~2014年间两篇论文的出世[3,4]。论文作者的出发点是解空间的几何结构,类似物理上构型空间的形态或者熵景观。解决一个难问题通常需要新思路!为了描绘熵景观,我们可以先从构型空间选取一个典型构型(物理上服从上述玻尔兹曼分布),然后在该构型周围计数与选定参考构型存在一定汉明距离的构型(或者学习问题的解)。这在物理上等价于自旋玻璃理论的Franz-Parisi势能[1]。通过复杂推导,作者惊奇地发现,在汉明距离很小的区间,自由熵为负数,哪怕是非常靠近零。这从物理上意味着,该熵景观存在大量孤岛形态(犹如高尔夫球洞),这也解释了以往局域算法(如蒙特卡洛)求解的困难性。在松弛不等式的单向性的情况下,数学家近期已经给出了严格证明[5,6]。他们在摘要中将这一物理结论称Huang-Wong-Kabashima猜想。
一个重要问题的解决通常伴随新的重要问题的出现,这是科学研究最为迷人的地方。论文[4]在展望中指出了有些特别设计的算法依然可在孤岛间找到解,这是跟孤岛熵景观格格不入的。这个新的重要问题看似非常难,但很快就被意大利物理学家Zecchina及其合作者解决了[7]。这个解决思路也十分巧妙,当然需要很深厚的数学和物理功力。既然孤独熵为负,那么可以认为这可能是传统玻尔兹曼测度的结果,因此把自由熵当成随机变量,考虑其统计分布并且服从大偏差原理(即, 其中r称为率函数)。这么定义之后,Zecchina等人发现,这个感知器的学习空间居然存在稀有的稠密解团簇!而且,那些高效的经验算法就是被这些解吸引的,而完全避开了高尔夫球洞(实际上它们也永远不可到达)。而这一绝美的物理图像,同样于近期被数学家严格证明[8]。至此,我们可以总结,虽然感知学习从数学形式非常简洁,但是从物理上可以获得直观且非常深刻的见解,并大部分结论能从数学上严格证明。从科学上去完全理解一个非平庸的命题应该也必须成为科学文化的一部分,而非一味盲从避开了模型只依赖于数据的现代机器学习方法。
这些研究始于一群喜欢跨学科的物理学家的好奇心,最后却激起数学家严格证明的欲望,让人们看到高维空间统计推断的优美。虽然大多物理学家考虑的问题带有随机性的成分(比如上述高斯随机输入数据),但是,在统计物理学的世界里,存在普适性这个重要的概念,或者说,在某些情况下细节可以放心的抹去依然不影响事物的本质。这或许是物理学思想的魅力,也是其他学科的科学家或多或少难以理解之处。这些研究目前已经发展成一个更大的猜想,是否在深度学习乃至大语言模型的解空间里存在大偏差的稀有团簇?这些团簇能够实现举一反三的逻辑推理能力。
【未完待续】
[1]黄海平,神经网络的统计力学(英文版),高等教育出版社,2021
[2]Brice Huang, arXiv:2404.18902
[3] H. Huang, K. M. Wong and Y. Kabashima, Entropy landscape of solutions in the binary perceptron problem, Journal of Physics A: Mathematical and Theoretical 46(37), 375002 (2013)
[4]H.HuangandY.Kabashima,Originofthecomputationalhardnessforlearningwithbinary synapses, Physical Review E 90(5), 052813 (2014)
[5] W. Perkins and C. Xu, Frozen 1-rsb structure of the symmetric ising perceptron, Random Structures & Algorithms 64(4), 856 (2024).
[6] E. Abbe, S. Li and A. Sly, Proof of the contiguity conjecture and lognormal limit for the symmetric perceptron, In 2021 IEEE 62nd Annual Symposium on Foundations of Computer Science (FOCS), pp. 327–338. IEEE
[7]C. Baldassi, A. Ingrosso, C. Lucibello, L. Saglietti and R. Zecchina, Subdominant dense clusters allow for simple learning and high computational performance in neu- ral networks with discrete synapses, Physical review letters 115(12), 128101 (2015)
[8]E. Abbe, S. Li and A. Sly, Binary perceptron: efficient algorithms can find solutions in a rare well-connected cluster, In Proceedings of the 54th Annual ACM SIGACT Symposium on Theory of Computing, pp. 860–873
上一篇请见本公众号,【未完待续】