无师自通与对称性破缺
上一个例子讲述的是统计物理在理解监督学习的重要作用。接下来我们研究一下无监督学习,即无师自通。无监督学习是让机器从原始数据中自发的发现隐藏规律,类似婴儿时期的观察和学习过程,所以是一种更为重要的认知方式。这个自然界最不可思议的是它的可理解性(爱因斯坦语录),所以人类可通过模型(几条合理性的假设)依靠逻辑演绎导出简洁的物理方程(如牛顿力学、广义相对论等),从而达到对成千上万种经验观察的高度压缩,这个与当前大语言模型所做的压缩即智能有很大的不同。那么,对于无监督学习,我们如何建模以直击其本质么?
我们先考虑如下简单的结构: 代表输入原始数据(没有标签),代表两层神经网络对数据规律的表示,分别为输出神经元。无监督学习从数学上可以表达为已知数据推断连接的过程。为了建立理论模型,我们首先假定存在一个老师网络,它的连接是完全可知的,因此我们可以通过该老师网络来生成训练数据,这个规则叫受限玻尔兹曼机(RBM),如图的标示显层神经元,是隐层神经元,因此如图的连接是个伊辛模型,显层与隐层神经元互为条件独立,因此便于蒙塔卡洛模拟来生成数据。这样一来,那么具有相同结构的学生网络能否单从数据悟得老师的连接矩阵呢?这就是一个统计物理可研究的课题。
接下来,我们容易通过贝叶斯定律写下如下的学生网络的概率分布:
其中,为先验,为无监督学习的配分函数。在这里,我们做了两个重要假设:每个数据是独立生成的,并且先验分布对神经元标号是独立的。我们稍微观察以上的系综分布就可以发现, 和 , 该分布是不变的,显示了 和 对称性,因为我们的连接权重取为Ising自旋值。那么,一个有趣的物理问题就产生了:学习的过程是对称性破缺的过程么?
经过复杂的计算(细节参看[1]),我们发现:随着数据量的增长达到第一个阈值,与对称性相关的第一个连续性相变发生, 学生开始推断老师连接权重相同的那部分(即),这种类型的转变被称为自发对称破缺,就像在标准伊辛模型中遇到的铁磁相变那样。随着数据量进一步增加,学生开始推断老师连接权重不同的那部分(即), 这被称为第一种置换()对称破缺,即学生开始意识到它的两个感受野()不同。不妨总结为“先求同,后存异”。随着数据量进一步增加,学生开始能够区分老师(或基本规律)体系结构中两个隐藏节点的内在顺序。我们将这个转变称为对称性破缺的第二个亚型。仅在此转变之后,自由能才有两个同等重要的谷底。但学生只推断其中一种可能性,取决于初始条件。这两个谷底对应于基本规律的两种可能顺序或,这也是生成相同玻尔兹曼分布无监督学习模型中的内在置换对称性。因此,通过统计物理分析,我们得出来数据可以自发驱动层级式的连续相变直至数据中的客观规律被机器所捕获,并且也揭示了先验的作用[2]:极大减少自发对称破缺的最小数据量,并且融合了两个亚型,即在先验的帮助下,学生认识自我和客观是同时发生;然而在没有先验情况下,认识自我先于客观。
从一个简单模型出发,我们可以揭示无监督学习丰富的物理图像,显示了对称性破缺是支配学习过程的重要力量,这种概念在今年又在非平衡的生成扩散过程中被完整诠释[3,4],让人不得不感叹物理思维的巧妙与精确,再次印证著名物理学家戴森那句名言。
[1]黄海平,神经网络的统计力学(英文版),高等教育出版社,2021
[2]Tianqi Hou and Haiping Huang. Statistical physics of unsupervised learning with prior knowledge in neural networks. Phys. Rev. Lett., 124:248302, 2020.
[3]Gabriel Raya and Luca Ambrogioni. Spontaneous symmetry breaking in generative diffusion models. In A. Oh, T. Neumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems, volume 36, pages 66377–66389. Curran Associates, Inc., 2023.
[4]Z. Y, and H. Huang, Nonequilbrium physics of generative diffusion models,
arXiv:2405.11932