Doctor Curious 25: 神经网络到张量网络的“变身”

学术   其他   2024-10-08 19:42   北京  

作者简介 /Profile/

作者:李素洁,理论物理所2018级在读博士,导师:张潘,研究方向:统计物理与复杂系统





导言

神经网络是完成机器学习任务的基本模型,其中一类重要的神经网络是玻尔兹曼学习机。它和它的变体是在上世纪八十年代被提出来的,但是经过三十多年的研究,这些模型在表达能力的理解、配分函数的计算和训练深层模型的高效算法等方面仍然发展不完善。近些年,一些物理学家开始用与神经网络具有相似性的张量网络来进行研究,并得到一些有趣的结果。接下来,我们会从玻尔兹曼学习机出发,尝试向读者展示神经网络的二维张量网络表示。当神经网络“变身”为张量网络之后,我们也会随之获得对上述问题的新的理解。

#正文#


1984年,Hinton和Sejnowski等人提出了变量概率分布满足玻尔兹曼分布的学习机,即玻尔兹曼学习机 [1],它可以用来拟合高维数据的联合概率分布,并从该分布中采集新的样本。这个神经网络包含可见变量和隐藏变量两种变量,可见变量会出现在最终的结果中,而隐藏变量作为内部变量,会被求和掉。在玻尔兹曼学习机中,相互作用可以存在于任意类型的变量之间,没有任何限制,但是这种复杂的相互作用形式使得模型的求解变得困难。随后,人们发展出了它的变体受限玻尔兹曼学习机(restricted Boltzmann machine, RBM) [2],将相互作用限制在了隐变量与可见变量之间。如图 1(a)所示,它是一个两层的神经网络,其中一层红色圆圈代表可见变量,另一层蓝色圆圈代表隐变量,变量之间的连接表示存在的相互作用。两层神经网络一般是无法满足实际应用需求的,为了增强模型的表达能力,人们进一步将RBM拓展到具有更多层隐变量的神经网络——深度玻尔兹曼学习机(deep Boltzmann machine, DBM)。图 3(a)是具有两层隐变量DBM的图表示。


图 1: RBM转化为二维张量网络结构的过程 [3],其中红色代表可见变量,蓝色代表隐变量。


表达能力是刻画神经网络模型性能的重要指标之一。在实际应用中,我们总是希望模型具有更强的表达能力来更好地完成数据分布的拟合或者量子态的表示等任务。对玻尔兹曼学习机的表达能力的理论研究可以追溯到2008年,在 [4]中,作者证明了含有足够多隐变量的RBM可以用来表达任意的离散概率分布,而且同等条件下具有多层隐变量的DBM的表达能力更强。随着研究的进一步深入,人们看到了这些模型的更多面貌。一方面,研究人员开始在量子态的表示中探索RBM与DBM的表达能力,并获得许多的成果 [5, 6, 7, 8, 9]。另外一方面,它们与张量网络态之间的关系也开始逐步被挖掘:RBM与矩阵乘积态(matrix product state, MPS)之间具有等价关系,可以借助纠缠来分析模型的表达能力 [10];短程连接的RBM对应到纠缠块态(entangled plaquette state, EPS),全连接的RBM对应到弦键态(string bond state, SBS) [11]。


最近,我们发现RBM可以被严格映射到二维的张量网络结构,而且这个结构可以被拓展到任意深度的DBM [3]。在这个映射过程里,神经网络被展成了规则的二维张量网络结构。随着神经网络的加深(隐变量层数的增加),二维张量网络如同搭积木般被不断拼接扩展。从二维张量网络结构中,我们可以直观地看到神经网络的每一部分对模型的表达能力是如何做贡献的。


我们首先考虑两层的神经网络RBM图 1(a),它可以通过三步“变身”为二维张量网络结构图 1(d): 首先,将变量用复制张量代替,变量之间通过玻尔兹曼矩阵连接来将模型转化为一般的张量网络形式图 1(b); 然后,利用复制张量等价的MPS结构,从一般张量网络结构转化为三维结构图 1(c); 最后,通过将三维结构由上至下的压缩得到二维张量网络表示图 1(d)(在这里我们省去了具体的细节,感兴趣的读者可以参考 [3])。这个二维结构的长为RBM可见变量的个数,宽为隐变量的个数。 


在张量网络的表示下,模型的表达能力可以通过键维(连接张量的边的维度)来度量。那么,如果比较两个模型的表达能力,我们可以在相同的张量网络结构下对比其中的键维大小。例如,我们增加RBM隐变量的个数,将会得到一个高度更高的二维张量网络结构,而与原始结构相比高出的部分可以通过向下压缩到原始的网络而将增加的隐变量的表达能力贡献给张量之间的横向键维。如图 2所示,左图中灰色部分来源于增加的一个隐变量,它的贡献可以转化为右图中二维张量网络第一行张量之间的横向键维。


图 2: 将多一个隐变量的RBM的二维张量网络表示转化为原始的二维张量网络表示。


如图 3所示,我们可以进一步将这个方法应用于含有两层隐变量的DBM。在图 3(d)中,二维张量网络的绿色部分对应于第二层隐变量。如果我们将这部分从右向左压缩到蓝色部分,结构就回到了RBM所对应的二维张量网络,只不过最右边一列的张量之间的纵向键维变大。这里纵向键维的增加就来源于第二层的隐变量对表达能力的贡献。


图 3: 含有两层隐变量的DBM转化为二维张量网络结构的过程 [3],其中红色代表可见变量,蓝 色和绿色分别代表第一层和第二层隐变量。


那如果含有更多层隐变量的DBM会“变身”为怎样的二维张量网络结构呢?就像图 4中所展示的那样,随着隐层的增多,二维张量网络会如贪吃蛇般生长开来。如果我们仍然考虑每个隐层相对于原始RBM结构图 1(d)中表达能力的贡献,那么会发现,所有的奇数层会贡献于二维张量网络的横向键维,而偶数层会贡献于网络的纵向键维。因此,通过上述方法分析,理论上任何深度的玻尔兹曼学习机都可以由含有两层隐变量的DBM通过控制每层的隐变量的个数来表达。在 [7]中,作者从量子态的角度出发给出了类似的结论。


图 4: 含有多层隐变量的DBM的二维张量网络表示图,其中(a)-(c)为模型图表示,(d)-(f)为对应的二维张量网络表示 [3]。


在本文的开头我们提到过,一般的玻尔兹曼学习机由于包含更复杂的相互作用形式(即相 互作用可以存在于同类变量之间)而不便于被研究,那么它在二维张量网络的表示下会是什么 样子呢?其实,无论是可见变量与可见变量、隐变量与隐变量还是RBM与DBM中的可见变量 与隐变量之间的相互作用,在二维张量网络的表示下它们都有清晰明了的对应。如图 5所示, 可见变量与可见变量之间的局部相互作用,会等价对应于二维张量网络的局部横向键维,而隐 变量与隐变量之间的局部相互作用,会等价对应于二维张量网络的局部纵向键维。因此,在二 维张量网络表示的图像下,我们看到这些不同的相互作用角色是无差别的,我们可以将它们放 在同等的地位来研究,而无需因为连接的复杂性限制模型的应用。


图 5: 具有一般相互作用的玻尔兹曼学习机的二维张量网络图表示。


除此之外,对于玻尔兹曼学习机,二维张量网络表示不仅仅帮助我们定性地分析表达能力,还可以通过张量网络缩并算法来计算模型的配分函数。如今,已经发展出了很多成熟的缩并算法,比如张量重正化群算法(tensor renormalization group, TRG)[12],密度矩阵重正化群方法(density matrix renormalization group, DMRG)[13]和边界矩阵乘积态方法(boundary matrix product states, BMPS)[14],还有可以处理任意连接的张量网络的近似算法[15]等。但是,我们需要注意的是,精确求解配分函数本身是一个#P难的问题,即使我们转换了表达方式,也只是提供了一种更高效的计算方法,对于较大的系统,配分函数仍然很难精确计算。


在机器学习中有一类与玻尔兹曼学习机同样用于拟合高维数据概率分布,但不需要计算配分函数的模型——自回归模型。最近,我们将自回归模型与张量网络相结合提出了AMPS(autoregressive matrix product state)[16],它具有与RBM相似的二维张量网络结构,但是又具有天然的计算配分函数与无偏采样的优势,感兴趣的读者可以将这个内容作为本文的扩展做进一步的阅读。



[1] Geoffrey E Hinton, Terrence J Sejnowski, and David H Ackley. Boltzmann machines: Constraintsatisfaction networks that learn. Carnegie-Mellon University, Department of Computer SciencePittsburgh, PA, 1984.


[2] David E. Rumelhart and James L. McClelland. Information Processing in Dynamical Systems:Foundations of Harmony Theory, pages 194–281. 1987. 


[3] Sujie Li, Feng Pan, Pengfei Zhou, and Pan Zhang. Boltzmann machines as two-dimensionaltensor networks. Phys. Rev. B, 104:075154, Aug 2021. 


[4] Nicolas Le Roux and Yoshua Bengio. Representational power of restricted boltzmann machinesand deep belief networks. Neural Computation, 20(6):1631–1649, 2008.


[5] Giuseppe Carleo, Yusuke Nomura, and Masatoshi Imada. Constructing exact representations ofquantum many-body systems with deep neural networks. Nature communications, 9(1):1–11,2018.


[6] Sirui Lu, Xun Gao, and L-M Duan. Efficient representation of topologically ordered states withrestricted boltzmann machines. Physical Review B, 99(15):155136, 2019. 


[7] Xun Gao and Lu-Ming Duan. Efficient representation of quantum many-body states with deepneural networks. Nature communications, 8(1):1–6, 2017. 


[8] Yusuke Nomura, Andrew S Darmawan, Youhei Yamaji, and Masatoshi Imada. Restricted boltzmann machine learning for solving strongly correlated quantum systems. Physical Review B,96(20):205152, 2017. 


[9] Dong-Ling Deng, Xiaopeng Li, and S Das Sarma. Quantum entanglement in neural networkstates. Physical Review X, 7(2):021021, 2017. 


[10] Jing Chen, Song Cheng, Haidong Xie, Lei Wang, and Tao Xiang. Equivalence of restrictedboltzmann machines and tensor network states. Phys.rev.b, 2018. 


[11] Ivan Glasser, Nicola Pancotti, Moritz August, Ivan D Rodriguez, and J Ignacio Cirac. Neuralnetwork quantum states, string-bond states, and chiral topological states. Physical Review X,8(1):011006, 2018. 


[12] Michael Levin and Cody P Nave. Tensor renormalization group approach to two-dimensionalclassical lattice models. Physical review letters, 99(12):120601, 2007. 


[13] Steven R White. Density matrix formulation for quantum renormalization groups. Physical reviewletters, 69(19):2863, 1992.


[14] Roman Orus and Guifre Vidal. Infinite time-evolving block decimation algorithm beyond unitaryevolution. Physical Review B, 78(15):155117, 2008. 


[15] F. Pan, P. Zhou, S. Li, and P. Zhang. Contracting arbitrary tensor networks: General approximatealgorithm and applications in graphical models and quantum circuit simulations. Physical ReviewLetters, 125(6), 2020. 


[16] Jing Liu, Sujie Li, Jiang Zhang, and Pan Zhang. Tensor networks for unsupervised machinelearning. arXiv preprint arXiv:2106.12974, 2021.

微信号|ITP-CAS

开放 交融 求真 创新

 · 中国科学院理论物理研究所· 


中国科学院理论物理研究所
理论物理所科研动态和综合新闻的发布;理论物理及其交叉学科的科学传播
 最新文章