Doctor Curious 25: 神经网络到张量网络的“变身”

学术其他 2024-10-08 19:42 北京

作者简介 /Profile/

作者：李素洁，理论物理所2018级在读博士，导师：张潘，研究方向：统计物理与复杂系统

导言

神经网络是完成机器学习任务的基本模型，其中一类重要的神经网络是玻尔兹曼学习机。它和它的变体是在上世纪八十年代被提出来的，但是经过三十多年的研究，这些模型在表达能力的理解、配分函数的计算和训练深层模型的高效算法等方面仍然发展不完善。近些年，一些物理学家开始用与神经网络具有相似性的张量网络来进行研究，并得到一些有趣的结果。接下来，我们会从玻尔兹曼学习机出发，尝试向读者展示神经网络的二维张量网络表示。当神经网络“变身”为张量网络之后，我们也会随之获得对上述问题的新的理解。

#正文#

1984年，Hinton和Sejnowski等人提出了变量概率分布满足玻尔兹曼分布的学习机，即玻尔兹曼学习机 [1]，它可以用来拟合高维数据的联合概率分布，并从该分布中采集新的样本。这个神经网络包含可见变量和隐藏变量两种变量，可见变量会出现在最终的结果中，而隐藏变量作为内部变量，会被求和掉。在玻尔兹曼学习机中，相互作用可以存在于任意类型的变量之间，没有任何限制，但是这种复杂的相互作用形式使得模型的求解变得困难。随后，人们发展出了它的变体受限玻尔兹曼学习机(restricted Boltzmann machine, RBM) [2]，将相互作用限制在了隐变量与可见变量之间。如图 1(a)所示，它是一个两层的神经网络，其中一层红色圆圈代表可见变量，另一层蓝色圆圈代表隐变量，变量之间的连接表示存在的相互作用。两层神经网络一般是无法满足实际应用需求的，为了增强模型的表达能力，人们进一步将RBM拓展到具有更多层隐变量的神经网络——深度玻尔兹曼学习机(deep Boltzmann machine, DBM)。图 3(a)是具有两层隐变量DBM的图表示。

图 1: RBM转化为二维张量网络结构的过程 [3]，其中红色代表可见变量，蓝色代表隐变量。

表达能力是刻画神经网络模型性能的重要指标之一。在实际应用中，我们总是希望模型具有更强的表达能力来更好地完成数据分布的拟合或者量子态的表示等任务。对玻尔兹曼学习机的表达能力的理论研究可以追溯到2008年，在 [4]中，作者证明了含有足够多隐变量的RBM可以用来表达任意的离散概率分布，而且同等条件下具有多层隐变量的DBM的表达能力更强。随着研究的进一步深入，人们看到了这些模型的更多面貌。一方面，研究人员开始在量子态的表示中探索RBM与DBM的表达能力，并获得许多的成果 [5, 6, 7, 8, 9]。另外一方面，它们与张量网络态之间的关系也开始逐步被挖掘：RBM与矩阵乘积态(matrix product state, MPS)之间具有等价关系，可以借助纠缠来分析模型的表达能力 [10]；短程连接的RBM对应到纠缠块态(entangled plaquette state, EPS)，全连接的RBM对应到弦键态(string bond state, SBS) [11]。

最近，我们发现RBM可以被严格映射到二维的张量网络结构，而且这个结构可以被拓展到任意深度的DBM [3]。在这个映射过程里，神经网络被展成了规则的二维张量网络结构。随着神经网络的加深（隐变量层数的增加），二维张量网络如同搭积木般被不断拼接扩展。从二维张量网络结构中，我们可以直观地看到神经网络的每一部分对模型的表达能力是如何做贡献的。

我们首先考虑两层的神经网络RBM图 1(a)，它可以通过三步“变身”为二维张量网络结构图 1(d): 首先，将变量用复制张量代替，变量之间通过玻尔兹曼矩阵连接来将模型转化为一般的张量网络形式图 1(b); 然后，利用复制张量等价的MPS结构，从一般张量网络结构转化为三维结构图 1(c); 最后，通过将三维结构由上至下的压缩得到二维张量网络表示图 1(d)（在这里我们省去了具体的细节，感兴趣的读者可以参考 [3]）。这个二维结构的长为RBM可见变量的个数，宽为隐变量的个数。

在张量网络的表示下，模型的表达能力可以通过键维（连接张量的边的维度）来度量。那么，如果比较两个模型的表达能力，我们可以在相同的张量网络结构下对比其中的键维大小。例如，我们增加RBM隐变量的个数，将会得到一个高度更高的二维张量网络结构，而与原始结构相比高出的部分可以通过向下压缩到原始的网络而将增加的隐变量的表达能力贡献给张量之间的横向键维。如图 2所示，左图中灰色部分来源于增加的一个隐变量，它的贡献可以转化为右图中二维张量网络第一行张量之间的横向键维。

图 2: 将多一个隐变量的RBM的二维张量网络表示转化为原始的二维张量网络表示。

如图 3所示，我们可以进一步将这个方法应用于含有两层隐变量的DBM。在图 3(d)中，二维张量网络的绿色部分对应于第二层隐变量。如果我们将这部分从右向左压缩到蓝色部分，结构就回到了RBM所对应的二维张量网络，只不过最右边一列的张量之间的纵向键维变大。这里纵向键维的增加就来源于第二层的隐变量对表达能力的贡献。

图 3: 含有两层隐变量的DBM转化为二维张量网络结构的过程 [3]，其中红色代表可见变量，蓝色和绿色分别代表第一层和第二层隐变量。

那如果含有更多层隐变量的DBM会“变身”为怎样的二维张量网络结构呢？就像图 4中所展示的那样，随着隐层的增多，二维张量网络会如贪吃蛇般生长开来。如果我们仍然考虑每个隐层相对于原始RBM结构图 1(d)中表达能力的贡献，那么会发现，所有的奇数层会贡献于二维张量网络的横向键维，而偶数层会贡献于网络的纵向键维。因此，通过上述方法分析，理论上任何深度的玻尔兹曼学习机都可以由含有两层隐变量的DBM通过控制每层的隐变量的个数来表达。在 [7]中，作者从量子态的角度出发给出了类似的结论。

图 4: 含有多层隐变量的DBM的二维张量网络表示图，其中(a)-(c)为模型图表示，(d)-(f)为对应的二维张量网络表示 [3]。

在本文的开头我们提到过，一般的玻尔兹曼学习机由于包含更复杂的相互作用形式（即相互作用可以存在于同类变量之间）而不便于被研究，那么它在二维张量网络的表示下会是什么样子呢？其实，无论是可见变量与可见变量、隐变量与隐变量还是RBM与DBM中的可见变量与隐变量之间的相互作用，在二维张量网络的表示下它们都有清晰明了的对应。如图 5所示，可见变量与可见变量之间的局部相互作用，会等价对应于二维张量网络的局部横向键维，而隐变量与隐变量之间的局部相互作用，会等价对应于二维张量网络的局部纵向键维。因此，在二维张量网络表示的图像下，我们看到这些不同的相互作用角色是无差别的，我们可以将它们放在同等的地位来研究，而无需因为连接的复杂性限制模型的应用。

图 5: 具有一般相互作用的玻尔兹曼学习机的二维张量网络图表示。

除此之外，对于玻尔兹曼学习机，二维张量网络表示不仅仅帮助我们定性地分析表达能力，还可以通过张量网络缩并算法来计算模型的配分函数。如今，已经发展出了很多成熟的缩并算法，比如张量重正化群算法(tensor renormalization group, TRG)[12]，密度矩阵重正化群方法(density matrix renormalization group, DMRG)[13]和边界矩阵乘积态方法(boundary matrix product states, BMPS)[14]，还有可以处理任意连接的张量网络的近似算法[15]等。但是，我们需要注意的是，精确求解配分函数本身是一个#P难的问题，即使我们转换了表达方式，也只是提供了一种更高效的计算方法，对于较大的系统，配分函数仍然很难精确计算。

在机器学习中有一类与玻尔兹曼学习机同样用于拟合高维数据概率分布，但不需要计算配分函数的模型——自回归模型。最近，我们将自回归模型与张量网络相结合提出了AMPS(autoregressive matrix product state)[16]，它具有与RBM相似的二维张量网络结构，但是又具有天然的计算配分函数与无偏采样的优势，感兴趣的读者可以将这个内容作为本文的扩展做进一步的阅读。

[1] Geoffrey E Hinton, Terrence J Sejnowski, and David H Ackley. Boltzmann machines: Constraintsatisfaction networks that learn. Carnegie-Mellon University, Department of Computer SciencePittsburgh, PA, 1984.

[2] David E. Rumelhart and James L. McClelland. Information Processing in Dynamical Systems:Foundations of Harmony Theory, pages 194–281. 1987.

[3] Sujie Li, Feng Pan, Pengfei Zhou, and Pan Zhang. Boltzmann machines as two-dimensionaltensor networks. Phys. Rev. B, 104:075154, Aug 2021.

[4] Nicolas Le Roux and Yoshua Bengio. Representational power of restricted boltzmann machinesand deep belief networks. Neural Computation, 20(6):1631–1649, 2008.

[5] Giuseppe Carleo, Yusuke Nomura, and Masatoshi Imada. Constructing exact representations ofquantum many-body systems with deep neural networks. Nature communications, 9(1):1–11,2018.

[6] Sirui Lu, Xun Gao, and L-M Duan. Efficient representation of topologically ordered states withrestricted boltzmann machines. Physical Review B, 99(15):155136, 2019.

[7] Xun Gao and Lu-Ming Duan. Efficient representation of quantum many-body states with deepneural networks. Nature communications, 8(1):1–6, 2017.

[8] Yusuke Nomura, Andrew S Darmawan, Youhei Yamaji, and Masatoshi Imada. Restricted boltzmann machine learning for solving strongly correlated quantum systems. Physical Review B,96(20):205152, 2017.

[9] Dong-Ling Deng, Xiaopeng Li, and S Das Sarma. Quantum entanglement in neural networkstates. Physical Review X, 7(2):021021, 2017.

[10] Jing Chen, Song Cheng, Haidong Xie, Lei Wang, and Tao Xiang. Equivalence of restrictedboltzmann machines and tensor network states. Phys.rev.b, 2018.

[11] Ivan Glasser, Nicola Pancotti, Moritz August, Ivan D Rodriguez, and J Ignacio Cirac. Neuralnetwork quantum states, string-bond states, and chiral topological states. Physical Review X,8(1):011006, 2018.

[12] Michael Levin and Cody P Nave. Tensor renormalization group approach to two-dimensionalclassical lattice models. Physical review letters, 99(12):120601, 2007.

[13] Steven R White. Density matrix formulation for quantum renormalization groups. Physical reviewletters, 69(19):2863, 1992.

[14] Roman Orus and Guifre Vidal. Infinite time-evolving block decimation algorithm beyond unitaryevolution. Physical Review B, 78(15):155117, 2008.

[15] F. Pan, P. Zhou, S. Li, and P. Zhang. Contracting arbitrary tensor networks: General approximatealgorithm and applications in graphical models and quantum circuit simulations. Physical ReviewLetters, 125(6), 2020.

[16] Jing Liu, Sujie Li, Jiang Zhang, and Pan Zhang. Tensor networks for unsupervised machinelearning. arXiv preprint arXiv:2106.12974, 2021.

微信号｜ITP-CAS

开放交融求真创新

· 中国科学院理论物理研究所·

http://mp.weixin.qq.com/s?__biz=MzU0NjQyNTY4Mw==&mid=2247507212&idx=2&sn=17523f8b8f83aba84f2426dcfb6bae33

中国科学院理论物理研究所

理论物理所科研动态和综合新闻的发布；理论物理及其交叉学科的科学传播

最新文章

讲座预告｜10月21日-27日

周光召先生《科学》文章选摘

2025年度彭桓武中心访问科学家计划

千万别给科学家擦黑板

六十载丰碑永存！今天，向他们致敬！

讲座预告｜10月14日-20日

物理诺奖得主Hopfield：不妨称物理学为“接受物理学训练者的所作所为”

直播预告 | 从伊辛模型到神经网络——2024年诺贝尔物理学奖解读

数学物理学家Lieb：费曼认为我严格计算浪费时间，却让我更坚定走数学物理之路

2024年理论物理所重要科研进展系列（十六）：笼目超导体配对密度波态

弱相互作用大质量粒子与轴子

理论物理所入选第二批“中国物理学会科普教育基地”

张潘：复杂世界的规律探寻者

写给物理学家的生成模型

刚刚，2024年诺贝尔物理学奖揭晓！

Doctor Curious 25: 神经网络到张量网络的“变身”

讲座预告｜10月8日-12日

听黄祖洽先生谈自己的科研经历

“两弹一星”精神的开拓者和践行者——缅怀我的恩师周光召 | 科技导报

讲座预告｜9月29日-30日

Doctor Curious 59：细胞分裂中的振荡现象

第十三届新物理研讨会成功举办

理论物理所召开领导班子个别调整宣布会议

海森伯：我的真正科学生涯从那个下午开始

讲座预告｜9月23日-29日

深切缅怀周光召先生

瞬间传输成为现实？光速：不能比我快 | 十万个量子为什么（一）

直播预告|漫话超材料周济院士

诺奖之后，杨振宁还做了什么？| 物理繁星闪耀时（一）

2025年接收推荐免试生面试预通知

教师节快乐！

讲座预告｜9月9日-15日

宇称不守恒是如何发现的？

周光召发表于 Communications in Theoretical Physics 文章合集

周光召在国际顾问委员会上的讲话

理论物理所举行2024年研究生开学典礼暨入所教育

历史的回顾与漫谈——中国学者与统计物理学

讲座预告｜9月2日-8日

Physics Reporsts 最新综述：涌现自组织的原理

2024年理论物理所重要科研进展系列（十五）：活性湍流中的维度依赖

半个世纪前的简单实验，改变了人们对量子效应的认知

Doctor Curious 58：非粒子物理与非核物理简介

量子力学，谁是浮士德？谁是魔鬼？

讲座预告|8月26日-30日

超级电容器，我叫你一声“电池”，你敢答应吗！

缅怀周光召先生|周光召院士：对我国基础研究布局的几点思考

缅怀周光召先生|如何发展中国的理论物理

2024年理论物理所重要科研进展系列（十四）：无序体系的一阶相变——jamming相变

缅怀周光召先生|周光召同志的学风

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉