神经网络在当今人工智能研究和应用中发挥着不可替代的作用。它是人类在理解自我(大脑)的过程中产生的副产品,以此副产品,人类希望建造一个机器智能来实现机器文明。这个目标在当下如火如荼的人工智能研究中被无限倍凸显,甚至被认为是一场工业革命到来的标志。
在人类社会前几次工业革命浪潮中,物理学扮演了十分重要的角色,或者说,这些革命的理论基石在于物理学原理的突破,如热学、量子力学和相对论。但当今的人工智能革命似乎是经验科学所驱动的,在过去20年间,人工神经网络的架构出现了快速迭代,尤其是谷歌等互联网巨头加入这场浪潮之后。物理学对神经网络的研究历史悠久,最早可追溯到上世纪80年代初霍菲尔德联想记忆网络的提出;物理学思想在这之后对人工神经网络和神经动力学的研究都产生了深远的影响。著名物理学家戴森有一句说法:“严谨理论赋予一个课题以智力的深度和精确。在你能证明一个严格理论之前,你不可能全面了解你所关注的概念的意义。”获得玻尔兹曼奖的物理学家霍菲尔德也曾在一次访谈中提到,“如果你不能用数学的语言去描述大脑,那你将永远不知道大脑是怎么工作的。”而鉴于他自身的习惯,“如果一个问题和我熟知的物理毫无联系,那我将无法取得任何的进展”。所以,在人工智能可能重塑人类社会的方方面面的同时,我们有必要去了解物理学的思想如何影响人们对神经网络乃至自我的认知。
(一)从伊辛模型谈起
伊辛模型是统计物理的标准模型。它虽然被用来描述格点上(比如二维表面)磁矩的集体行为,但是却包含了非常丰富的物理图像(比如相变、自发对称性破缺、普适性等),更让人震惊的是,这个模型的物理图像可以向外扩展到多个似乎好不相关的学科,如经济学、神经科学、机器学习等。我们先从物理学专业本科生所熟知的态方程讲起:
这显然是个迭代方程,描述了自旋之间的相互作用,表示磁化强度矢量,则表示外加磁场。注意到,该态方程在没有外加磁场的情况下并且相互作用较弱情况下,有且只有一个平庸解,即所有磁化为零,用物理学语言叫顺磁态。然而,当增大相互作用到一定程度时,顺磁态将失去稳定,该方程有两个非平庸解(物理上叫铁磁解,即。这个过程叫自发对称性破缺或连续相变。这个迭代蕴含了神经网络的形式。神经网络的基本属性可以总结为DNA,即数据(data)、网络(network)和算法(algorithm)。你把初始化看成输入数据,每迭代一次将生成一个新的,这个就是神经网络的中间隐层表示。然而,奇妙的是,神经网络把也变成可以变化的量,这就意味着这个模型是可以变聪明的(即能理解每一个输入),这在传统物理学里很不可思议,因为模型通常需要大物理学家猜出来。而外场可以等价于神经网络的偏置。那么如何更新呢?那么你需要写下一个目标函数,即这个神经网络,或者学习中的模型要达到什么样的目标。比如,实现数据的二分类,你可以轻松的写下, 这里的表示数据输入-输出对(在机器学习叫标签), 而就是这个被参数化的神经网络(其本质显然是一个非常复杂的嵌套函数,类似于上面态方程的多次迭代,只不过每次迭代的都不一样)。
接下来你需要一个算法来驱动这个网络自我更新,这个算法其实就是梯度下降:。聪明的读者一眼就认出这是个过阻尼的朗之万动力学,因为人们在训练神经网络时通常在上面的方程右边加入微弱的白噪声。所以,神经网络的学习过程是在你为它定义的势能函数下的随机游走(或者布朗运动),如果你稍微学过一点随机动力学的话,你立马知道这个神经网络的学习过程存在平衡态,其分布正好是玻尔兹曼分布,其中就是统计物理的地标---配分函数,而 则控制学习过程随机涨落的程度,类似一个粒子在相同温度的溶液里运动。相信你已经获得足够深刻的理解,神经网络的本质是一个从简单函数(如上述的,这个函数是因为自旋有两个取值并且服从玻尔兹曼正则分布)反复迭代出来的超级复杂并且表达能力爆表的函数,这个函数需要不断更新它的参数,即和,这些参数构成一个聪明的物理学模型(能自我更新,无需靠大物理学家来定义);而这个模型的更新又是一个布朗运动的过程,服从朗之万动力学。所以神经网络的DNA本质在于物理学。
接下来将给大家介绍几个研究神经网络本质的物理学思想。(未完待续)