论文推荐 | 人工智能综述:物理学与人工智能的跨界新范式

文摘   2024-11-07 17:01   河北  

点击蓝字 关注我们

DIGITAL TWIN



本期阅读


2024年诺贝尔物理学奖授予了约翰·J·霍普菲尔德和杰弗里·E·辛顿,以表彰他们在使用人工神经网络进行机器学习的基础性发现和发明。


机器学习的发展与物理有何种关系,又会对物理学产生怎样的影响?今天我们介绍一篇综述论文 AI meets physics: a comprehensive survey,文章整理了物理学中四大领域(经典力学、电磁学、统计物理、量子力学)的思想如何指导AI模型的构建,深入探讨了物理学与人工智能发展的相互促进


 文章信息 

论文“AI meets physics: a comprehensive survey”于2024年8月发表于Artificial Intelligence Review期刊,这篇文章由Licheng Jiao, Xue Song, Chao You, Xu Liu, Lingling Li, Puhua Chen, Xu Tang, Zhixi Feng, Fang Liu, Yuwei Guo, Shuyuan Yang, Yangyang Li, Xiangrong Zhang, Wenping Ma, Shuang Wang, Jing Bai & Biao Hou共同完成。

DOI:https://doi.org/10.1007/s10462-024-10874-4

论文链接:

https://link.springer.com/article/10.1007/s10462-024-10874-4

引用本文:

Jiao, L., Song, X., You, C. et al. AI meets physics: a comprehensive survey. Artif Intell Rev 57, 256 (2024). https://doi.org/10.1007/s10462-024-10874-4



 文章阅读    


AI meets physics: a comprehensive survey


Licheng Jiao, Xue Song, Chao You, Xu Liu, Lingling Li, Puhua Chen, Xu Tang, Zhixi Feng, Fang Liu, Yuwei Guo, Shuyuan Yang, Yangyang Li, Xiangrong Zhang, Wenping Ma, Shuang Wang, Jing Bai & Biao Hou


The Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education, School of Artificial Intelligence, Xidian University, Xi’an, 710071, China


摘要

物理学机制的揭示正在推动人工智能(AI)发现的新范式。如今,物理学通过数据、知识、先验和规律,使我们能够在广泛的物质、能量和时空尺度上理解AI范式。同时,AI范式也汲取并引入物理学的知识和规律以促进自身的发展。这种利用物理科学启发AI的新范式就是人工智能的物理(PhysicsScience4AI,PS4AI)。虽然AI已经成为各个领域发展的驱动力,但在AI深度学习领域仍然存在一个难以解释的“黑箱”现象。本文将简要回顾相关物理学科(经典力学、电磁学、统计物理、量子力学)与AI之间的联系,重点讨论物理学科的机制及其如何启发AI深度学习范式,并简要介绍AI解决物理问题的一些相关工作。PS4AI是一个新的研究领域。在文章的结尾,我们总结了新物理启发AI范式面临的挑战,并对下一代人工智能技术进行了展望。本文旨在对物理启发的AI深度算法相关研究进行简要回顾,并通过阐明物理学的最新进展,激发未来的研究和探索。


目录

一、引言

二、受经典力学启发的AI模型

三、受电磁学启发的AI模型

四、受统计物理学启发的AI模型

五、受量子力学启发的AI模型

六、总结


1 引言

人工智能包含了一系列广泛算法和用于大规模数据处理任务的建模工具。大数据和深度神经网络的出现为各个领域提供了优雅的解决方案。学术界也开始探索AI在各种传统学科中的应用,目标是促进AI的发展,同时进一步提升传统分析建模的可能性。实现通用人工智能是人类一直追求的目标。尽管在过去的几十年里,AI取得了相当大的进展,但实现通用机器智能和类脑智能仍然困难重重。


目前,研究人员开始探索“AI + 物理学”这一领域。当前研究的目标包括:(1)利用物理学和人工智能的研究成果来研究大脑学习的基本原理;(2)利用AI促进物理学的发展;(3)利用应用物理学来指导新型AI范式的发展。我们选择性地回顾了AI与物理学交叉领域的相关研究,包括物理洞察推动的AI概念与算法的发展、人工智能技术在物理学多个领域中的应用,以及这两个领域的交叉点。


物理学 众所周知,物理学是一门自然科学,在认知客观世界中具有启发性作用,重点研究物质、能量、空间和时间,特别是它们各自的属性及其相互关系。广义上讲,物理学通过探索和分析自然界发生的现象来理解其规律。统计力学描述了神经网络在统计物理学中的理论进展。在漫长的历史中,物理知识(先验知识)已被收集、验证并整合到实用理论中。它是自然和人类行为规律在许多重要学科和工程应用中的简化归纳。如果能够适当结合先验知识与AI,则可以从稀疏的数据集中提取出更丰富和有效的特征信息,有助于提高网络模型的泛化能力和可解释性。


人工智能 人工智能是一门研究和开发用于模拟和扩展人类大脑智能的理论和应用系统的学科。人工智能的目的是使机器能够模拟人类的智能行为(如学习、推理、思考、规划等),使机器具备智能并完成“复杂工作”。如今,人工智能在计算机领域受到了广泛关注,涉及机器视觉、自然语言处理、心理学和教育学等学科,是一门跨学科的学科。物理学与深度学习的融合为理论科学提供了激动人心的前景,提供了对深度网络学习和计算能力的宝贵见解。


关系 物理学的发展是对自然的简化归纳,促进了人工智能中的类脑科学研究。而大脑对任何“经验”技术的感知接近于所谓的“物理感知”,物理学为当前人工智能研究开辟了新途径并提供了新工具。在某种程度上,人工智能模型和物理模型都可以共享信息并预测复杂系统的行为,即它们共享某些方法和目标,但实现方式不同。因此,物理学应当理解自然机制,利用先验知识、规律性和归纳推理来指导模型,而与模型无关的AI则应通过数据提取提供“智能”。


主要贡献 基于这些分析,本研究旨在对物理启发的AI深度学习领域进行全面回顾和分类,并总结未来急需解决的潜在研究方向和开放问题。本文的主要贡献总结如下:

  1. 全面性和可读性。本文全面回顾了400多个物理科学正在进展中的思想和物理启发的深度学习AI算法,并从经典力学、电磁学、统计物理和量子力学四个方面总结了现有的物理启发学习和建模研究。
  2. 启发性。文章总结了人工智能技术解决物理科学问题的最新进展。最后,在新一代深度学习人工智能算法中,我们分析了AI与物理学之间的展望与意义。

  3. 深入分析。本文回顾了需要解决的开放问题,以促进未来的研究和探索。

在本综述中,我们首先对深度学习人工智能与物理学的不同交叉点进行一致的回顾。其余部分组织如下:第2章介绍了从经典力学角度启发的人工智能算法及其如何解决物理问题。第3章简要回顾了电磁学启发的人工智能算法及其在电磁学中的应用。第4章和第5章分别概述了统计物理学和量子力学启发的AI算法及其应用。第6章探讨了当前AI与物理学交叉点面临的潜在应用和挑战。第7章是本文的结论。



2 由经典力学启发的深度神经网络范式


本节我们将简要介绍几何深度学习中的流形、图和流体动力学,以及动态神经网络系统中Hamiltonian/Lagrangian和微分方程求解器的基础知识。然后解释与其相关的工作,最后介绍图神经网络的深度学习方法来解决物理问题。我们在表1中总结了本节的结构和代表性方法的概述。


2.1 几何深度学习


深度学习模拟物理世界的对称性(即物理规律在各种变换下的不变性)。从物理规律的不变性出发,可以得到一个不变量,这被称为守恒量或不变量,宇宙遵循平移/旋转对称性(动量守恒)。动量守恒是空间均匀性(畸变度)的体现,通过数学群论可以解释:空间具有平移对称性——物体经过空间平移变换后,物理运动趋势和相关物理规律保持不变。20世纪,Noether提出了Noether定理,即每一个连续对称性都对应一个守恒定律,相关表达式参见文献(Torres 2003, 2004;Frederico 和 Torres 2007),相关应用见图2。

图2 Noethe定理的相关应用


卷积神经网络(CNN)的平移不变性、局部性和组合性使它们自然适合处理像图像这样的欧几里得结构数据任务。然而,世界上仍然存在复杂的非欧几里得数据,几何深度学习(GDL)应运而生(Gerken等,2023)。从对称性和不变性的角度出发,研究了在非传统平面数据(非欧几里得数据)结构情况下深度学习框架的设计(Michael,2017)。这个术语最早由Michael Bronstein在2016年提出,GDL试图将(结构化的)深度网络推广到非欧几里得领域,如图和流形。数据结构如图3所示。

图3 欧几里得/非欧几里得数据结构


本部分介绍了流形神经网络(Manifold Neural Networks,局部欧氏空间)、图神经网络(Graph Neural Networks,非欧氏数据)和流体动力学神经网络(Fluid Dynamics Neural Networks)。


流形是一种具有局部欧氏空间性质的空间,在数学上被用来描述几何形状,例如雷达扫描返回的各种物体表面的空间坐标。黎曼流形是具有黎曼度量的微分流形,其中黎曼度量是微分几何中的一个概念。简单来说,黎曼流形是一个光滑流形,给定了一个光滑的、对称的、正定的二阶张量场。流形学习是一大类基于流形的框架,恢复低维结构通常被称为流形学习或非线性降维,它是无监督学习的一个实例。


图神经网络 图是指由节点和边组成的网络结构数据,如社交网络。图卷积神经网络(GCN)是GNN的“首创”工作。它采用半监督学习方法来近似原始图卷积操作中的卷积核,并改进了原始图卷积算法。图卷积网络是许多复杂图神经网络模型的基础,包括基于自编码器的模型、生成模型和时空网络。文章具体讨论了图卷积神经网络(GCNs)及其在推荐系统中的应用,以及结合了自然语言处理中的注意力机制的图注意力网络(Graph Attention Networks)。


流体动力学神经网络部分介绍了如何将流体动力学的原理应用于神经网络,以解决流体力学问题。计算流体动力学(CFD)是现代流体力学结合的产物,其研究内容是通过计算机和数值方法求解流体力学的控制方程,模拟和分析流体力学问题。隐流体力学网络框架(Hidden Fluid Mechanics Network Framework)通过将流体力学的方程编码到神经网络中,来预测流体物理数据。


2.2 动态神经网络系统


动力学分析和神经网络都能表示非线性函数。同时,各种非线性函数实际上是不同层之间传播的信息波。如果将现实世界中的物理系统用神经网络表示,将大大提高将这些物理系统应用于人工智能领域进行分析的可能性。神经网络通常使用大量数据进行训练,并通过获取的大量信息调整数据的权重和偏差。通过最小化实际输出与期望输出值之间的差异,逼近真实值,从而模仿人脑神经元的行为进行判断。然而,这种训练方法存在“混沌盲区”的缺陷,即AI系统无法对系统中的混沌(或突变)做出响应。


瑞士数学家Johann Bernoulli提出的最速降线问题使变分法成为解决数学物理中极值问题的重要工具。物理问题(或其他学科问题)的变分原理通过使用变分方法转化为寻找函数极值(或驻值)的问题。变分原理也称为最小作用量原理。Karl Jacobbit称最小作用量原理为解析力学之母。对该原理的研究促使了经典力学中哈密顿和拉格朗日公式的发展。


哈密顿神经网络和拉格朗日神经网络(Hamiltonian/Lagrangian Neural Networks)受到经典力学中哈密顿和拉格朗日表述的启发。哈密顿表述使用相空间和能量函数来描述系统的状态,而拉格朗日表述则侧重于系统的位置和速度。在深度学习中,有人尝试在哈密顿神经网络中嵌入物理法则,例如守恒定律,以提高模型的预测能力和泛化能力。哈密顿神经网络和拉格朗日神经网络可以用于建模和预测各种动力学系统的行为,包括机械系统、流体动力学系统、天体运动等。通过学习系统的动力学规律,这些网络能够预测系统在未来的状态。在控制理论中,哈密顿神经网络和拉格朗日神经网络可以用来设计和优化控制器,它们可以帮助确定如何通过控制输入来引导系统从一个状态转移到另一个状态,同时遵守物理法则。在优化问题中,哈密顿神经网络和拉格朗日神经网络可以帮助寻找系统的最优控制策略,以最小化能量消耗或最大化系统性能。


神经网络微分方程求解器 在物理学中,由于局部性和因果关系方程的概念,微分方程是基本方程,因此将神经网络视为动态微分方程并使用数值求解算法设计网络结构是一种前沿趋势。这种方法的核心在于将物理法则,如能量守恒和动量守恒,直接嵌入到神经网络的训练过程中,从而确保模型的预测不仅符合数据特征,还遵循物理定律。


常微分方程神经网络和偏微分方程神经网络是这一领域的两个主要方向。常微分方程神经网络专注于求解描述系统状态随时间变化的方程,而偏微分方程神经网络则处理涉及空间变化的方程。这些网络通过学习微分方程的解,能够模拟从流体动力学到结构力学,再到量子化学等一系列复杂的物理过程。


物理信息神经网络( PINNs) 物理信息神经网络通过将微分方程作为约束条件直接嵌入到神经网络的损失函数中,确保了网络预测的物理可行性。这种方法在处理逆问题、预测复杂系统行为以及在数据稀缺的情况下进行建模方面显示出了巨大的潜力。


2.3 使用图神经网络解决物理问题


文章描述了图神经网络在分子设计、医学物理、高能物理、电力系统,以及玻璃系统结构预测(玻璃相变)等领域的应用及显著成果。



3 由电磁学启发的深度神经网络范式


电磁学是研究电磁场的产生、传播和相互作用的物理学分支。在人工智能领域,电磁学的原理被用来设计和优化深度神经网络模型,以处理与电磁现象相关的数据和问题。


3.1 光学设计神经网络


光学神经网络(ONNs)是一种利用光学技术(如光学连接技术、光学器件技术等)设计的新型神经网络。光学神经网络的理念是通过利用调制将信息附加到光学特性上来模仿神经网络。同时,利用光的传播原理,如干涉、衍射、透射和反射,实现神经网络及其操作符。ONNs的首次实现是光学Hopfield网络,由Demetri Psaltis和Farhat于1985年提出。在传统神经网络中主要涉及三个操作符:线性操作、非线性激活操作卷积操作,本节依次介绍了上述操作符的光学实现。


电磁学的原理在神经网络中的应用不仅限于光学神经网络。例如,电磁场的计算和模拟可以通过深度学习方法来增强,从而提高计算效率和准确性。此外,电磁学中的波动方程和麦克斯韦方程组的解可以通过神经网络来近似,这在天线设计、微波工程和光学成像等领域具有潜在的应用价值。


深度学习模型,尤其是卷积神经网络(CNNs),在图像和信号处理方面表现出色。这些模型可以被训练来识别和处理电磁场中的模式,如电磁波的传播特性、天线的辐射模式等。通过学习这些复杂的电磁现象,深度学习模型能够提供对电磁场行为的深入理解,并在设计和优化电磁系统方面发挥作用。


文章展示了电磁学原理如何启发深度神经网络模型的设计和应用。通过将电磁学的概念和方法融入到深度学习中,我们可以开发出能够处理复杂电磁现象的强大工具,这些工具在通信、雷达、医疗成像和许多其他领域都有着广泛的应用前景。这些深度神经网络范式通过模仿电磁学的原理,如波动传播、干涉和衍射,来提高网络模型的泛化能力和可解释性。



4 由统计物理学启发的深度神经网络范式


统计物理的研究对象是由大量粒子(或大量自由度)构成的宏观系统,目的是研究这些系统与热现象有关的宏观性质。不过与热力学的研究方法不同的是,热力学是从若干经验定律出发,通过数学上的逻辑演绎方法,最终导出系统的宏观性质;而统计物理则是从单个粒子的力学运动规律出发,加上统计的假设,最终来获得系统的宏观性质。统计物理是微观与宏观的桥梁,它提供了研究物质世界宏观性质的一个强有力的理论工具。


在机器学习中,统计物理的思想常被用来设计处理具有随机性的模型,统计物理学中的许多概念(比如熵、混沌)和一些经典物理模型(比如伊辛模型)常被借鉴到机器学习中。


4.1 非平衡神经网络


统计物理通常包含平衡态统计物理与非平衡态统计物理:前者只涉及所有宏观性质与时间无关的行为,而后者则涉及系统的时间演化行为。有趣的是,系统如何从非平衡向平衡演化,为什么所有系统都达到统计意义上的相同平衡态而与它们各自的动力学无关,以及是否真的与动力学无关等问题,至今仍是有待进一步研究的问题,其中包含深刻的物理和哲学问题。

—— 杨展如 《量子统计物理学》


非平衡统计物理学中最普遍的问题是对物理(化学或天文学)系统时间演化的详细描述。例如,趋向于平衡状态的不同现象,考虑系统对外部影响的响应、由波动引起的亚稳态和不稳定性、模式形成和自组织、违背确定性描述的概率的出现、开放系统等。非平衡统计物理学不仅创造了与物理学相关的概念和模型,还与信息、技术、生物学、医学和社会科学密切相关,甚至对基本的哲学问题产生了重大影响。


熵 统计物理学中的熵概念,最初是热力学的一个基本概念,描述了系统的“内在混乱程度”。我们常常听到的熵增原理就是在说:宇宙中的事物有自发变得更加混乱的趋势。1877年,玻尔兹曼提出了熵的物理解释:可以认为是所有可能的微观状态的等概率统计平均——这是系统的一种宏观物理属性。随着香农将统计物理学中熵的概念推广到通信领域,提出信息熵——用来衡量信息的不确定性或信息量,熵的普遍意义变得更加明显了。


在深度学习中,模型接收信息的速度是固定的,因此加快学习进度的唯一方法是减少学习目标中的冗余信息。所谓的“去粗取精”就是深度学习模型中的最小熵原理,可以理解为“减少不必要的学习成本”。


混沌神经网络 混沌指的是确定性动态系统由于对初始值的敏感性而表现出的不可预测的、类似随机的运动。Poole等人(2016)在NIPS上发表的一篇文章将黎曼几何和动态平均场理论结合,通过随机深度网络的传播分析信号,并在相平面中形成方差权重和偏差。该研究揭示了信号传播在有序状态和混沌状态之间的动态相变。


从伊辛模型到霍普菲尔德网络  伊辛模型(Ising model)是统计物理中最重要的模型之一,它通过描述粒子的自旋状态来研究物质的磁性行为。对于伊辛模型,如果所有自旋方向相同,则系统的哈密顿量处于最小值。1982年,Hopfield受伊辛模型的启发,提出了Hopfield神经网络。Hopfield网络通过模拟神经元之间的相互作用来存储和回忆信息——它可以解决一大类模式识别问题,也可以给出一类组合优化问题的近似解。将脑神经网络与统计物理中的伊辛模型进行对比,将磁自旋的向上和向下两个方向视为神经元的激活和抑制两种状态,将磁自旋的相互作用视为神经元的突触权重值,这种类比为大量的物理理论和许多物理学家进入神经网络领域铺平了道路。


经典模拟退火算法物理退火过程:首先,物体处于无定形状态,然后将固体加热到足够高的水平以使其变得无序,然后慢慢冷却,退火为晶体(平衡状态)。


模拟退火算法最早由Metropolis等人在1983年提出,Kirkpatrick等人在1983年将其应用于组合优化,形成了经典的模拟退火算法:利用物理中固体物质的退火过程与一般优化问题之间的相似性;从某一初始温度开始,随着温度的不断下降,结合Metropolis准则的概率突变特性(以一定概率接受新状态),在解空间中搜索,并以概率1停留在最优解上(图14)。

图14 全局最优搜索过程


玻尔兹曼机神经网络 Hinton于1985年提出了玻尔兹曼机(Boltzmann Machine,BM),在物理学中常被称为逆伊辛模型。它在神经元的状态变化中引入统计概率,网络的平衡态服从玻尔兹曼分布,网络运行机制基于一种模拟退火算法,是一种良好的全局最优搜索方法,在一定范围内被广泛应用。


受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)是玻尔兹曼机的一种,其神经元之间表现出特定的结构和相互作用模式。RBM的目标是以最大化观测数据的似然概率的方式调整其网络参数。通过学习可见单元和隐藏单元之间连接的权重和偏置,RBM旨在捕获和表示数据中存在的潜在模式和依赖关系。通过迭代学习过程,RBM调整其参数以提高生成观测数据的可能性,从而增强其建模和生成相似数据实例的能力。


4.2 基于能量模型设计神经网络


在物理学中,能量是系统状态的一个核心概念,它与系统的行为和变化密切相关。系统的稳定状态实际上代表了其对应的势能最低的状态。将这个思想迁移到深度学习中,可以构造出神经网络处于稳态时能量函数的定义。在神经网络中,能量的概念被用来分析和优化网络的损失函数,通过寻找能量最小化的状态来训练网络,提高网络的性能和泛化能力。


我们耳熟能详的一些神经网络其实都是基于能量模型来设计的,如生成对抗网络(GANs)、变分自编码器(Variational Autoencoder, VAE)、自回归模型(Autoregressive Models)等等。


GANs通过引入一个生成器网络和一个判别器网络的对抗过程,生成器网络试图生成与真实数据相似的数据,而判别器网络则试图区分真实数据和生成数据。这个过程中的“能量”最小化对应于生成数据的质量和真实性。


VAE是一种利用概率生成模型的深度学习框架,它通过最小化输入数据和生成数据之间的自由能差异来学习数据的有效表示。VAE模型中的自由能包含了数据的生成概率和先验知识的结合,从而能够生成新的数据样本。


自回归模型是一类通过明确定义数据点之间的依赖关系来建模数据分布的神经网络。这些模型通过序列的方式逐步生成数据,每一步的生成都依赖于前一步或多步的输出,从而捕捉数据中的复杂结构。在自回归模型中,每个数据点的概率分布是其之前数据点的函数,这种依赖关系可以被看作是一种“能量”关系,通过训练自回归模型来最大化似然函数,从而生成与真实数据分布相匹配的新数据样本。


RG-RBM模型 Mehta和Schwab在2014年的论文中探讨了重整化(renormalization)概念在深度学习模型性能解释中的应用。他们指出,深度神经网络(DNN)通过迭代式的粗粒化方案学习高级特征,这与统计物理学中的重整化群理论(Renormalization Group Theory, RG)相似。他们论证指出,深度学习中提取相关特征的过程与统计物理学中的粗粒化过程在本质上是相同的,因为深度神经网络有效地模仿了这一过程。


此外,论文还强调了重整化群与受限玻尔兹曼机(RBM)之间的紧密联系,并建议将物理概念框架与神经网络进行可能的整合。重整化群与受限玻尔兹曼机之间的这种映射为统计物理学与深度学习之间的关系提供了见解。


4.3 耗散结构神经网络


自组织理论认为,当一个开放系统远离平衡态达到非线性区域时,一旦系统的某个参数达到一定阈值,系统就会通过波动发生突变,从无序转变为有序,并产生化学振荡等自组织现象。它由耗散结构(从无序到有序)、协同(系统各元素的协同作用)和突变理论(阈值突变)组成。


自组织特征映射(SOM)于1989年由Kohonen教授提出,是一种无监督学习的神经网络,它能够将高维数据映射到低维空间中,同时保持数据的拓扑结构。SOM的灵感来自于统计物理学中的自组织现象,其中系统通过内部相互作用自发形成有序结构。


耗散结构神经网络模仿了非平衡态统计物理学中的耗散结构,这些网络能够在远离平衡态的条件下,通过外部能量输入和内部耗散过程,自发地形成有序结构。这种网络在处理非线性动态系统时表现出色,例如在模式识别和时间序列预测中的应用。

4.4 随机表面神经网络


机器学习早期的研究很大程度上受限于凸优化理论的条件——局部最优即是全局最优。在处理非凸曲面时,高误差局部极小值的存在会影响梯度下降的动态性,从而影响优化算法的整体性能。


随机表面神经网络(Random Surface Neural Networks)是一类模仿物理中随机表面概念的深度学习模型,它们在设计上受到统计物理学中随机表面模型的启发。在物理学中,随机表面通常指的是具有随机粗糙度的表面,这种表面可以用一系列随机的高低起伏来描述。类似地,在机器学习中,随机表面模型被用来描述和处理数据的复杂性和多样性。这些模型可以捕捉数据中的随机波动和不确定性,从而提高模型对数据的适应能力。


随机表面神经网络通过在网络的权重和激活函数中引入随机性,来模拟物理随机表面的统计特性。这种方法可以帮助网络更好地处理输入数据的不确定性,提高网络对新数据的泛化能力。统计物理学中的随机矩阵理论被用来分析神经网络的损失函数曲面。通过这种方法,研究者可以更好地理解神经网络在训练过程中的动态行为,以及如何优化网络的权重以避免陷入局部最小值。随机表面神经网络能够处理和模拟复杂数据的不确定性和随机性,特别是在处理高维数据时表现出色。


总之,统计物理学研究了不同的表面模型,以分析非凸优化景观的行为。理解这些表面的特性不仅对解决高维优化问题的挑战至关重要,而且对改进人工智能算法的性能也具有重要意义。


4.5 自由能表面(FES)神经网络


自由能是指在特定热力学过程中,系统的减少的内能中能够转化为外界功的一部分。它衡量的是在特定热力学过程中,系统能够向外部输出的“有用能量”。自由能可以分为亥姆霍兹自由能和吉布斯自由能。配分函数与自由能是等价的。

在基于能量的模型中,研究人员提出了许多方法来克服计算自由能的困难。这些方法包括穷尽蒙特卡洛法、对比散度启发式及其变体、分数匹配、伪似然以及最小概率流学习(MPF)(其中MPF本身基于非平衡统计力学)。尽管取得了这些进展,在高维数据集上训练具有表现力的基于能量的模型仍然是一个未解决的挑战。


4.6 知识蒸馏优化神经网络


对于神经网络来说:模型越大,层数越深,学习能力越强。为了从大量冗余数据中提取特征,卷积神经网络通常需要过多的参数和更大的模型进行训练。然而,模型结构的设计难以设计,因此模型优化成为解决这一问题的重要因素。


知识蒸馏 在2015年,Hinton的开创性工作“知识蒸馏”(Knowledge Distillation, KD)推动了模型优化的发展。知识蒸馏是一种模型压缩和加速技术,模拟物理中的加热蒸馏以提取有效物质,并将大模型(教师网络)的知识转移到小模型(学生网络),从而使模型更易于部署。在蒸馏过程中,小模型学习大模型的泛化能力,加快推理速度,并保留接近大模型的性能(图16)。


知识蒸馏被广泛应用于计算机视觉、自然语言处理和语音识别等领域。例如,在自然语言处理中,知识蒸馏可以用来创建轻量级的BERT模型,如DistilBERT,它在保持与原始BERT模型相似的性能的同时,显著减少了模型的大小和计算需求。


4.7 深度神经网络解决经典统计物理问题


本章节介绍了人工智能在解决经典统计物理方面的应用,如魔方问题,神经网络检测相变,蛋白质序列预测与结构建模,有序玻璃状结构设计,以及如何提供一个稳健系统来研究、预测和控制非线性动力系统。



5 受量子力学启发的深度神经网络范式


量子算法是一类在量子计算模型上运行的算法。通过借鉴量子力学的基本特性,如量子叠加或量子纠缠,量子算法在计算复杂性上相比传统算法具有显著的减少,甚至可以达到指数级的降低。


5.1 量子机器学习


量子机器学习(Quantum Machine Learning,QML)结合了量子计算的速度和机器学习提供的学习和适应能力。通过模拟微观粒子所具有的叠加、纠缠、一致性和平行性特性,将传统的机器学习算法量子化,以增强其表示、推理、学习和数据关联的能力。


通常,量子机器学习算法有以下三个步骤:


(1) 量子态制备。利用量子计算的高度并行性,原始数据必须转换为量子比特的形式,使数据具有量子特性;


(2) 量子算法处理。量子计算机不再属于冯·诺依曼架构,其操作单元与传统计算机完全不同,因此需要将传统算法量子化并移植到量子计算机上。算法的移植应结合传统算法的数据结构和量子理论的特性,以有效加速传统算法,使量子算法的使用具有意义;


(3) 量子测量操作。结果以量子态的形式输出,它本身以概率形式存在。通过量子测量,量子叠加波包坍缩为经典态,从而提取量子态中包含的信息以供后续信息处理。


与传统机器学习算法一样,量子机器学习算法可以根据数据格式进行分类:量子无监督学习和量子监督学习。


5.2 量子深度学习


与量子机器学习类似,量子深度学习(QDL)使得深度学习算法能够利用量子力学的基本性质。QDL使用量子计算代替传统的冯·诺依曼计算,从而使深度学习算法量子化,显著提高算法的并行性,减少计算复杂性。


神经元的基本原理是通过权重参数模拟兴奋或抑制的信号,并通过连接权重模拟信息处理,以获得输出。量子神经网络使用比特和量子门来构建和训练模型,从而实现对数据的高效处理。例如,量子多层感知器、量子卷积神经网络、量子递归神经网络。


5.3 量子进化算法


进化算法是一种基于达尔文自然选择理论和孟德尔遗传变异理论构建的随机搜索算法,模拟生物进化中的繁殖、突变、竞争和选择过程。量子进化算法使用量子比特来编码个体,并通过旋转门和非门来更新个体,使得个体能够同时包含多个状态的信息,从而获得更丰富的种群,大大提高了算法的并行性和收敛速度。


在量子进化算法中,每个个体都用量子比特进行编码。编码后,个体的每个基因都包含了处于叠加态的全部信息。



6 顶级开放问题


物理知识的规律丰富且强大,而人工智能(AI)模型则通过模拟由权重连接的数百万个神经元组成的大脑来实现人类行为。通过物理知识与人工智能的结合、相互影响和演化,人们对深度神经网络模型的理解得到了提升,进而推动了新一代人工智能的发展。然而,将这两者结合起来也面临着巨大的挑战,以下是我们将要讨论的相关问题:

图18  物理与人工智能结合的顶级问题


6.1 开放问题1:物理先验的可信性、可靠性和可解释性


作为一种通用模型,人工智能中的神经网络在物理学的各个领域变得越来越受欢迎。然而,神经网络的内在特性(如参数和模型推理结果等)难以解释,因此神经网络经常被贴上“黑箱”的标签。可解释性旨在以人类能够理解的方式描述系统的内部结构和推理,这与人脑的认知、感知和偏见密切相关。如今,新兴且活跃的物理神经网络交叉领域试图通过基于物理知识设计深度神经网络来使黑箱透明化。通过使用这种先验知识,更深更复杂的神经网络成为可能。然而,神经网络内部结构的推理和解释仍然是一个谜,作为先验知识补充的物理信息方法在解释人工智能神经网络时已成为一大挑战。


6.2 开放问题2:因果推理与决策制定


人工智能的目标是让机器学会像大脑一样“思考”和“决策”,而大脑对现实世界的理解、对不完全信息的处理以及在复杂场景中的任务处理能力是当前人工智能技术所无法比拟的,尤其是在时间序列问题上。由于大多数现有的人工智能模型是由关联驱动的,就像物理机器的决策输出会受到机制变化或其他因素干预的影响一样,这些模型通常只知道“如何”(关联)而不知道“为什么”(因果)。最近在时间序列因果性方面的突破性工作为人工智能奠定了基础。将因果推理、统计物理思维以及大脑的多视角认知活动引入人工智能领域,去除虚假关联,并利用因果推理和先验知识指导模型学习,是人工智能在未知环境中提高泛化能力的重大挑战。


6.3 开放问题3:灾难性遗忘


大脑记忆存储系统是一个信息过滤器,就像计算机清理磁盘空间一样,它可以删除数据中的无用信息以接收新信息。对于人类来说,遗忘的发生可以通过减少过时信息对人们的影响来提高决策的灵活性,还可以让人们忘记负面事件,提高适应能力。


在机器学习中,“灾难性遗忘”指的是当模型在学习新任务时,会忘记之前已经学过的任务。这种现象会严重降低模型的泛化能力和长期学习效果,尤其在持续学习或增量学习的场景中尤为明显。这些场景要求模型能够在处理新数据或任务时保留对旧数据或任务的知识。灾难性遗忘的原因主要在于权重更新的方式。


要实现今天的人工智能,代理程序必须能够学习和记住许多不同的任务,而学习过程最重要的部分是遗忘。通过选择性遗忘的净化,人工智能可以更好地理解人类指令,提高算法的泛化能力,防止模型过拟合,并解决更多实际问题。因此,学习遗忘是人工智能面临的重大挑战之一。


6.4 开放问题4:知识与数据驱动的优化与协作


在解决许多实际优化问题时,由于它们具有非凸或多模态、大规模、高约束、多目标和约束的高不确定性等特点,难以解决。多数进化优化算法通过评估候选解的潜力来运作,但目标函数与约束函数往往过于简化,甚至可能根本不存在。相比之下,通过数值模拟、物理实验、生产过程或日常生活中收集的数据来评估目标和/或约束,进而解决进化优化问题的方法,被称为数据驱动的进化优化。


然而,数据驱动的优化算法也会因数据的性质(如分布式、含噪声、异构或动态)而面临不同挑战。受人工智能(AI)算法启发,物理信息模型不仅降低了实施与计算成本,还展现出更强的泛化能力。AI主要依赖知识库与推理引擎来模拟人类行为,而知识作为数据与信息的高度凝练体现,往往意味着更高的算法执行效率。受物理学启发的知识驱动AI积累了丰富经验且具备强大的解释能力,因此,知识-数据双驱动的优化协同为通用AI提供了新的方法与范式。将两者结合将是一个极具挑战性的课题。


6.5 开放问题5:物理信息数据增强


在现实生活中,真实数据与预测数据分布之间存在差异,且获得高质量的标注数据至关重要,因此迁移学习(Tremblay 等,2018;Bousmalis 等,2018)、多任务学习和强化学习是引入物理先验知识不可或缺的工具。


实际上,许多问题无法独立分解为子问题,即使可以分解,每个子问题之间也通过某些共享因素或共享表征相互关联。因此,如果将问题分解为多个独立的单任务处理,就会忽略问题中丰富的相关性信息。多任务学习则是将多个相关任务放在一起进行学习,并在任务间共享已学习的信息,这是单任务学习所不具备的。关联多任务学习可以比单任务学习实现更好的泛化。然而,任务之间的干扰、不同任务之间的学习速率和损失函数以及模型有限的表达能力,使得多任务学习在人工智能领域面临挑战。


强化学习是人工智能领域的一个分支,它强调如何根据环境采取行动以最大化预期收益。它所带来的推理能力是衡量人工智能的关键特征之一,它赋予机器自我学习和思考的能力。物理定律是先验知识,如何将强化学习与物理学相结合是一个具有挑战性的课题。


6.6 开放问题6:系统稳定性


在物理学中,稳定性是所有自动控制系统必须满足的性能指标。它指的是系统在受到干扰后,能够恢复到原始平衡状态的性能。在人工智能领域,系统稳定性的研究是指系统的输出值能否跟上预期值,即分析系统输出值的稳定性。但是,由于人工智能系统具有动态性,其输出值也具有动态特性。神经网络模型是生物神经系统的高度简化近似,即神经网络可以近似任何函数。从系统的角度来看,神经网络相当于系统的输出函数,即系统的动态系统。它在不同程度和层次上模拟了人脑神经系统结构、机器信息处理、存储和检索的功能。从因果关系的角度来看,可解释性和稳定性之间存在一定的内在联系,即通过优化模型的稳定性,可以提高其可解释性,从而解决人工智能技术当前在实际应用中面临的困难。


作为一种新的学习范式,稳定学习试图结合这两个方向之间的共识基础。如何合理地放宽严格的假设以匹配更具挑战性的现实应用场景,使机器学习在不牺牲预测能力的情况下更可信,是未来稳定学习需要解决的关键问题。


6.7 开放问题7:轻量级网络


深度学习目前在人工智能领域发挥着重要作用,但受限于传统计算机架构,数据存储和计算需要通过内存芯片和中央处理器完成,这导致计算机处理数据时存在时间长、能耗高等问题。为了解决这些问题,可以将物理先验知识引入神经网络架构搜索(NAS)的搜索空间,以获得最优知识,从而在网络结构和预测结果之间取得平衡。同时,在基于物理知识的NAS中,模块化也发挥着关键作用。


此外,深度神经网络结构复杂,涉及大量超参数,在训练过程中非常耗时耗能,并且难以并行化。因此,我们应结合大脑的物理结构和思维行为,加入物理先验知识,突破计算能力瓶颈,实现低功耗、低参数、高速度、高精度的非深度人工智能模型,开发更高效的人工智能技术。


6.8 开放问题8:基于物理信息的联邦学习


隐私保护:人工智能算法的广泛应用不仅给人们带来了便利,也带来了巨大的隐私泄露风险。海量数据是人工智能的基础,正是由于大数据的使用、计算能力的提升以及算法的突破,AI才能快速发展并被广泛应用。获取和处理大量信息数据不可避免地涉及个人隐私保护的重要问题(Wang 和 Yang,2024)。因此,人工智能需要在隐私保护和AI能力之间找到平衡。


安全智能:随着AI在各行各业的广泛应用,滥用或恶意破坏AI系统将对社会产生巨大的负面影响。近年来,针对人工智能算法的算法攻击、对抗样本攻击、模型窃取攻击等攻击技术不断发展,这为人工智能带来了更大的算法安全风险。因此,实现人工智能的安全智能是未来的一大挑战。


6.9 开放问题9:算法公平性


尽管人工智能领域的快速发展为人们带来了诸多益处,但也存在一些公平性问题。如统计(抽样)偏差、算法自身的敏感性以及人为偏见引入的歧视行为。作为辅助人们进行决策的重要工具,提高人工智能算法的公平性是人工智能领域广泛关注的问题。鉴于物理距离和数据规模庞大,提高数据集质量、改善算法对敏感属性的依赖性(引入公平性约束)、定义指标量化和公平性测量,以及提高算法的泛化能力,都是解决这一问题的重要方法。此外,人机共生和算法透明性也是实现公平的重要途径。


机器智能与人类大脑认知、思维和决策的人机共生,再加上对现实世界规律(物理知识)的归纳推理,将是未来的发展方向。而算法透明度(可理解性和可解释性)则是实现公平的重要工具。算法公平性的问题并非要解决某些复杂的统计魔方难题,而在于尝试在只能捕捉影子的洞穴墙壁上体现柏拉图式的公平。因此,不断深化算法公平性研究是人工智能治理中的关键问题。


6.10 开放问题10:开放环境自适应学习


当前,人工智能领域主要基于封闭环境的假设,如数据的独立同分布(iid.)和分布常数假设然而,现实环境是开放且动态的,可能存在各种变化。神经网络的学习环境是学习过程的必要条件。开放环境作为学习的一种机制,需要进行信息交换,这要求未来的人工智能具备适应环境的能力,即AI的鲁棒性。例如,在自动驾驶领域,现实世界中总会出现无法通过训练样本模拟的紧急情况,尤其是在罕见场景下。因此,未来AI的发展必须能够克服“开放环境”问题,以进行数据分析和建模,这对人工智能系统的适应性或鲁棒性构成了巨大的挑战。


6.11 开放问题11:绿色低碳


随着人工智能领域的发展,人工智能赋能的产业逐渐需要一个更加绿色低碳的环境。目前,人工智能的三大基石——算法、数据和算力——正在大规模发展,导致资源消耗越来越高。因此,要实现绿色低碳智能,就必须进行“减法”。同时,新能源汽车、智能能源和人工智能的深度融合也对绿色低碳智能提出了巨大挑战。一方面,构建更灵活的网络模型;另一方面,构建更高效、更广泛的共享和复用机制,从宏观角度实现绿色低碳。总之,“创新、协调、绿色、开放和共享”五大发展理念为未来人工智能的发展指明了方向,并提出了基本的遵循原则。


6.12 开放问题12:道德和伦理建设


目前,人工智能已经为人类创造了巨大的经济利益,但其应用带来的负面影响和伦理问题也日益凸显。在人工智能时代,可预测、受约束且以行为为导向的人工智能治理已成为当务之急。例如,用户数据和信息的隐私保护;知识成果和算法的保护,AI换脸技术对肖像权的过度需求,自动驾驶安全事故的责任归属等。此外,AI技术也可能被犯罪分子滥用,例如从事网络犯罪、制作和传播虚假新闻、合成足以干扰视听的虚假图像等。


人工智能应以保护用户隐私为发展原则。只有这样,人工智能的发展才能回馈人类,并为人与人工智能之间的新伦理提供新的希望。



7 结论与展望


经过漫长时间的物理学演变,知识规律变得多样且强大。然而,我们当前对理论的理解不可避免地只是冰山一角。随着人工智能领域的发展,深度学习领域与物理学领域之间的联系日益紧密。


物理学与AI的结合,不仅仅是科学与技术的简单叠加,而是一场深刻的范式转变。通过将物理学的深刻见解融入到AI模型中,我们不仅能够更好地理解和预测自然界的现象,还能够设计出更加智能、高效的AI系统。随着研究的深入,我们有理由相信,物理学与AI的结合将为我们打开一扇通往未知世界的大门。



关注公众号,后台回复“AI”即可下载原文


相关阅读

 【意-中-美同时举行,2600余人参与】DigiTwin 2024第四届数字孪生国际会议圆满落幕!

  美国密歇根大学:用于预测性维护的数字孪生框架

  德国PROSTEP AG公司:数字孪生自动生成方法

  英国谢菲尔德大学团队:时间演化数字孪生及其在工程动力学中的应用

  武汉科技大学夏绪辉教授团队:基于知识图谱的再制造设备资源建模方法

  东北大学孙杰教授团队:数字孪生在工业过程控制中的应用:以带钢热轧为例

 【先睹为快】李培根:AI应用对工程技术认知的启示

 米兰理工大学:土木工程结构的数字孪生体系框架

 Nature子刊:概率图模型使能的大规模预测性数字孪生

 密歇根大学:基于数字孪生和区块链的建筑项目可追溯信息共享

 弗吉尼亚理工大学:人体运动数据增强数字孪生-基于激光雷达的跟踪方法比较

 Siemens Gamesa:协作机器人数字孪生:人机交互的案例研究

 本田研究所:基于数字孪生技术与弱监督学习的现实世界异常检测研究

 瑞典隆德大学:基于数字孪生的工业自动化与控制系统安全架构

 南航郭宇教授团队:基于数字孪生的离散制造车间生产进度预测研究

 英国卡迪夫大学刘滢教授团队:面向工业5.0的人机交互:以人为本的智能制造

 北航陶飞教授团队:数字试验测试验证:理论、关键技术及应用探索丨JME封面文章

 西南交大丁国富教授团队:数字孪生应用中物理模型与虚拟模型之间连接的建模与实现



投稿邀请及版权

本公众号致力于分享高质量的数字孪生与数字工程相关学术研究与知识资讯,以促进学术交流与知识传播。推送的论文内容主要来源于公开出版或在线发布的学术资源,版权归原作者所有,仅供学术交流,未经授权不得商用。如有侵权,请联系删除。


作者如有优秀论文需推荐,请在公众号后台留言与我们取得联系,我们将审核后择优推送。感谢您的持续关注与支持!


数字孪生DigitalTwin
聚焦数字孪生与数字工程研究,依托Digital Twin和 Digital Engineering期刊及DigiTwin国际会议和国内会议,分享最新动态、成果与行业进展,助力产业升级。本公众号由北航陶飞教授发起,为研究者与从业者提供参考。
 最新文章