面向工程师的物理信息神经网络:从实施角度的回顾
Physics-informed neural network for engineers: a review from an implementation aspect
摘要
为了提供物理信息神经网络(PINN)实现的指南,本研究对PINN进行了全面回顾,这是深度学习与计算物理学交叉领域的新兴方向。PINN提供了一种新颖的方法,通过利用神经网络的灵活性和可扩展性,即使在数据量少或没有数据的情况下,也可以解决物理问题。首先,本文对不同物理问题类型和PINN可解决的目标任务进行了概述。采用逐个组件的方法详细描述了一种通用的PINN架构,从离散点到优化方法等组件。然后,我们对寻求改进这些组件的研究进行了调查。为了提供实际的见解,我们重点介绍了关注PINN实现关键问题的研究,并展示了三个实际应用。最后,提供了总结和潜在的研究方向,以提供可靠且定制化的PINN实现的指南。
1. 引言
2. 物理问题类型和目标任务
3. 物理信息神经网络架构
4. PINN架构的组件研究
5. PINN的关键主题研究
6. PINN在工程中的应用:概述
7. 总结与讨论
1. 引言
基于深度学习技术的最新进展,人工智能在各个领域取得了成功。随着大数据的日益普及、传感器技术的进步以及高性能硬件资源(如GPU和NPU)的发展,深度学习技术有望继续增长。然而,在工程设计中,标注数据的获取往往成本高昂且耗时,限制了这些先进技术的全面利用。因此,提出了几种尝试,将数百年积累的物理知识与稀疏数据结合,引入人工神经网络(ANN),称为“物理信息神经网络”(PINN)。
在众多不同名称中,最近的研究大多采用“物理信息神经网络”(PINN)这一名称,我们也将在本文中使用‘PINN’作为代表名称。早期的几项研究尝试将物理知识引入ANN,这些研究为后来的PINN奠定了基础。目前,Raissi等人于2019年提出的PINN被认为是一个重要的起点(后称为Vanilla PINN),通过在计算域内的离散点和自动微分(AD)进行网络训练来计算控制方程的解。随后,提出了许多研究,旨在处理PDE以外的物理问题类型,并通过修改PINN架构的某些部分来提高精度和/或计算效率,这些内容将在本文中回顾。
随着越来越多的研究致力于提高PINN的性能,一些最新的综述文章也已发布。Cai等人综述了PINN在流体力学中的应用,并通过案例研究展示了流动问题的解决方法。Cai等人还综述了PINN在传热问题中的应用以及在功率电子热设计中的应用。此外,Karniadakis等人和Cuomo等人讨论了PINN的一般应用及其一些应用。两篇综述均强调了提高Vanilla PINN性能的研究,并展示了它们的关键概念和一些理论方面。
这篇综述试图为PINN改进的实施提供指南,并通过三个实际工程应用展示这些改进的实现效果。第二部分描述了物理问题类型和PINN可用于的目标任务类型。第三部分展示了一种通用的PINN架构,为第四部分描述的改进研究奠定基础。第五部分回顾了作者认为的PINN的几个关键问题。第六部分提供了三个PINN在实际工程问题中的应用示例,以帮助读者更好地理解第四部分和第五部分讨论的研究的效果。最后,第七部分总结了本文并讨论了未来的研究方向。
2. 物理问题类型和目标任务
这一部分对PINN所适用的物理问题类型和目标任务类型进行分类,为后续章节中讨论的PINN研究提供背景知识。物理问题类型由控制方程以及初始条件和/或边界条件定义,分别在2.1和2.2节中解释。在2.3节中,解释了可以考虑的额外物理知识,包括代数方程和知识图。然后在2.4节中描述了目标任务类型。
2.1 控制方程
存在多种类型的微分方程可以在PINN中实现:常微分方程(ODEs)、偏微分方程(PDEs)、分数微分方程(FDEs)、积分微分方程(IDEs)和随机微分方程(SDEs)。
常微分方程一般可以表述为:
其中,表示未知解,其导数相对于输入(通常表示时间)进行求取。
偏微分方程(PDEs),通常用于表达各种物理现象,根据时间依赖性可以分为稳态和非稳态。在大多数情况下,工程问题由非稳态偏微分方程组成,通常可以表示为
其中未知解 依赖于多个自变量,而常微分方程(ODEs)则仅依赖于一个自变量。
分数阶微分方程(FDEs)是另一种包含非整数阶微分算子的微分方程,可以表示为
其中 表示 阶分数导数, 表示由输入 、输出 及其高阶导数(最高到 阶)构成的强迫函数。公式中 表示满足 的最小整数, 表示广义的阶乘函数,即伽马函数。
积分微分方程(IDEs)包含输出 的导数和积分,可以表示为
其中 表示待求解的未知函数, 是已知函数,其积分提供了随时间推移的 的历史值。
随机微分方程(SDEs)将问题的随机参数表示为随机过程,通常可以表示为
其中 表示随机参数, 表示随机空间 中的随机输入。
2.2 初始条件和边界条件
边界条件(BCs)可以表示为Dirichlet边界条件、Neumann边界条件、Robin边界条件、周期性边界条件等。在大多数PINN研究中,初始条件(ICs)和边界条件(BCs)以“软”方式施加,即作为损失函数中的损失项。因此,通过训练神经网络,损失函数被最小化,对应的IC/BCs得到满足,同时满足控制方程。损失函数的更详细公式将在第3节提供。
2.3 附加物理知识
在PINN的范围内,主要考虑规定的微分方程及其对应的IC/BCs作为待解决的物理问题。然而,在实际问题中,结合不能用微分方程和IC/BCs描述的附加物理知识可能是有益的。作为附加物理知识之一,可以将代数方程纳入控制方程和/或约束中,以进一步加强一些已知物理规律的施加,这可能会增强PINN的性能。
如果输入变量之间存在固定关系或相关性,这些特性可以通过构建知识图来描述。为了将知识图施加到PINN中,可以利用一种特殊类型的神经网络,即图神经网络(GNNs),来处理作为PINN输入的知识图。更多关于将GNNs纳入PINN的细节将在第4.2.9节进一步描述。
值得注意的是,创建一个可以应用于众多工程领域的一般问题公式框架是具有挑战性的。因此,鼓励工程师在他们感兴趣的领域中实验并结合不同类型的物理知识,以应用于PINN。
2.4 目标任务类型
PINN主要用于解决以下目标任务类型:正向问题、逆向问题和不确定性量化。
正向问题是工程中最常考虑的目标任务类型之一,其中物理学被表示为一组已知的微分方程和ICs和/或BCs:例如在热质传递、流体力学、固体力学等领域中。有无可用的标记实验/模拟数据,神经网络可以被训练以遵守给定的微分方程和ICs和/或BCs,并通过适当的PINN公式提供所需的解。
逆向问题也是工程中另一种常见的目标任务类型,其中物理系统的一些参数或属性是未知的。在这种情况下,需要一些稀疏的标记实验/模拟数据,以便精确训练网络并推断所需的解以及未知的参数或属性。应用之一包括在材料科学中对材料属性的表征,因为潜在的问题可能是病态和逆向类型。由于解决逆向问题通常比解决正向问题更具挑战性,可能需要更复杂的PINN修改。
不确定性量化(UQ)是另一种目标任务类型,其中通过PINN量化问题的不确定性。当需要考虑影响物理现象的随机扰动时,通常需要进行UQ,因此在各个科学和工程领域具有重要应用。如第2.1节所述,SDEs将物理系统定义为具有随机变量的随机过程,旨在以微分方程的形式表达问题的随机性。因此,通过使用PINN求解SDEs,可以量化并进一步分析来自随机输入的噪声和随机现象。
3. 物理信息神经网络架构
一个通用的PINN架构可以如图1所示。
首先,选择配点。然后,神经网络 以时空坐标向量 作为输入,计算问题输出的近似值。这样的神经网络输出近似 描述如下:
其中 表示通过一组神经网络参数 实现的神经网络近似解。然后将近似解代入微分运算,通过自动微分(AD)或数值微分(ND)计算包含在控制方程中的导数。接着,计算代表估计值与真实值之间误差的损失项。PINN中可以有四种损失项:初始条件损失 、边界条件损失 、控制方程损失 和计算域内标记数据损失 。可以使用如下公式的四个损失项的加权和来表示神经网络训练中需要最小化的损失函数:
其中
这里, 和 分别表示任意的初始/边界函数和微分方程, 表示初始条件配点的数量,; 表示边界条件配点的数量,; 表示计算域内配点的数量,。如果有可用的附加标记数据,可以将其纳入训练; 表示计算域内标记数据的数量,。根据待解决的物理问题类型和标记数据的可用性,一些权重值可能为零。例如,如果没有可用的标记数据,则 。最后,将损失函数反馈到反馈机制中以更新神经网络参数 ,并在下一次迭代中使用更新后的 。整个过程重复,直到神经网络参数的值收敛到最优值 ,即最小化损失函数的值。
4. PINN架构的组件研究
本节描述了修改PINN架构每个组件以增强性能的研究。这些研究可以适应性地应用于感兴趣的领域,以构建“定制化”的PINN模型。表1提供了对PINN五个组件研究的概述。
4.1 配点的选择
PINN是一种基于配点的技术,需要在计算域内适当选择配点以正确训练PINN。为了改进PINN的准确性和/或计算速度,提出并应用了各种采样技术,而不仅仅是简单的均匀或随机采样。采样技术可以分为两类:非自适应(基于域的)采样和自适应(基于响应的)采样。非自适应采样是一种单次采样技术,仅使用输入变量的信息来选择所有必要的配点。而自适应采样是一种连续采样技术,通过使用输入变量和相应响应值的信息反复进行采样,直到达到预定目标。
Das和Tesfamariam【7】比较了在五个PDE示例上使用十种不同的非自适应采样技术的PINN性能:全因子设计(FFD)、中心复合设计(CCD)、中心Voronoi镶嵌(CVT)、最大最小拉丁超立方体(MLH)、Sobol、Halton、Hammersley、Faure、全网格设计(FGD)和稀疏网格设计(SGD)。结果表明,Hammersley采样(准随机采样技术之一)表现最佳,其次是SGD和Sobol采样。为了评估性能,比较了均方误差(MSE),假设每个PDE示例的解析解为真实解。此外,Mou等人【8】提出了一种混合采样技术,将笛卡尔网格采样和拉丁超立方采样结合起来,根据问题调整每种采样技术的比例。通过试错过程确定每种采样技术的比例。
作为PINN中应用的第一个自适应采样技术,Lu等人【9】提出了基于残差的自适应细化(RAR),这是一种贪心算法,在每次训练迭代中在PDE残差值大的位置采样附加点。Hanna等人【10】提出了另一种自适应采样技术,称为基于残差的自适应分布(RAD),它使用与PDE残差值成比例的规定概率密度函数(PDF)分布方式采样附加点,而不是像RAR中那样仅使用残差值。Wu等人【11】提出了结合RAR和RAD思想的自适应采样技术,称为基于残差的自适应细化与分布(RAR-D),在准确性和计算成本之间实现平衡。比较了RAR、RAD和RAR-D三种自适应采样技术的性能,结果表明RAD表现最佳,而RAR-D表现与RAD相当,但提高了计算效率。Peng等人【12】提出了基于残差的自适应节点生成(RANG)技术,尝试结合准均匀采样和基于残差的自适应采样的优势。此外,他们利用了一种记忆机制来增强性能,但仅在二维问题中进行了评估,因此需要进一步研究以实现高维问题。Subramanian等人【13】提出了一种自适应自监督算法,该算法利用梯度值而不是损失项残差进行自适应采样。对于大多数非凸问题,应在神经网络中加入适当的约束,以避免在优化过程中陷入局部最小值。该算法的关键思想是利用余弦退火方案在特定周期内周期性地调整均匀采样和自适应采样的比例,同时在剩余周期内使用均匀采样,以在局部适应性和域覆盖之间保持平衡。
根据待解决的物理问题,可以适当地应用建议的技术来选择配点。
4.2 神经网络
除了2019年Vanilla PINN【2】中使用的全连接神经网络(FCNNs)外,研究还提出了对FCNNs的修改或其他类型的神经网络架构,以处理各种类型的输入数据和/或提高PINN的性能。本节回顾了对FCNNs的修改以及使用其他类型神经网络架构的研究,包括浅层/稀疏神经网络、卷积神经网络、生成神经网络、序列模型、深度算子网络、贝叶斯神经网络、Transformer网络和多输出物理信息神经网络。
4.2.1 全连接神经网络
全连接神经网络(FCNNs)通过多层隐藏层和适当选择的激活函数(如双曲正切(tanh)、修正线性单元(ReLU)、sigmoid、softmax等)来建模输入与输出之间的复杂非线性关系。通常,根据所关注的问题,通过试错来选择适当的激活函数。Jagtap等人【14】尝试通过提出自适应激活函数来解决梯度消失或爆炸的问题,其中在激活函数中加入了可调整的超参数和缩放因子。基于参考文献【14】,Jagtap等人【15】引入了局部自适应激活函数的概念,该函数在每层和每个神经元的激活函数中加入了斜率恢复项。Gnanasambandam等人【16】提出了自缩放双曲正切(Stan)激活函数来解决可扩展性问题。Stan通过在tanh激活函数中加入自缩放项来补偿输入和输出之间的量级差异,从而提高了收敛速度和泛化性能。Abbasi和Andersen【17】提出了物理激活函数(PAFs),这是一种基于物理规律推导的通用激活函数。PAFs旨在将已知的物理或数学规律直接纳入神经网络中,取代传统的激活函数如tanh或sigmoid。通过加入PAFs,增强了神经网络的可解释性和分布外预测(外推)的性能,特别是对于较小尺寸的网络。
Peng等人【18】提出了基于先验字典的PINN(PDPINN)技术,将问题的先验信息纳入额外的字典融合层,该层通过内积与神经网络的输出层结合。基于利用问题的正交基的谱方法,可以利用理论上已建立的谱收敛,并通过通用逼近理论解决截断误差问题。字典是包含先验信息的函数的组合,并且对现有神经网络是非侵入性的;它可以根据问题以不同类型表示,例如基于空间的、基于频率的和数据驱动的。
残差神经网络(ResNet)是一种提供残差连接的深度神经网络,在参考文献【19】中提出。ResNet包括输入的恒等映射,一个层的输出可以跳过一个或多个层并添加到后续层的输出中。ResNet通常被认为能够解决梯度消失问题,并且在训练具有多个隐藏层的FCNNs时具有优势。Cheng和Zhang【20】提出了Res-PINN,将PINN与ResNet结合,以利用恒等映射的优势。通过求解Burgers方程和Navier-Stokes方程评估了Res-PINN的性能,结果表明它增强了准确性和稳定性。
如第2.3节所述,代数方程可以作为附加物理知识纳入PINN的控制方程中。为了解决包含微分方程和代数方程或微分-代数方程(DAEs)系统的问题,Moya和Lin【21】提出了DAE-PINN框架,该框架修改了PINN的神经网络架构以增强其能力。DAE-PINN修改了其FCNNs结构,以结合隐式Runge-Kutta方法和基于惩罚的方法,旨在解决刚性和复杂动力学问题。由于传统FCNNs的Vanilla PINN在解决这些问题时表现不佳,DAE-PINN扩展了PINN在更实际问题中的应用范围。
4.2.2 浅层/稀疏神经网络
为了提高训练效率,提出了利用浅层神经网络的技术。Dwivedi和Srinivasan【22】提出了物理信息极限学习机(PIELM)技术,将极限学习机(ELM)技术纳入PINN。通过利用ELM技术只训练输出层的权重,PIELM技术通过减少训练参数的数量成功降低了训练成本。然而,PIELM技术仅适用于线性PDEs。Schiassi等人【23】提出了极限功能连接理论(X-TFC),结合了功能连接理论(TFC)和ELM。解决
了PIELM技术的不足,X-TFC通过制定约束表达式自动满足BC/ICs,应用于非线性PDEs。
另一方面,Ramabathiran和Ramachandran【24】提出了稀疏、基于物理的和部分可解释的神经网络(SPINNs),利用稀疏神经网络(SNN)由网格编码层和内核层组成,求解ODEs和PDEs。这里,可以执行许多无网格技术;例如,通过SPINN实现径向基函数(RBF)。此外,为了应用SPINN求解时间依赖的PDEs,将有限差分法结合到SPINN中。结果,由于训练参数的数量远少于FCNNs,计算效率得到了提高。
4.2.3 卷积神经网络
通常,通过FCNNs高效学习大规模时空解场是具有挑战性的。为了解决这个问题,进行了使用卷积神经网络(CNNs)生成解场的研究,参数更少。Gao等人【25】提出了物理信息几何自适应卷积神经网络(PhyGeoNet),利用坐标变换技术,应用于具有不规则几何形状的计算域。PhyGeoNet将不规则物理域中的解场映射到矩形参考域,应用传统的CNNs,并在参考文献【26, 27】中“硬性”实施边界条件。使用基准问题评估了PhyGeoNet的性能:热方程、Navier-Stokes方程和Poisson方程,结合CFD结果。与Vanilla PINN相比,PhyGeoNet需要的迭代次数几乎减少了10倍,获得了解的相对误差较小,但仅适用于稳态问题的比较。Gong和Tang【28】提出了一种基于能量的物理信息神经网络(EPINN),用于低频电磁计算。将磁能规范误差集成到网络作为损失函数,使EPINN专注于感兴趣的区域,而不是计算整个计算域。EPINN接受有限元法(FEM)结果中的高斯分布作为U-Net形状的编码器-解码器网络的输入。网络然后用基于能量的损失函数训练,以执行问题的物理,获得所需的解,并在插值任务中表现出色。Zhao等人【29】提出了一种用于温度场预测的物理信息卷积神经网络(HSL-TFP),无需使用标记数据。网络通过将强度分布函数映射到PDE的解,学习求解一组热传导方程。为训练U-Net形状的CNNs,基于有限差分近似的控制PDE、Dirichlet和Neumann边界条件的物理信息损失函数以“硬性”方式实施。
4.2.4 生成神经网络
一些研究尝试将生成对抗网络(GANs)引入PINN,可以生成各种合成数据。Yang和Perdikaris【30】将对抗学习的概念纳入PINN的训练目标,使用概率公式增强模型的鲁棒性和稳定性,其中利用随机梯度下降(SGD)进行优化。Yang等人【31】提出了物理信息GANs(PI-GANs),基于有限且分散的测量数据计算随机微分方程(SDEs)的解。PI-GANs成功逼近了高斯过程,并解决了涉及三个随机过程的椭圆SDEs:解、强迫项和扩散系数。具体来说,应用了具有梯度惩罚的Wasserstein GANs(WGAN-GP)而不是Vanilla GANs,因为其稳定性增强。Daw等人【32】补充了参考文献【30】,提出了物理信息判别器-GAN(PID-GAN),不仅将物理知识纳入生成器,还纳入判别器,解决了现有技术的梯度动态问题。
通过利用GANs获得了更准确的概率PDEs或SDEs解,但计算成本比采用其他神经网络要大得多。因此,Zhong和Meidani【33】提出了物理信息变分自编码器(PI-VAE),将VAE(一种生成模型)纳入PINN,以提高计算效率和准确性。PI-VAE使用最大平均差异(MMD)计算概率分布之间的距离作为损失函数,并利用小批量梯度下降算法同时训练编码器和解码器。然而,PI-VAE目前仅限于低维问题,因为高维问题所需的小批量数量呈指数增长。
4.2.5 序列模型
循环神经网络(RNNs)由于其高效处理序列数据的能力,一直是处理动态系统(即时间依赖问题)首选的网络架构。这种机制称为序列到序列学习。此外,为了解决长时间步长或长时间依赖问题,长短期记忆(LSTM)和门控循环单元(GRU)被用来解决梯度消失或爆炸问题。Viana等人【34】提出了一种将常微分方程(ODEs)视为有向图模型的方式,并利用RNN与纯物理信息和额外数据驱动方案的混合公式,具体取决于数据的可用性。Zhang等人【35】提出了物理信息多LSTM(PhyLSTM)网络,利用LSTM生成地震动力学的低保真度非线性运动方程元模型。为了将物理知识整合到LSTM中,提出了两种或三种深度LSTM网络的架构,分别为2 PhyLSTM和3 PhyLSTM。2 PhyLSTM包含一个用于输入-输出关系建模的LSTM网络,另一个用于物理建模的LSTM网络,以及一个用于强制边界条件的组件。3 PhyLSTM包含一个额外的LSTM网络,用于更复杂的速率依赖动态问题中的滞后参数建模。这些网络在以下方面具有优势:1)问题物理意义的明确可解释性,2)泛化性能,3)弥补数据稀缺问题。然而,它们在计算速度和适用于其他动态系统方面存在局限性。Ren等人【36】提出了物理信息卷积-循环网络(PhyCRNet),应用卷积LSTM(ConvLSTM)解决可扩展性和泛化问题。PhyCRNet利用ConvLSTM作为单元结构,可以应用于时空PDE,作为通用模型。此外,提出了PhyCRNet-s,通过在每特定数量的迭代中跳过编码器部分来降低计算成本。
4.2.6 深度算子网络
Lu等人【37】提出了一种新型神经网络,称为深度算子网络(DeepONet),旨在利用参考文献【38】中提供的通用算子逼近定理提高泛化性能。DeepONet包含分支网络和主干网络,分别从输入函数和输入坐标中提取潜在表示。Wang等人【39】提出了物理信息DeepONet,将物理约束纳入DeepONet。因此,物理信息DeepONet可以被视为一种无数据方法,与依赖数据驱动的DeepONet相反。在损失函数中以加权和形式表示PDEs和BC/ICs残差,并对模型参数进行优化以训练神经网络。因此,物理信息DeepONet在没有配对输入输出训练数据的信息下增强了泛化性能和数据效率。此外,Cai等人【40】提出了DeepM&Mnet,其中一些DeepONet结构以并行或串行的方式应用于解决多物理场/多尺度问题。
4.2.7 贝叶斯神经网络
Yang等人【41】提出了贝叶斯PINN(B-PINN),利用贝叶斯神经网络(BNNs)和哈密顿蒙特卡罗(HMC)或变分推断(VI)来同时处理散乱噪声数据和物理知识,以计算PDE解和不确定性量化。通过计算解的均值和标准差,成功量化了由噪声数据生成的随机不确定性,并解决了由于噪声输入数据导致的过拟合问题。
4.2.8 Transformer网络
Li等人【42】提出了梯度优化PINNs(GO-PINNs),在模型训练期间自动调整惩罚项的系数,以增强每个损失项的梯度均衡效应。此外,GO-PINNs利用两个具有残差连接的Transformer网络来更新隐藏层并增强隐藏状态,从而提高了PINN的稳定性和预测准确性。
4.2.9 图神经网络
为了适应如第2.3节中提到的建模对象及其关系的知识图等图形输入,可以利用图神经网络(GNNs)。类似于CNNs的思想,GNNs可以通过聚合器从邻近节点获取信息,提供节点从图数据中的推理。Gao等人【43】提出了物理信息图神经Galerkin网络,利用图卷积网络(GCN),这是GNNs的一种类型,以统一的方式求解正向和逆向PDEs。这里,通过离散学习提高了PINN的可扩展性问题,并实现了硬边界条件的强制执行。此外,GCN的灵活性能够适应非结构化输入,提高了PINN的适用性。为了进一步适应由输入关系信息组成的图数据,Liu和Pyrcz【44】提出了物理信息图神经网络(PI-GNN),将GNNs的思想纳入PINN,应用于提高碳氢化合物资源开发中的产量预测。在这里,定制的图卷积层利用输入之间的关系信息,即邻接矩阵,以提供更高的准确性和可解释性。
4.2.10 多输出物理信息神经网络
为了处理第2.4节中描述的不确定性量化目标任务,Yang和Foster【45】提出了多输出物理信息神经网络(MO-PINN),通过输出解和不确定性分布来处理稀疏噪声数据。MO-PINN修改了FCNN的结构,将不确定性的先验知识施加到输出上。对于每个输入,模型生成多个离散输出,形成用于不确定性量化的分布。
4.3 微分
数值微分(ND)和自动微分(AD)计算的微分算子本质上是不同的,各有优缺点。ND基于特定的数值方案从局部物理输出集近似导数,而AD可以在计算域内的任何点计算精确导数。利用AD的精确性,大多数关于PINN的研究使用AD计算导数。然而,除非使用足够大的配点集,否则在PINN的训练损失计算中使用AD并不能确保模型的准确性。在许多情况下,这可能会增加计算成本,特别是对于高维问题。Chiu等人【46】提出了一种耦合自动-数值PINN(can-PINN),该方法不仅使用AD还使用ND计算导数。通过结合ND对配点数量的鲁棒性和AD的准确性,他们证明了提出的can-PINN相比仅使用AD或ND的方法更高效且能一致地提供更准确的解,如其实验结果所示。
4.4 损失函数
如第3节所述,PINN的损失函数表示为公式(8)-(12)中的损失项的加权和。尽管Vanilla PINN中没有考虑权重系数,但后来的研究提出了根据每个损失项的相对尺度或对网络训练施加不同重要性来确定权重系数。首先,Wight和Zhao【47】提出了自适应PINN的概念,并建议如何根据每个损失项的重要性确定权重系数。对于时间依赖问题,由于满足初始条件更为重要,因此将权重系数 乘以初始条件的损失项,如下所示:
后来,公式(13)被更一般地公式化,导致权重系数乘以每个损失项,如公式(8)所示。基于这种公式,提出了许多方法来计算总损失函数的权重系数,以提高PINN的准确性和/或计算效率。Wang等人【48】认为,由于公式(13)的C值根据问题的不同显著变化,因此在训练过程中调整C值更为理想。因此,学习率退火(LRA)被应用于权重系数,即LRA-PINN,它们被视为学习率系数,在每次训练时更新其值。
Yu等人【49】提出了梯度增强PINN(gPINN),通过包括额外的损失项来强制PDE残差的梯度为零:
为了避免使用公式(14)中的额外损失项,Xiong等人【50】提出了梯度加权PINN(gwPINN),它进一步将包含梯度信息的与梯度相关的权重函数乘以公式(8)中的每个损失项。权重函数是基于给定的微分方程自适应公式化的,考虑了每个损失项的导数。类似于参考文献【48】中的LRA-PINN,Liu等人【51】提出了自适应权重PINN(AW-PINN),它在网络训练过程中自适应更新损失函数的权重系数。AW-PINN通过在权重更新过程中使用对数平均值减少超参数的数量,进一步提高了计算效率。Wang等人【52】提出了一种技术,利用神经切线核(NTK)动态计算损失函数的权重系数,从而平衡每个损失项的收敛速度,并从理论上研究了PINN的训练动态。Liu和Wang【53】提出了最小最大物理约束神经网络(PCNN-MM),通过考虑神经网络和损失函数中权重的梯度方面,同时找到最小最大公式的鞍点。McClenny和Braga-Neto【54】提出了一种自适应PINN(SA-PINN),以类似的方式进行训练,同时计算每个训练点的权重系数以增加灵活性。与使用多个损失项相反,Nasiri和Dargazany【55】提出了一种简化的PINN模型,通过数值积分减少损失函数的项数,以提高ODE系统的计算效率。Maddu等人【56】提出了一种逆Dirichlet加权技术,将顺序训练应用于所有一阶优化器(如Adam),无需额外计算成本。损失函数权重基于每个损失项梯度的方差计算,以解决梯度消失问题,并通过平衡梯度分布更准确地解决多尺度问题。
前面描述的损失函数通常被认为是一种配点损失函数,因为它强制每个配点的残差(几乎)为零。另一种类型的损失函数是使用测试函数和问题的变分公式描述的变分损失函数,由Kharazmi等人【57】提供。
其中 表示域 上的内积和积分, 表示在离散有限维空间 中适当选择的测试函数。变分损失函数可以相应地定义为
变分PINN(VPINN)将问题的这种变分公式纳入损失函数。由于变分损失函数的被积函数通过分部积分进行积分,微分算子的阶数可以降低,从而有效降低训练成本。此外,利用变分损失函数对于域分解的目的也是有益的,因为测试函数可以独立用于每个子域,以捕捉局部特性并提供更灵活的学习方法。Kharazmi等人【59】基于参考文献【57】,进一步通过域分解和投影到高阶多项式空间对VPINNs应用hp-细化,并提出了hp-变分PINNs(hp-VPINNs)。E和Yu【60】提出了深度Ritz方法,将深度学习与Ritz方法结合起来,通过训练深度神经网络学习解空间的有效表示,数值求解由PDEs公式化的变分问题。因此,利用变分损失函数为PINN提供了某些优势,如微分算子的阶数降低和更好的局部性。
此外,Bai等人【61】提出了一种改进的最小二乘加权残差(LSWR)损失函数,它将残差集成到计算域中,
其中 表示PDEs和边界条件的残差, 表示平衡两个残差尺度的两个缩放因子。通过将LSWR损失函数应用于PINN,获得了更好的泛化能力,并有效缓解了两个缩放因子的可扩展性问题。此外,Wang等人【62】使用 范数(),而不是MSE( 范数)对损失函数类型进行了理论研究。结果表明,利用 范数在高维问题上的性能更为合适。
4.5 神经网络训练
PINN的最后部分是通过反馈机制训练神经网络,本质上是损失函数的最小化问题,以找到最优的神经网络参数集 :
在Vanilla PINN中,使用Adam优化器(随机梯度下降算法的一种)计算最小化损失函数的 。此外,可以利用Broyden-Fletcher-Goldfarb-Shanno(BFGS)优化器,通过计算Hessian矩阵来确定优化方向,从而获得更精确的结果,但BFGS倾向于快速收敛到局部最小值。另外,还可以使用带有箱约束的有限记忆Broyden-Fletcher-Goldfarb-Shanno(L-BFGS-B)优化器,它是BFGS的有限记忆版本和BFGS-B(应用于边界约束优化问题)的结合。此外,参考文献【68】中还将Adam和L-BFGS-B顺序应用于微调目的。
Davi和Neto【63】提出了一种利用粒子群优化(PSO)的方法,即PSO-PINN,这是基于群体的随机优化技术之一,用于PINN的神经网络训练。每个由均匀或随机采样选择的配点被视为单个粒子(候选解),最终解是通过与邻近粒子交换信息移动每个粒子的位置获得的。此外,可以使用PSO-PINN获得PINN解的集合,从而进行不确定性量化。
Lu等人【64】提出了NSGA-PINN框架,将非支配排序遗传算法II(NSGA-II)与PINN结合,进行基于多目标优化的神经网络训练。NSGA-PINN利用非支配排序、拥挤距离计算和拥挤二进制锦标赛选择生成一组高质量的多样化解,以有效管理PINN训练过程中的多个目标。通过NSGA-II和Adam优化器的迭代集成,NSGA-PINN解决了局部最小值问题,提高了PINN的优化性能。
Nabian等人【65】应用了重要性采样的概念,以更高效地训练网络。不是计算损失梯度的 范数,而是通过分段常数近似计算配点子集(种子)的损失值,以减少反向传播的次数。Yang等人【66】提出了基于动态网格的重要性采样(DMIS),以加速收敛而不会显著增加计算成本。为了减少计算每个IS点采样概率的计算成本,他们提出了一种新的采样权重估计方法,称为基于动态网格的权重估计(DMWE),它构建了一个动态三角网格,以有效地估计每个数据点的权重。DMWE构建的三角网格在训练过程中根据整个域的损失分布动态更新。
He等人【67】提出了一种无需堆叠反向传播的方法来训练网络,以解决PINN的可扩展性问题。这里,PDE解用高斯平滑模型表示,而依赖性则基于Stein's identity计算,通过消除AD的堆叠反向传播显著降低计算成本。此外,由于损失计算仅需要前向计算,可以通过并行化进一步减少计算时间。
5. PINN的关键主题研究
在第4节中,描述了通过专注于图1所示的PINN架构的各个组件来提高PINN性能的研究。在本节中,描述了一些PINN关键主题的研究,为在各种感兴趣的工程领域中实施PINN提供了指南。本节涵盖的主题包括:1)域分解,2)时间因果关系,3)元学习,4)降阶建模,5)模型集成,6)外推,7)多实例学习。
5.1 域分解
随着问题维数的增加,为了准确训练所需的配点数量呈指数增长。这种现象被称为维数灾难,被认为是计算科学和机器学习中的一个常见挑战。尽管由于其无网格性质,PINN可以缓解维数灾难的某些方面,但在复杂的高维问题中以降低计算成本达到合理的准确性仍然是一个挑战。
为了解决这个问题,提出了各种研究,将计算域分解为子域,并在每个子域中并行训练减少数量的神经网络参数。这种方法,称为域分解,不仅提高了训练PINN的计算效率,还增强了训练模型表示问题复杂行为(如不连续解)的能力。Jagtap等人【69】提出了一种保守的PINN(cPINN),使用接口条件连接每个子域。通量连续性和平均解被用作接口条件,并且在每个子域应用了不同的PINN架构,以增加自由度并解决不连续解的问题。Meng等人【70】提出了一种时间域分解的并行PINN(PPINN),通过使用快速粗粒度(CG)求解器的结果作为每个子域的初始条件,显著提高了PINN的训练速度。基于cPINN,Jagtap和Karniadakis【71】提出了一种扩展的PINN(XPINN),它将时空域分解应用于PINN。XPINN是一种更灵活的技术,类似于cPINN方法,将单独的PINN应用于每个子域。然而,不使用增加接口条件训练复杂性的通量连续性条件,只比较接口处的平均解和残差值。Stiller等人【72】提出了GatedPINN,利用条件计算和自适应域分解。条件计算是一种根据输入在每个空间域内激活神经网络中某些单元的技术,激活条件由门控网络确定。此外,门控网络确定了用于特定输入的神经网络结构,从而实现了同时的自适应域分解。之后,Hu等人【73】提出了一种增强PINN(APINN),它补充了XPINN。通过微调域分解和使用可训练门控网络在子PINN之间共享参数,APINN增强了泛化性能。
5.2 时间因果关系
时间依赖问题在工程和科学领域中普遍存在,本质上依赖于因果关系原理,即当前和未来状态取决于过去状态。因此,为了使用PINN准确解决时间依赖问题,必须在PINN训练中强制执行时间因果关系,以确保解的物理合理性。如果不考虑时间因果关系,信息可能不会在计算域内通过时间适当地传播,从而导致训练困难,产生非物理解和模型不一致。
提出了许多研究,将因果关系法则纳入PINN,以更好地尊重问题固有的时间依赖性。Wang等人【74】提出了因果PINN,通过调整每个时间段的时间权重陡度来最小化先前时间段的残差值,这通过时间域分解和包含因果参数实现。Daw等人【75】提出了基于Eiben等人【76】提出的进化算法的进化采样(Evo)和因果进化采样(causal Evo)。Evo是一种在每次迭代中提取残差高的点并在均匀分布点中重新采样的技术,以补偿PINN的传播失败。另一方面,causal Evo在采样过程中还考虑了时间因果关系。与第4.1节讨论的自适应采样技术相比,Evo和causal Evo都通过更少的配点提高了PINN的性能。Guo等人【77】提出了一种考虑时间因果关系的自适应因果采样方法(ACSM)。ACSM利用分布比率自适应地选择跨越时空子域的配点,从而平衡损失项的大小和时间因果关系。与因果PINN相比,使用相同数量的配点,ACSM将准确性提高了两个数量级,并提高了计算效率。ACSM应用于包含高阶导数和强非线性的Cahn-Hilliard方程和KdV方程,并显示出在高维问题上的应用性。类似于参考文献【75, 77】中考虑因果关系的采样技术,Mattey和Ghosh【78】提出了向后兼容PINN(bc-PINN),通过迁移学习重新训练相同的网络,以计算满足先前时间段解的解。在这里,先前的预测被视为数据项,用于训练相应的未来预测。
Penwarden等人【79】总结了先前在PINN中应用的因果关系强制技术,并提出了一种因果关系强制框架,包含两种技术:堆叠分解和窗口扫描。堆叠分解技术结合了时间推进和XP
INN方法;对于分解为n段或子域的时间域,依次训练dS段。对于dS = 1,每段或子域依次训练(时间推进),对于dS = n,所有段并行训练,相当于XPINN。接下来,窗口扫描技术涉及通过时间移动软因果窗口,并以各种方式在每个配点上应用权重掩码,受参考文献【74】的启发。
5.3 元学习
元学习是一个跨学科的研究领域,包括多任务学习和迁移学习。通过将元学习——“学习如何学习”的原则——纳入PINN的训练中,可以解决诸如静态损失函数权重、对新问题的慢适应以及有限的泛化能力等挑战,而无需大量的重新训练。这种方法可以显著扩展PINN在建模复杂、时间依赖或高维物理问题中的应用。
Psaros等人【80】提出了一种使用元学习构建损失函数表达式的技术,通过双层最小化问题。在内层优化中,PINN的训练过程与通常相同,而在外层优化中计算损失函数的权重,然后在内层优化中更新以最小化总损失。Goswami等人【81】利用迁移学习的概念来提高计算效率。在这里,网络权重和偏差在第一次迭代中使用Xavier初始化计算,并将除输出层参数外的所有参数固定为上一次迭代的值,以便仅更新输出层的参数。Bahmani和Sun【82】将PINN的训练视为一个多目标/多任务问题,并利用迁移学习。每个损失项被视为一个目标,并提出了一种梯度切割技术,以补偿多个目标梯度中的冲突。然后,通过使用计算成本较低的求解器(预训练步骤)并将结果值作为辅助标签添加到总损失函数中,应用了迁移学习技术。Desai等人【83】提出了一种单次迁移学习技术,作为将迁移学习应用于PINN的通用框架。该技术最初通过批量训练PINN学习特定微分方程族的丰富潜在空间,然后通过迁移学习一次性推理解决相同族的微分方程,从而在BC/IC和强迫函数系数变化时显著减少计算时间。Xu等人【84】提出了一种基于迁移学习的边界条件可学习PINN,用于解决结构分析中的更实际的逆问题。作为一种多任务学习方法,贝叶斯建模被应用于计算任务之间的相对置信度,并结合最大似然估计(MLE)。未知负载被添加为损失函数中的边界条件,并应用迁移学习以更快地计算。Penwarden等人【85】详细研究了将元学习技术纳入PINN的方法。从PINN的角度来看,元学习可以被视为一种模型无关元学习(MAML),在训练过程中找到神经网络和损失函数的最优参数。对于任务参数集和包含所有权重和偏差的权重向量的线性映射,利用了高斯过程(GP)模型和径向基函数(RBF),然后进行网络训练,形成了双层优化问题。
5.4 降阶建模
降阶建模(ROM)是一种著名的技术,通过关注复杂系统的主要特征或动态来简化分析,从而减少整体复杂性。当将这种方法纳入PINN时,可以在处理具有复杂动态的高维问题时减少计算成本。因此,提出了一些研究将ROM的思想纳入PINN,以便通过ROM得出的降阶基或主模态,帮助高效地执行PINN的训练过程。
Chen等人【86】进行了一项研究,将降阶建模(ROM)的概念整合到PINN中,并提出了一种称为物理强化神经网络(PRNN)的新策略。PRNN利用了用降阶方程训练的PINN和从现有高保真快照投影到降阶空间的数据,以提高预测准确性。数值结果表明,与PINN或纯数据驱动的神经网络相比,PRNN能够以更高的准确性预测可靠的降阶解。
5.5 模型集成
模型集成是指利用多个网络或模型以实现更稳健预测的策略。在PINN的背景下,已经进行了使用多个PINN模型的研究;每个集成中的模型在不同的初始化或超参数下进行训练,从而增强预测的整体稳健性。
Haitsikevich和Ilin【87】提出了一项研究,通过模型集成改进网络训练。在这里,PDE残差是通过使用相同损失函数但初始化不同权重的PINN集成计算的。将所有集成匹配且误差小于规定阈值的配点添加为“伪标签”。从初始点开始,PINN集成逐步探索计算域,寻找满足集成安排条件的配点,并使用添加的“伪标签”计算损失函数。对所有配点重复此过程以进行损失函数最小化,尽管计算成本比使用单个PINN大,但得到了更稳健和准确的解。
5.6 外推
提高PINN的外推能力(即预测计算域外的点)是一个重大挑战。一般来说,PINN在指定的计算域内进行训练,在某些情况下,这可能会限制其在超出这些范围的场景中的适用性。为了扩大PINN的适用性,特别是在数据收集具有挑战性的场景中,至关重要的是增强其外推能力。
Kim等人【88】引入了动态拉动方法(DPM),通过应用新颖的损失函数和神经网络训练技术来提高PINN的外推性能。Linka等人【89】讨论了神经网络家族(ANN、PINN、SA-PINN)和贝叶斯推理家族(BI、BNN、BPINN)在外推性能方面的优缺点。根据他们的研究,SA-PINN表现出最佳的外推性能,但由于损失函数复杂,其训练过程不够稳健和稳定。另一方面,BPINN为解提供了可信区间,并具有足够的外推性能,但需要精确的缩放和大量的训练数据。
5.7 多实例学习
实施PINN的一个重大问题是其在单个BC/IC或控制方程实例上训练模型的能力有限。尽管在训练一个实例后可以应用迁移学习来减少训练另一个实例的计算成本,但多实例的无监督处理可能会增强PINN在各种实际问题中的适用性。
基于Sirignano和Spiliopoulos【90】提出的深度Galerkin方法(DGM),即利用无网格Galerkin方法训练神经网络,Chudomelka等人【91】提出了一种Legendre-Galerkin深度神经网络(LGNet),利用Legendre多项式作为Galerkin方法的基函数。解是通过神经网络计算的系数乘以基函数的加权和重构的。在这里,神经网络由CNN和FCNN的组合构建。基于LGNet,Choi等人【92】提出了无监督Legendre-Galerkin神经网络(ULGNet),其中PDE的多个实例可以通过强迫函数作为输入以无监督的方式进行训练。在这里,适当的Hilbert空间中由跨越的基函数定义为Legendre多项式的组合:
其中表示k阶Legendre多项式,可以选择代表各种边界条件。最后,解近似为:
其中预测解是通过输入强迫函数的神经网络输出的系数和基函数乘积获得的。随后,通过最小化弱(变分)损失函数进行ULGNet的训练,以强制执行控制方程,类似于PINN的方法。对于优化算法,使用了L-BFGS,并相应地更新了ULGNet中的参数。通过使用ULGNet,可以无监督地解决同一类型控制方程的强迫函数和/或IC/BC的不同实例,从而使学习多个实例成为可能,而这在PINN中是不可行的。
6. PINN在工程中的应用:概述
大多数关于PINN的研究涉及求解典型的例子,如Poisson方程、Allen-Cahn方程、对流扩散方程、Navier-Stokes方程、Schrödinger方程等。尽管解决这些方程对于展示PINN相比现有方法的性能提升确实是一个关键任务,但在实际问题中实施PINN时可能往往不足。此外,由于目前没有通用和完全优化的PINN框架,尝试将PINN应用于工程问题的研究可能没有实施一些新技术。本节提供了三个PINN
应用于解决实际工程问题的例子,并展示了第4和第5节中讨论的一些技术如何应用于提高PINN的性能。第6.1、6.2和6.3节分别讨论了PINN在流体力学、传热和轴承疲劳预测中的应用研究。
6.1 流体力学应用
作为PINN在流体力学应用的一个例子,Hanna等人【10】对多相流和传输现象的建模进行了讨论,这在油藏、水资源管理和复合材料加工中具有实际应用。在多相流中,由于流动前沿的移动、大不连续性和冲击,应用基于网格的经典方法需要高保真数据以获得足够的准确性。因此,通过实现PINN,提出了一种更灵活和无网格的框架。
首先,针对两相流和传输现象定义了多个控制方程和BC/ICs。控制方程包括Darcy定律、质量守恒(不可压流动)和对流方程(方程(24)-(26)),分数函数c定义为分离两种流体相:c=0表示一种流体相,c=1表示另一种流体相。相应地,粘度定义为公式(27)使用c。
其中表示平均Darcy速度,表示渗透率张量,表示压力梯度。接下来,的边界条件和的初始条件如下:
相应地,损失函数由六个损失项组成(3个用于控制方程和3个用于BC/ICs):
其中MSE公式被使用,每个权重系数简单地设置为1。
其次,使用三种不同的采样技术在计算域内选择配点:均匀采样、RAR和RAD,如第4.1节所述。使用均匀采样计算了总共2500个配点(50×50网格),而对于RAR和RAD,使用Adam优化器训练1600个均匀采样的配点(40×40网格),并在每50次BFGS迭代后增加附加点,直到计算出2500个配点。此外,使用1000个随机采样的配点作为测试集,以比较泛化性能。
第三,使用FCNN作为神经网络结构,其整体组成如图2所示。对于每个输出,使用了三个独立的FCNN,每个FCNN由五个隐藏层组成,每层有20个神经元。所有隐藏层都使用双曲正切(tanh)激活函数,而压力和分数函数的输出层使用sigmoid激活函数,速度的输出层使用线性激活函数。
最后,使用Adam优化器进行网络训练。结果表明,以解析解为参考,RAD在流动前沿位置方面提供了最佳的训练和验证准确性。
该研究处理了PINN在两相流和传输现象建模中的应用,并通过提出的配点自适应采样技术(RAD)成功提高了解的准确性。主要关注的是应用自适应采样方案和使用多个FCNN,提供了基于图1所示架构的“定制化”PINN;这种过程可以作为其他感兴趣应用领域的基准。此外,第4和第5节中提供的研究关于提高PINN性能的其他方法也可以潜在地实施和测试。
6.2 传热应用
本节描述了Amini Niaki等人【93】的研究,该研究使用PINN对复合材料-工具系统在高压釜中的热化学固化过程进行建模。考虑到复合材料固化过程中放热的热传导以及对高压釜的传热,结合固化过程本身的温度依赖性,这是一个相当复杂的问题;由于复合材料-工具界面的不连续性,使用Vanilla PINN不可行。为了解决这个问题,使用自适应损失权重技术对Vanilla PINN进行了修改,并进一步利用迁移学习技术提高计算效率。
固体的放热传热(即具有内部热生成的传热)可以用以下PDE表示:
其中分别表示固体的温度、比热容、导热系数和密度,表示内部热生成率。这里,受固化程度影响,如下所示:
假设固化过程中的固体是均匀的,并且物理性质不受温度影响,方程(34)和(35)可以简化为方程(36)和(37)。这些方程用作PINN的控制方程。
因此,该问题可以表述为和在时空域内的耦合微分方程系统,复合材料-工具界面的界面条件如方程(38)和(39)以及图3所示。高压釜空气温度的时间变化如图4所示。
此外,规定的BC、对流BC和IC定义如下:
基于上述问题公式,评估了PINN在四种不同类型的BC和复合材料厚度的情况下的性能。使用均匀采样技术选择配点,0 < x < L + L_t 处有500个点,0 < t < t_e 处有1000个点,IC处有10000个点,每个边界处有5000个点。
接下来,考虑到T和α在训练过程中受到影响,构建了两个独立的PINN,如图5所示。在训练α的PINN之后,另一个用于T的PINN在损失函数最小化的基础上进行顺序训练。此外,构建了两个FCNN( 和 )在PINN结构中处理复合材料-工具界面处的不连续性。作者使用了由7个隐藏层组成的FCNN,每层30个节点用于α,7个隐藏层每层20个节点用于T。此外,损失函数包括PDE残差项和T和α的BC/IC项:
在这里,使用了第4.4节参考文献【48】中的自适应损失权重算法来规范化梯度并解决梯度不平衡问题。对于激活函数,所有隐藏层使用双曲正切(tanh)函数,T和α的神经网络输出层分别使用softplus函数和sigmoid函数。
为了训练网络,使用了Adam优化器和批量大小为512的小批量优化,以及从学习率开始并在解没有改进的情况下减半的学习率调度器。此外,一旦完成一个案例研究的训练,网络参数用于另一个案例研究的初始化;即应用迁移学习以提高收敛速度。
该研究展示了修改神经网络结构以适当应用于实际问题的PINN,利用自适应损失权重算法和迁移学习构建“定制化”的PINN模型。
6.3 轴承疲劳预测
由于风力涡轮机内部的主轴承受到作为润滑剂的润滑脂状况的显著影响,开发轴承疲劳的预测模型是一项高度复杂的任务,要求准确的高保真数据。此外,由于润滑脂的变化和不确定性(即使在相同类型的润滑脂中),以及受周围环境和涡轮机运行条件的影响,制定润滑脂的控制方程具有挑战性。
为了解决这些问题,Yucesan和Viana【34】提出了一种混合PINN,将降阶物理子模型与神经网络结合(如第4.2.5节所述),分别对轴承疲劳和润滑脂降解进行建模。
轴承疲劳使用标准化的轴承寿命公式以ODE形式计算如下:
其中,表示等效动态轴承载荷,表示设计载荷等级,是可靠性水平系数,是基于润滑脂特性的调整系数。
这里,通过时间的推移来表示润滑脂的状态,作为粘度和污染比率的函数:
其中,
接下来,根据润滑脂服务寿命的中位数,基于轴承温度计算润滑脂损伤,表示为:
然后,根据Palmgren-Miner规则,通过采用寿命和润滑脂损伤之间的二次关系,计算增量损伤:
通过增量损伤,可以表示累积的润滑脂损伤:
对于分布的任意k分位数,方程(52)-(54)可以使用分位数比率表示,以平移分位数曲线:
为了预测轴承疲劳和润滑脂降解,如图6所示,使用LSTM网络对时间序列数据建模,将风速和轴承温度作为输入。作为训练数据,使用了风力涡轮机的监督控制和数据采集(SCADA)数据,润滑脂样本来自100台风力涡轮机,测量了六个月。连续时间域基于风速和轴承温度值的10分钟平均值离散化。LSTM中的FCNN由五层组成,每层的神经元数量分别为40、20、10、5和1。隐藏层使用指数线性单元(elu)作为激活函数,输入和输出层使用sigmoid函数。
值得注意的是,使用的损失函数类型是平均绝对误差(MAE),而不是常用的均方误差(MSE)。训练使用学习率为0.0005,总共训练200个epoch。为了评估模型性能,将分别在10、20、50和100台涡轮机上训练的四种模型的结果在另100台涡轮机上进行验证。
混合PINN模型即使在噪声数据的情况下,也有效地估计了润滑脂和轴承损伤。它精确地对齐预测与实际结果,并优化了单个涡轮机的维护计划,从而将预期寿命延长到大约20年。
与第6.1和6.2节描述的两个示例不同,物理-数据混合PINN架构是通过结合LSTM和FCNN结构提出的。结果表明,使用的实验数据越多,预测性能越准确。然而,仅使用了一个特定位置的风力涡轮机数据进行训练,没有考虑极端条件或复杂的负载情况,导致实验环境的多样性不足。尽管如此,该示例仍然是一个展示PINN在存在噪声数据的实际问题中的应用的良好例子。
7. 总结与讨论
本文分类了PINN可以应用的物理问题类型和目标任务,并回顾了自2019年Vanilla PINN发表以来,为提高PINN性能而进行的众多研究。为了有条理地回顾这些研究,我们首先回顾了集中在修改通用PINN架构的每个组件的研究:1)配点选择,2)神经网络,3)微分,4)损失函数和5)神经网络训练。随后,回顾了PINN在一些关键主题上的研究,涉及1)域分解,2)时间因果关系,3)元学习,4)降阶建模,5)模型集成,6)外推和7)多实例学习。此外,还提供了三个PINN在实际工程问题上的应用示例,以展示效果并描述实施第4和第5节中所述的一些研究的方法。
正如前面提到的,许多PINN的研究提出了新的技术以提高准确性或计算速度,结合现有的数值方法,并整合了一些最新的机器学习技术或优化技术。然而,由于应用领域、微分方程类型、神经网络结构和优化技术等条件的多样性,最新PINN研究之间的直接比较并不可行。此外,对于大多数缺乏相应领域知识的工程师来说,完全理解和从众多技术中选择仍然是一个障碍。Cuomo等人【6】提供了对PINN的深入回顾,详细讨论了许多PINN的理论方面,而本综述论文试图为在各种工程领域实施PINN改进提供指南。
基于回顾中的见解,确定了几个未来研究的关键领域,这些领域可能有助于更好地实施之前讨论的PINN研究。在作者看来,一些潜在的研究领域如下:
宏观视角的元学习:包括未来的各种技术。借鉴参考文献【85】中的思想,在那里通过双层优化同时计算损失权重系数和神经网络参数,在第4和第5节讨论的研究中,可以无监督方式选择定制化PINN的最优技术。这样,可以建立更易于访问的PINN的一般公式,并优化其实施,可能会提高整体性能。此外,可以进行对比研究以评估各种提高PINN性能的技术。
混合PINN技术:如第6.3节的示例中所述,利用数据和物理的混合PINN技术在某些数据可用的情况下可以考虑,其性能可能比没有数据的PINN更好。然而,除了应用于特定问题之外,还需要对这种混合方法的一般公式进行额外研究,这也可以包括在前述的元学习技术中,以便进一步评估。
学习多实例的强迫函数和BC/ICs:这是一个有前途的研究方向,可以解决PINN只能一次学习单实例的问题。在这种情况下,ULGNet可能特别有用,并可以扩展到更广泛的问题类型,从而增强PINN的适用性和稳健性。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!