AsPINN:自适应对称性重构物理启发神经网络
AsPINN: Adaptive symmetry-recomposition physics-informed
neural networks
摘要
物理启发神经网络(Physics-Informed Neural Networks, PINNs)在求解偏微分方程(PDEs)方面显示了良好的前景。然而,PINNs的损失函数及其正则项仅能在平均意义上确保预测结果符合物理约束,这导致了PINNs无法严格遵循隐含的物理规律,如守恒定律和对称性,从而限制了其优化速度和精度。尽管一些增强特征的PINNs试图通过添加显式约束来解决此问题,但由于特定问题设置的限制,它们的通用性受到限制。为克服这一局限,本研究提出了自适应对称性重构PINN(AsPINN)。通过分析全连接PINNs的参数共享模式,开发了特定的网络结构,以在预测中实现严格的对称性约束。这些结构被集成到不同的子网络中,以提供受限的中间输出,随后引入一种专门的多头注意力机制以自适应地评估并组合它们,从而得到最终的预测。AsPINN不仅维持了精确的约束,还解决了个别结构子网络通用性不足的问题。该方法随后被应用于求解多个具有物理意义的偏微分方程,包括正问题和逆问题。数值结果显示,AsPINN在数学一致性和通用性方面具有优势,优化速度和精度得到提升,同时减少了可训练参数的数量。结果还表明,AsPINN有效减轻了病态数据的影响。
code: https://github.com/ZitiLiu/AsPINN-Adaptive-symmetry-recomposition-PINN
1. 引言
偏微分方程(PDEs)在力学、物理和仿生学等多个领域发挥了重要作用。过去,研究人员主要通过数学推导或计算机辅助方法来求解PDEs。除了传统的计算方法(如有限差分、有限元和有限体积法),深度学习(DL)[1]的显著进展引起了对物理启发神经网络(PINNs)[2]的更多关注,这是一种基于数据驱动的算法,作为新型的通用函数近似器,具有良好的可扩展性[3]、灵活性和无网格性[4],成为一种优越的PDEs求解器。此外,PINN在使用观测数据解决逆问题时展示了其应用潜力[5]。
然而,PINN的性能仍有改进空间[6]。研究人员已在多方面探索改进PINN的精度和优化速度,例如模型结构和问题转移。举例来说,Jagtap等人[7]通过调整激活函数以动态改变损失函数的拓扑,从而加速模型;Yang等人[8]通过任务分解和渐进学习提升了PINN解决复杂任务的能力;进一步的进展包括Liu等人[9]提出的自适应迁移技术,使PINN可以从简单场景推导至复杂场景;Yang等人[10]提出的新型多输出PINN在噪声数据预测中提高了精度;更新的版本还包括硬约束投影PINN[11]、自动误差近似PINN[12]、多尺度PINN[13]等。这些努力旨在克服现有的局限性,并推动PINN应用的边界。
尽管如此,对于具有强物理意义的问题,PINN的一个局限在于其解不能始终遵循潜在的物理规律或隐含的物理守恒性[14]。为克服这一局限,研究人员采用了多种策略引入额外的限制。一种方法是将物理定律嵌入到PINN的损失函数中。例如,Wang等人[15]开发了一个理论引导的神经网络,将地下渗流的先验信息整合其中;Lin等人[16]通过在损失函数中嵌入守恒量,开发了一个两阶段PINN。另一种方法是修改神经网络结构。Mohan等人[17]在未标记的中间变量上进行预测,物理启发的解码器提高了神经网络的解的质量。因此,添加合适的限制有助于提高优化速度和精度,同时增强其物理相关性。
对称性是PDEs中的基本约束,当作为先验知识引入时可显著提升模型性能[18,19]。在数学上,考虑对称性是解决PDEs的有效方法[20]。在神经网络(NN)领域,对称性被广泛应用以增强特征并加速优化[21–24]。例如,Zhang等人[18]将李对称性引入到物理启发神经网络(PINNs)的损失函数中,以整合对称性并提高模型输出与PDEs固有李对称特征的符合性;另一个例子是Zhu等人[4]在网络中引入了Ablowitz–Ladik(A–L)方程中的时空奇偶对称性(ST对称性),使得非线性动态晶格解的模拟成为可能。这些嵌入方法在解决特定对称性问题时表现出色,生成符合物理规律的更精确输出。
然而,具有单一对称性的增强特征模型在处理具有复杂多样特征空间的问题时会遇到挑战,因为PDEs表现出不同的解空间。例如,Zhu等人的对称PINN局限于ST对称性,能够很好地预测A–L方程,但其框架难以泛化。尽管如此,他们的工作中描述了一种基于群等变神经网络构建ST对称网络的算法,提出了如何将这一方法推广以获得更通用模型的有趣问题。我们提出的方法包括两个主要步骤:首先,通过超出原物理问题的限制框架并修改先验对称特征,可以扩展算法结果以生成具有不同内在对称性的多个神经网络;其次,为了将来自不同特征空间的结果整合到通用模型中,需引入合适的组合方法。对称重构作为一种有效的集成和扩展单一对称性输出的方法,能够将多个对称分量组合成具有任意而非特定特征的PDEs。
受对称重构概念的启发,我们扩展了上述生成算法。通过创建具有特定参数设置的多个子模块并重构其输出,以避免随之而来的结构限制。不同于不可更改特征空间的模型,通过对称重构的方法,我们不仅充分利用了对称模块的结构优势,还显著扩大了可处理问题的范围。在我们提出的自适应对称性重构PINN(AsPINN)模型中,精心结合了对称性重构机制和注意力机制。前者确保输出不再局限于单一特征并具有数学一致性,而后者保证了适应性。
本研究的安排如下:第2节介绍了理论背景并详细描述了所提出的方法;第3节研究了四个问题,结果证明了所提出方法的性能;最后,第4节给出结论。
2. 方法论
2.1 理论设置
本节将说明如何可控地刻画偏微分方程(PDEs)中的对称性,为AsPINN提供理论基础。对称性是PDEs的内在属性,尽管不总是显现,但它提供了一种广泛适用的封闭解求解方法[18]。在物理学领域,根据Noether定理[25],对称性揭示了守恒定律。关于PDE对称性的更详细描述见附录A。现有研究已将对称性纳入PINN的损失函数[18]或构建特定对称网络结构[4],从而提升了PINN的精度和速度。因此,在迭代之前考虑PDE的对称性有利于改进PINN的性能。然而,由于通过公式或网络结构表达PDE中所有对称性的复杂性,直接构建神经网络受到限制。在这种情况下,需要对原始PDE进行额外的变换,以确保其输出呈现出对称结果。
AsPINN的核心概念基于一个事实:当PDE的对称性未明确时,可以采用称为“对称性重构”的过程将对称性引入中间变量中。实现这一目标的一个方法是通过函数的奇偶分解,在函数空间中使用奇函数空间和偶函数空间作为基础。可以表示为直接和[26],对于满足:
当且仅当变换和可以定义为:
这种数学指导策略已成功应用于信号处理[27]、图像识别[28]以及求解PDE的数学方法[29]等领域。上述讨论自然地激发了一个扩展,即重新组织PDE中的数学结论。
首先,需要将原始PDE转化为可控的形式。令表示PDE的变换,其中下标用于区分。PDE集合可以分解为包含适当对称性的不同PDE。更具体地说,通过构建类似于公式(2.2)的变换,可以将任意分解为:
那么,原始解可以通过这两个分解后的PDE解的线性组合表示为:
因此,中间变量和具有以下对称性:
然后,通过对称变换生成一个变换集合。简便起见,由变换集生成的中间变量所包含的对称集合被称为模型的“对称集合”。
总结而言,通过变换的作用,可以获得包含对称性的PDE。然后,将原始PDE分解为两个具有对称性的部分,以求解并重组。对于变换和的特殊情况,提出如下定理:
定理1:对于任何PDE,总是可以将其分解为具有公式(2.5a)和(2.5b)描述的对称性的两个PDE。
正式证明见附录B。因此,当PDE的对称性尚未确定时,可以嵌入不同对称性的子网络(如定理1所述)来求解不同的PDE并输出中间变量。这些变量随后组合为PDE的完整解。整个机制被称为“对称性重构”。
2.2 AsPINN结构概述
我们提出了自适应对称性重构物理启发神经网络(AsPINN),其灵感来源于两个部分的相互作用:对称性分解和组合。前者通过在特征空间嵌入的分解对称性指导预构建,确保AsPINN输出的高精度和数学一致性;后者则通过组合不同模块的关注输出,使AsPINN能够对任意PDE进行预测,从而扩展传统特征增强PINN的适用性。
在图1中概述了我们工作的3个主要步骤。首先,阐明了一种构建嵌入对称性的网络的硬约束方法,提出了子模块组合的框架。其次,基于模块输出的特性重新设计了多头输出机制。接着,通过引入注意力机制,自适应地分配不同输出头的注意力权重。第三步,以PDE的内在物理意义为指导,建立了组合原则和最终输出组合的方法。由此,AsPINN提升了在整合不同对称结构进入PINN时的兼容性和一致性,解决了更广泛的PDE问题。
2.3 对称块的构建
尽管具有对称性特征增强的PINN在特定PDE上表现出色,但当应用于偏离假设对称性的PDE时,其通用性可能受到挑战。然而,根据定理1,通过组合嵌入对称性Eqs.(2.5a)和(2.5b)的子网络的输出,可以实现任意PDE的解的组合。我们将这些具备单一对称性的子网络称为“对称块”,它们通过可训练参数设置展示了AsPINN的数学一致性。
Zhu等人[4]通过指定一系列隐藏空间并实施可训练参数共享,将ST对称性的等变特性重新解释后嵌入标准前馈NN中。他们还发现隐藏层中的参数共享模式在全连接NN中表现为群卷积。我们在附录C中将该方法扩展到更通用的形式,以生成更多对称性。与其他构建单一对称性嵌入NN的策略不同,我们的工作重复使用扩展的结论,使AsPINN能够包含多于两个对称性。为更清晰地描述,通过修改目标对称性,对称集中的元素数量增加,要求一个更丰富的相应变换集。这样,对称集更加全面,包括更多的对称元素,使AsPINN能够生成额外的变换,进而增加最终解的组合方式的多样性,这与定理1中的过程类似。此方法能够减轻单一对称性对特征空间的限制,同时扩展输出向量空间。
根据群等变定义,Eqs.(2.5a)和(2.5b)中的对称性可以通过由2阶循环群形成的等变群重新表达。两种变换可表示为:
其中和分别是作用于域和陪域的群作用。随后,包含上述对称性的块可以使用基于群等变NN的方法进行构建。
在图2中,以表示为Eq.(2.6a)的反演对称块PINN(ISB-PINN)进一步说明该构建。该NN至少由4个全连接层组成,其权重矩阵表示为,其中表示层数,是同一子矩阵的标记,偏置记为。其结构如下:
需要强调的是,以上结论不仅可用于构建对称块,诸如剪枝[30,31]和引入枢纽神经元[32]等各种NN结构方法也可应用于构建对称性超出Eq.(C.5)所描述的子网络,从而丰富了原始变换集。附录D中提供了关于其他结构的更多细节,以展示对称块的多样性和文章的完整性。其他方法将在未来工作中讨论。
当任务足够相似时,模型参数应该接近这一观点得到了Lasserre等人[33]的支持,他们通过参数范数惩罚来正则化NN的参数。在此,嵌入方法揭示了进一步可能的事实:若待解决问题具有某种特性,则为解决该问题构建的NN将包含相应、相似的参数结构。
2.4 自适应多头输出注意力机制
在对PDE问题的分析中,已知的对称性通常是有限的,而大多数PDE通常具有丰富的对称集合[18]。例如,在(3+1)维中的欧拉方程表现出10个李对称性[20],这使得事先构建所有这些对称性具有挑战性。因此,在大多数情况下,只能构建一个必要但不充分的对称集。为了解决这一问题,我们引入了一种自适应多头输出注意力机制(AMOA),其本质上不同于传统的多头注意力机制。
受多头注意力机制的启发,我们建立了一个类似但独特的结构。该机制分为两个部分:多头和注意力。首先,多头机制可以增强神经网络的表达能力并提供多个表示子空间[34]。我们的动机是允许对称块的特征空间覆盖尽可能多的不同特征,同时保留嵌入的对称性,从而弥补缺失的其他必要内在对称性。图3展示了AMOA的构建方式以及单头输出与多头输出的结构差异。对称块输出个结果,每个结果包含不同的特征但都具有相同的对称性,即
其中符号表示两个非线性仿射层之间的连接,表示单一隐藏层中的层间变换。从第层到第层的所有层间变换表示为。和的构建方法见附录C,用于嵌入给定的对称性。
采用多头输出机制的另一个好处是可以自适应地应用注意力分布,从而动态调整对称块的最终输出中不同头的组合[35]。与经典注意力机制[36]采用的残差注意力输出不同,我们采用直接乘法策略,以避免计算域内不同步变换可能导致的原始输出对称性损失。因此,对于对称块的每个输出头,根据图3(b)中的可视化,AMOA仅获得一个通过损失函数直接调整的权重以保持对称性。每个块头的输出乘以其对应的注意力权重,形成传递给组合模块的多头格式。具体而言,AMOA接受个对称块的个头的输入,产生个输出,用矩阵形式表示为
这些矩阵被传递到组合模块以获得损失函数,该函数通过Adam优化器[37]迭代权重矩阵。
需要注意的是,由于输出层中的非线性激活函数的存在,对称块只能预测范围为的值,但PDE解的值范围通常未知(可能超出此限制)。为避免潜在的不匹配,我们没有引入归一化措施,而是配置AMOA能够生成超过1的权重,从而扩展输出向量空间。
2.5 组合模块
经过前述处理,生成的结果包含通过多头机制引入的人工对称性和不同特征。为了将这些不同的结果有效组合成最终的PDE解,必须选择合适的组合方法。如图4所示,组合方法的选择取决于研究人员对PDE的先验知识,即识别PDE“元素”(解的维度上的变量或解的组成部分)内在对称性的能力。根据知识水平,组合模块的构建分为以下两种类型:
对称性已识别:如果可以确定PDE解某一元素所包含的内在对称性,那么组合模块应将包含正确对称性的模块输出纳入其预测。例如,在电磁波问题中,若解满足时间反演下场的复共轭不变性,则空间对称块的输出可以表示波的幅度,反演对称块的输出可以表示波的相位,从而得到最终解。
对称性未识别:如果元素的内在对称性完全未知,最坏情况下可以采用对称性重构的方法。根据定理1,使用包含Eq.(2.5a)和(2.5b)描述的对称性的2个模块求和来拟合该元素。特别地,当所有元素的对称性都未知时,使用上述2个模块的组合方法直接输出最终预测,任何PDE都可以求解。
在通常情况下,PDE的内在对称性部分已知,需要结合上述两种组合方法:对于已知对称性的元素,利用与相应对称块匹配的输出进行预测;对于未知对称性的元素,将其分解为2个对称部分之和进行预测。通过分析每个PDE元素的对称性并选择合适的组合方法,最终对PDE解进行重构。
2.6 整体实现过程
结合对称块、AMOA机制和组合模块,我们生成了包含更丰富对称性变换集的AsPINN实体。AsPINN的工作流程如下:通过不同的对称块重构PDE,自适应地增强或抑制其输出,从而突出表达良好的对称性并抑制错误的对称性,最终生成物理上有意义的结果。为了说明AsPINN的复杂结构,我们在图5中提供了更直观的表示。模型的构建基于不同模块:
对称块的识别和选择过程可以根据对PDE属性的先验知识水平,在迭代时或迭代前进行。若可以预测对称性,则可以预构建精确的对称块,以避免包含不准确的块,减少节点资源浪费,并降低迭代时间。然而,这通常需要对PDE的数学分析或所描述物理现象的深入理解。作为辅助,附录E提供了一种通过PDE表达式和边界条件识别空间反演对称性的方法。
相反,当PDE的对称性难以预先识别时,构建过程应包含更广泛的充分但非必要的对称块。在迭代后,通过筛选出表达良好的潜在对称性并应用Noether定理,可在计算结果和特定物理守恒定律之间建立联系[25]。
AMOA的作用是自适应地优化对称块的输出。在训练过程中,AMOA根据最终损失函数动态调整多头输出的权重。分配通过正反馈机制完成,对重要的潜在对称性进行奖励,而对错误引入的对称性进行惩罚。总结来说,AMOA首先增强了网络的表达能力,因为不同输出头捕捉了块的对称性并包括了多样的额外特征,有助于AsPINN识别和表达可能被忽略的重要对称性。此外,通过大于1的注意力权重放大,AMOA加速了网络的优化速度。最后,通过检查每个块的输出,可以测量PDE中不同对称性的比例,增强了AsPINN的可解释性。
最终组合取决于PDE的定义。在最坏情况下,PDE的属性未知时,根据定理1,应至少采用两个对称块的线性组合。相反,当识别了潜在对称性时,对称块可以与输出的不同元素关联,在不同维度形成满足各种对称性的输出。
AsPINN的迭代方法与PINN一致[2]:迭代的损失函数基于先验知识构建。对于PDE的正向问题,损失函数的来源包括控制方程、初始条件和边界条件:
损失函数通过均方误差()构建。正向问题损失函数的具体组成如下:
其中为预测值,是给定有限配置点的集合,子标代表不同类型,是损失函数的归一化权重。
对于逆问题,数据损失来源于个样本点,且Eq.(A.1)涉及未定参数向量。因此:
在正向和逆向问题中,神经网络利用反向传播(BP)算法寻找最小化的可训练参数向量:
总结而言,从正向数据流的角度看,AsPINN利用对称块系统地将独立变量映射为具有不同对称性的结果,这些中间变量符合指定的对称性标准。在给定多头输出和注意力分布后,根据PDE的形式要求进行重构。从反向数据流角度,AsPINN聚焦于对称块给出的结果,并对其进行重组,强调有利于解的对称性,协助研究人员的后续分析。模型预测结果与潜在物理机制的一致性有助于提高模型的可靠性和可信度。算法步骤详见算法1。
2.7 讨论
在特征增强神经网络结构的发展中,已有大量研究投入[18,38,39]。与其他模型相比,本文提出的模型在设计上具有以下独特优势:
结构中的对称性:与通过损失函数提供平均约束的“软约束”方法不同,AsPINN中的对称块通过经过严格验证的数学算法构建,采用“硬约束”方式。这确保了神经网络结构精确匹配对称性要求,提高了输出的数学一致性。
对称块的灵活性:AsPINN无需对输入或输出进行复杂的专门后处理,这与其他数学结构化的PINN不同。AMOA确保在训练过程中可以灵活地添加自定义对称块,而不会影响输出的整体准确性,从而促进了持续优化。
模型的通用性:AsPINN能够通过定理1指导的重构方法对任意PDE进行函数拟合。这种数学保证确保了AsPINN不受限于特定的PDE问题。此外,适当的组合可以满足多输出问题中不同维度的对称性要求。
对对称性的适应性:对称块的输出采用多头方式生成,促使神经网络弥补可能缺失的对称性。因此,即使引入的对称性不足,AsPINN仍能够产生令人满意的结果。此外,AsPINN对正确表示的对称性赋予更高权重,从而加快优化速度。此外,块输出的分布可以反映不同对称性的比例,便于后续分析。
这些特性赋予AsPINN更高的灵活性和数学一致性,使其比同类模型更具兼容性。鉴于此,我们希望在未来研究中深入探索该结构在各领域任务中的应用潜力,推动PINN的设计和理解。
3. 数值结果
我们解决了(a)在预定计算域内的正向问题,遵循严格建立的控制方程、初始条件和边界条件,以及(b)逆向问题,具有明确格式的控制方程但包含未定参数。我们选取了三个不同的方程——Burgers方程、Allen-Cahn方程和Laplace方程——以构建四个示例案例。前两个方程具有明显相反的对称性,而Laplace方程包含未知的对称性。它们共同构成了验证AsPINN的通用性和适应性的良好测试平台。
我们选择作为激活函数,并使用Adam算法[37],一种用于随机目标函数的一阶梯度优化算法,以优化损失函数。结果表明,AsPINN在正向和逆向问题中均表现出色。代码可在以下地址找到: https://github.com/ZitiLiu/AsPINN-Adaptive-symmetry-recomposition-PINN.git
3.1 可训练参数设置
为了形成对照组,除使用传统的全连接PINN外,还加入双分支PINN(DB-PINN),用于控制与多通道机制相关的变量。在特定问题的求解中,我们使用带有AMOA的单一对称块,即空间对称块PINN(SSB-PINN)和反演对称块PINN(ISB-PINN),进行对比分析,以评估单一对称块的可训练性和可扩展性。为了确保可训练参数维度相等,我们构建了参数较少的AsPINN模型,并将可训练参数的维度总结在表1中,定义同一权重子矩阵和偏置向量下的节点集为,设置头数为,所有模型的层数均为4。表中数据表明,AsPINN和单对称块PINN的可训练参数维度严格小于对照模型。为了充分展示AsPINN的通用性,AsPINN结构(包括对称块)在不同案例中保持不变,所有情况下随机种子固定为1234。
3.2 Burgers方程
Burgers方程是描述非线性波现象的关键工具,广泛用于流体动力学和波动行为等复杂系统的研究[40]。我们选择Burgers方程是因为其显著的反对称特性,是验证对称块带来的准确性和数学一致性以及AMOA的有效性和可解释性的强大测试平台。
3.2.1 Burgers方程的正向问题
考虑带有Dirichlet边界条件的一维Burgers方程:
该问题的损失函数定义为:
其中,且
其中表示预测值及误差计算中的配点。
在本案例中,AsPINN引入了反演对称块(ISB)和空间对称块(SSB)。故意引入了具有对称性Eq.(2.5b)的错误块SSB,以展示AMOA的区分作用。对照组包括PINN、DB-PINN和两种变体:(a) ISB-PINN,用于说明单一对称块的可训练性和可扩展性;(b) 不带AMOA的AsPINN,以展示AMOA的选择功能及其对优化速度的影响。为了全面考察不同节点数对输出的影响,模型中子权重矩阵的维度分别设为。
A. 五种模型的结果和误差对比
图7展示了模型预测结果和误差。顶部为通过4阶Runge-Kutta方法生成的真实解,网格大小为1e3,时间步长设为。表3汇总了模型在Burgers方程案例中的相对L2误差值。所有模型均正确迭代,但轻量化PINN由于节点数限制导致误差较大。相较其他模型,AsPINN和ISB-PINN在非线性项和冲击波位置的预测中准确度更高,且所需的可训练参数维度更少。
B. AsPINN、DB-PINN与PINN的对比
图8展示了损失函数的对比。DB-PINN通过其多通道机制稍微优于PINN,提高了表达能力[41]。相比之下,AsPINN展现出更高的速度和准确性,这归因于其内在的对称性整合。AMOA的严格嵌入和有效性使AsPINN能够更早选择正确的对称块并精确预测。最终,AsPINN将MSE从1.33e-3(PINN所得)降至8.68e-6,精度提高了3个数量级。
C. 和的对比
如图8(b)所示,在初期波动剧烈,因为所有模型初始化为低频解。由于频率原理[42],从较高值(约1e1)开始。AsPINN的和值显著优于传统PINN,表明对称块构建的硬约束方法使NN严格遵循初始物理定律并精确满足边界条件。
D. AsPINN与无AMOA的AsPINN的对比
图8(a)显示,AMOA优化了AsPINN的训练过程,其平均速度提升至损失规模1e-2,并且最终精度比无AMOA模型提高了两个数量级。图9和图10显示,AMOA指导下的ISB较早达到优化。AMOA展示了其适应性,使AsPINN更早聚焦于正确的块,从而优化速度和准确性均显著高于无AMOA模型。
E. AsPINN与ISB-PINN的对比
AsPINN和ISB-PINN的曲线对比揭示了AMOA在强调正确块上的选择性作用。AsPINN的在初始阶段(约3e4步)高于ISB-PINN,这是由于误块的存在。然而,随着模型逐渐聚焦于正确块并抑制错误对称性的输出,两者准确性逐渐趋同。
F. 后处理引入的误差
此外,我们还得出一个附带结论:当PDE的对称性已知时,仅计算生成对称域将导致边界处产生误差。由于一维Burgers方程展示出反对称性,我们尝试使用常规PINN预测计算域的一半(),然后在维度上应用反演变换以组合完整域()。生成域(即半域)设置为,完整场数据则为:
图11(a)展示了在3个条件(边界条件、初始条件、控制方程)不变且节点数不变的情况下的计算结果。结果表明,仅计算区域的一半并反转结果会在边界处引入不合理的梯度,违反了Burgers方程的扩散特性并导致数值不稳定。此外,如图11(b)所示,尽管半域计算可以降低计算域内的,但沿对称轴(即计算边界)进行计算时,后处理计算方法会导致解的形状失真。这种失真削弱了冲击波,导致预测结果不符合物理规律。
因此,仅计算生成域的策略不仅需要PDE对称性的先验知识,而且得到的结果无法满足物理规律。综上,当PDE的对称性已知时,优先使用包含正确对称块的AsPINN进行全场预测,而非对常规PINN生成域预测结果进行后处理。
3.2.2 Burgers方程的逆问题
本案例的目的是比较不同模型在样本点充足的情况下反演整个计算域的准确性和速度。Burgers方程按照Eq.(3.1)定义,但用未定参数替换了扩散项:
并修改了损失函数的组成,将改为:
其中,且
如图12(a)所示,真实解同样通过4阶Runge-Kutta方法获得,网格大小为1e3,时间步长设为秒。样本点采用拉丁超立方采样策略生成,总共包含100 × 2个样本点。对比模型包括PINN、DB-PINN和ISB-PINN,均设有4层,子矩阵维度,迭代次数为1e5。
为了评估模型的预测准确性和速度,我们根据迭代步骤排列模型的参数预测。根据图12(b)所示结果,样本点足以预测单个参数,所有模型均给出正确预测。
根据Goodfellow等人的定义[43],由于存在于神经网络可训练参数向量的维度上,曲线可以视为从初始到精确值的参数优化轨迹。通过比较相同迭代步数下的接近程度,可以衡量模型的优化性能。图12(b)显示AsPINN和ISB-PINN在参数预测中的波动较传统PINN低,这表明由于对称块的帮助,AsPINN和ISB-PINN的优化轨迹较短,反映了它们在参数空间中寻找正确解的能力增强。然而,ISB-PINN的曲线在参数空间中的梯度较低,这是因为其精细的权重设置将其输出解空间限制在包含Eq.(2.5a)对称性的PDE中,从而降低了找到正确解的难度。相比之下,尽管AsPINN的优化轨迹相对较长(由于误块的存在和不可避免的注意力过程而导致的绕道),但其解空间不受限制。
总结以上现象,我们得出结论:AsPINN在不失通用性的情况下缩短了未定参数的优化轨迹。
四种模型的、和损失函数如图13所示。模型的相对L2误差值汇总在表5中。由于AMOA带来的预嵌入对称性和适应性,AsPINN在优化速度上实现了加速,并在最终收敛时相比PINN提高了一个数量级的精度。一方面,表明了输出符合物理定律的程度,展示出AsPINN因嵌入对称性而更具物理导向性;另一方面,根据曲线的趋势,可以得出结论:专门的权重设置不仅不会阻碍AsPINN的表达能力,还使AsPINN能够准确拟合数据。此外,AsPINN在正向和逆向问题的预测上表现一致,展示了其多样性。
然而,由于错误对称块SSB带来的无效可训练维度的存在,AsPINN的准确性和速度低于ISB-PINN的输出。ISB-PINN专注于精确且预定的对称性,通过增加有效节点和可训练参数进一步提高了优化速度和准确性。然而,如前所述,这种预选需要先验知识,并且对于不同问题需构建不同的网络结构,缺乏可迁移性。
3.3 Allen-Cahn方程
Allen-Cahn方程(A-C方程)是一种描述相变和界面演化的偏微分方程,广泛应用于模拟固态相变、液滴形成和晶体生长等现象[44]。作为前一案例(Eq. (2.5a))的完全相反对称性(Eq. (2.5b))的一个例子,A-C方程用于评估AsPINN的适应性。此外,为了模拟实际应用中可能存在的不均匀传感器分布,我们故意生成不平衡数据,以测试AsPINN对病态数据的优化能力。A-C方程的公式如下:
定义三个参数、、,并将定义为:
其中,且
真实解通过Chebfun工具包获得,在轴上有5e3个网格点,轴上有1e3个网格点。对和使用拉丁超立方采样生成100 × 2个样本点。图14(a)显示了不平衡数据的情况,数据丰富区域容易导致过拟合,而稀疏区域则可能出现欠拟合。
对照组包括常规PINN、DB-PINN和SSB-PINN。AsPINN包含与解决Burgers方程正向问题相同的对称块,以强调其通用性。设定同一子矩阵下的节点数为,计算迭代步数为1e6。结果如图14所示,模型的相对L2误差汇总于表6。
数据失衡导致的偏离和AsPINN的适应性
在计算域和内,由于数据不平衡,明显偏离物理定律的情况可以观察到。这种差异源于和区域仅有方程约束而无数据约束。NN倾向于根据低频解的频率原理[42],提供趋近于的解,满足方程约束。相比之下,由于内置对称性,AsPINN和SSB-PINN在输出中保留了对称性,从而减轻了数据不平衡引入的误差,并符合物理定律。
需要强调的是,SSB-PINN的输出向量空间包含所有符合A-C方程正确对称性Eq. (2.5b)的PDE解,因此能够在该训练场景中做出准确预测。令人感兴趣的是,AsPINN在未预先知晓PDE对称性的情况下,仍然能够生成正确的预测,精度和速度均优于其他模型。这显示了AsPINN在抗数据不平衡场景中的强大能力。
AsPINN的优化路径和参数预测
AsPINN的强大能力部分源于其选择最佳优化路径的能力。每个块都提供潜在的优化路径,而SSB的路径成本更低,AsPINN能够在早期选择正确路径。图15显示了正确的SSB输出逐渐逼近精确解,而ISB的输出在最初试图符合样本点后逐渐趋于,说明单一对称块不能拟合相互排斥的对称性。
图16显示,与其他模型相比,PINN预测误差较大,而由于节点数限制,SSB-PINN的优化速度较慢。AsPINN和DB-PINN具有较高的优化速度,但在预测时,AsPINN在约3e5次迭代后收敛,比其他模型更快。此外,在约5e5次迭代时,DB-PINN的原始平滑预测发生阶跃变化,表明其可能从一个鞍点脱离,之前收敛于一个成本较高的局部最小值。相反,AsPINN的预测轨迹无显著梯度波动,在相同迭代步数下更接近准确的预测,表明AsPINN的参数优化路径更短更准确。
总结
最终收敛的预测值和损失见表7。可以观察到,PINN的最终预测误差较高,主要受节点数限制影响。此外,由于扩散系数的尺度较小,预测精度较差。DB-PINN和SSB-PINN预测的为负值,缺乏物理意义。相比之下,尽管有一些损失,AsPINN提供了最接近真实值且具有物理意义的结果。在双阱势函数的参数和预测中,AsPINN也提供了最接近真实值的结果。这些发现表明在不平衡数据训练下,AsPINN能更好地在整个计算场域内提供符合物理定律的高速度高精度解。
3.4 Laplace方程
拉普拉斯方程广泛应用于电场、热传导和流体静力学等多个领域[47],描述物理系统在稳态条件下无源项的势场分布。我们选择该方程以展示AsPINN在解决任意PDE方面的能力,尤其是在解不具备或未指定对称性时,AsPINN仍可优于传统PINN。
考虑二维坐标中的稳态拉普拉斯方程,并具有以下初始和边界条件:
损失函数的定义为:
其中,且
方程的真实解为。在此非显式对称问题中,AsPINN沿维度使用对称块进行对称重组。基准模型包括传统PINN和DB-PINN。所有模型使用子权重矩阵维度。图17展示了精确解和损失函数的结果,模型的相对L2误差汇总于表8。
AsPINN的精度和迭代速度
从图17(b)可以看出,AsPINN在无需显式对称设计的情况下实现了高精度预测,使用的可训练节点更少,数值精度高于其他模型。AsPINN在前1e4步内的优化速度高于其他模型,且最终将从5.76e-3降低至2.31e-3。此外,AsPINN的与对比模型的数量级相当,表明其优势主要体现在边界误差的降低。因此,AsPINN在边界条件上具有快速迭代能力,同时满足计算域内的控制方程。
AsPINN的输出一致性和数学一致性
图18展示了AsPINN使用的两个对称块的输出比较,这些块严格遵循各自的对称性,通过AMOA机制整合为统一输出,展示了AsPINN的数学一致性。总体而言,结果表明AsPINN能够自适应调整不同对称块的输出,从而在处理更一般的PDE时达到更高的精度,进一步证明了其在建模复杂物理现象方面的优势。
3.5 稳态圆柱流
在流体力学领域,二维不可压缩层流圆柱流案例[48]作为具有多输出和多约束的复杂案例,可用于测试AsPINN在多输出条件下的性能。此案例的输出包含同时具有完全相反对称性的两个维度,能够更好地反映AsPINN的适应能力。案例条件包括:动态粘度 kg/(m·s)、密度 kg/m³,最大流速限制为 m/s。控制方程如下:
进口流速为:
即:
损失函数的定义为:
其中,且
具体设置如图19所示。我们将AsPINN与PINN和DB-PINN模型进行了比较,计算节点数为,计算步数为2e5,学习率设为5e-4,在5e4和1.5e5步时分别降为原来的1e-1以减少损失函数波动。各模型的结果及该案例下的全场误差如图20所示。从图20(d)、图20(k)和图20(r)可以看出,AsPINN在求解具有不同对称性的、、场时,能够自适应调整每个输出端所需的模型对称性,从而在不同输出维度中实现准确预测。
AsPINN的优化表现
图21显示了三个模型的随迭代次数的变化情况。从图21(a)可以看出,AsPINN的最终预测值最低,为8e-5,比其他两个模型约3e-4的值低一个数量级。图21(b)和图21(c)表明,AsPINN在和上均显示出更准确的迭代结果和更快的迭代速度。表9中的L2误差值进一步支持了AsPINN在准确性方面的优势,即在PINN模型中引入自适应和结构化对称性是有效的。
3.6 3D 稳态热传导问题
稳态热传导问题通常用于验证PINN在三维计算中的性能[49]。该问题的控制方程为三维拉普拉斯算子:
为更好地展示三维效应,我们采用了复杂的边界条件(混合Dirichlet和Neumann):
定义损失函数:
其中,且
问题设置如图22所示。节点数设为,计算步数为4e4。使用的计算模型包括PINN、DB-PINN和AsPINN,计算结果如图23所示。
模型预测结果分析
从图23(b)可以看出,PINN的预测呈现出“偏斜”模式,未能遵循边界条件所要求的对称性,导致预测精度下降。此外,图23(c)显示在坐标附近PINN产生了显著误差。PINN的误差分布不仅不规则,且大于其他两个模型,增加了后续优化的难度。尽管DB-PINN的误差较PINN小,但图23(e)显示其仍未严格执行规定的对称性,误差分布不规则。相比之下,AsPINN通过结构性地执行对称性,在误差中实现了多个符合旋转对称的极值区域,误差值低于其他模型。
对比
三种模型的对比见图24。结果表明,AsPINN在和的迭代速度和精度上优于传统PINN和DB-PINN。如图24(a)所示,AsPINN在初期步伐中具有更高的下降率,达到了约2e-4的精度。此外,图24(b)和24(c)显示,迭代后AsPINN的和值低于传统PINN和DB-PINN。因此,AsPINN在三维对称问题上也优于传统PINN模型。
4. 结论
我们提出了一种自适应对称重组物理驱动神经网络(AsPINN),通过在神经网络中引入具有严格数学意义的对称块和特殊注意力机制。相比通过特定损失函数构造“软约束”的其他模型,AsPINN确保每个对称块的输出符合严格的数学证明,形成了“硬约束”,更好地满足了物理约束。不同于仅对输入-输出变量施加结构对称的其他方法,AsPINN不对这些变量进行额外的后处理,而是从物理和数学上更一致地修改模型结构。我们的主要贡献包括:
我们扩展了构建嵌入对称性的NN的算法,结合专门的多头注意力机制AMOA,提出了由对称重组指导的AsPINN框架,使其能够适应并兼容更广泛的自定义对称块。 AsPINN在解决任意PDE的正向和逆向问题时提升了原PINN的精度和速度,同时减轻了病态数据的影响。 提出了识别PDE中未指定对称性的机制,通过对各块输出的后验分析显示了模型对内在对称性的表达能力。
AsPINN尝试将李对称硬约束模块与注意力机制整合到全连接PINN领域中。尽管AsPINN增强了学习能力,有效利用了领域知识和先验信息,但仍存在一些需要在未来研究中进一步探讨的局限性:
虽然在研究案例中输出向量的最大维数设定为3,AsPINN并未固有地限制输出向量的维数。在涉及更高维的复杂空间时,不同对称性可以得到表达,这将在未来的案例研究中验证。 在AsPINN的迭代过程中,对称块的错误输出会被掩盖,导致一定数量的网络节点浪费。如果能够更早地预测对称块输出的正确性,并在初期屏蔽或重新定向这些节点到正确的块上,将进一步提升性能。
“李对称”指的是李群(Lie group)中的对称性。李群是描述连续对称性的数学结构,通常应用于物理和数学中,来描述具有连续对称性的系统。李对称性可以表达物理方程在特定变换下(如旋转、平移、缩放等)保持不变的性质。通过利用李对称,可以简化方程,揭示系统的内在对称性,从而帮助理解和解决复杂的物理问题。
在AsPINN模型中,李对称被用作“硬约束”,确保网络的输出严格符合特定的对称性要求。这种方法通过嵌入李群的数学特性,让模型在计算过程中遵循物理定律,使得AsPINN在解决物理驱动的方程(尤其是包含对称性的方程)时更为精确和高效。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!