RoPINN:区域优化PINNs,从逐点优化走向区域优化,一致性地提升PINNs的性能

文摘   2024-11-11 12:47   中国  



Abstract(摘要)

物理信息神经网络(PINNs)已被广泛应用于通过强制深度模型的输出和梯度来满足目标方程,从而求解偏微分方程(PDEs)。由于数值计算的限制,PINNs通常在有限选定的点上进行优化。然而,由于PDEs通常定义在连续域上,仅在散点上优化模型可能不足以获得整个域的精确解。为缓解默认散点优化的固有缺陷,本文提出并从理论上研究了一种新的训练范式,称为区域优化。具体而言,我们提出将PINNs的优化过程从孤立点扩展到其连续邻域区域,这在理论上可以减少泛化误差,特别是对于PDEs的高阶约束。提出了一种实用的训练算法,称为区域优化的PINN(RoPINN),它无缝地源于这一新范式,通过简单而有效的蒙特卡罗采样方法实现。通过校准采样过程到信任区域,RoPINN在优化和泛化误差之间取得了细致的平衡。实验表明,RoPINN能够在不需要额外反向传播或梯度计算的情况下,一致地提高多种PINNs在广泛PDEs上的性能。代码可以在此仓库获取:

https://github.com/thuml/RoPINN

1 Introduction(引言)

本文相对于以上方法,提出了解决PINNs的一个基础性问题,即PINNs的目标函数。我们注意到,由于数值计算的限制,几乎不可能在完整的连续域上优化损失函数。因此,传统的PINN损失通常仅在一系列选定点上定义(称为散点优化)。然而,散点损失显然不符合PDE求解的要求,即在连续域上近似解。为缓解这一问题,我们提出一种新的训练范式,称为区域优化。本文将PINNs的优化过程从孤立点扩展到邻域区域,理论上可以减少泛化误差,特别是对于PDEs的高阶约束。此外,RoPINN无缝地基于此新范式,并通过简单而有效的蒙特卡罗采样实现。

与前述方法不同,本文关注的是PINNs的一个基础性问题,即其目标函数。我们注意到,由于数值计算的限制,在完整的连续域上优化损失函数几乎是不可能的。因此,传统的PINN损失通常仅在一系列选定点上定义(见图1)。然而,散点损失显然不符合PDE求解的目标,即在连续域上逼近解。这种不匹配可能会从根本上限制PINNs的性能。为了解决这一问题,本文将优化方法大致分为两类:一类是通过添加PDEs的高阶导数作为损失函数的正则化项来增强优化;另一类则是尝试通过变分公式在PINN损失函数中绕过高阶导数的计算。

本文提出并研究了一种新的训练范式,称为区域优化。如图1所示,我们将优化过程从选定的散点扩展到邻域区域,理论上可以减少整个域上的泛化误差,特别是对于PDEs的高阶约束。在实践中,我们通过简单有效的蒙特卡罗采样无缝地将这一范式转化为一种实用的训练算法,称为区域优化的PINN(RoPINN)。此外,为了控制估计误差,我们根据连续训练迭代中梯度方差的变化自适应地调整采样区域大小,这样可以将采样优化限制在低方差损失梯度的区域,即信任区域。实验表明,RoPINN在广泛的PDEs上(19个不同任务)对各种PINN框架均表现出一致且显著的提升,且不需要任何额外的梯度计算。

我们的贡献总结如下:

  • 为了缓解传统PINN优化的固有缺陷,我们提出了区域优化范式,将散点优化扩展到邻域区域,从而理论上有助于减少泛化误差并满足高阶约束。
  • 我们提出了基于蒙特卡罗采样的RoPINN训练方法,通过在信任区域内进行校准采样策略,减少了因采样而引起的泛化误差。
  • RoPINN能够在不需要额外梯度计算的情况下,一致提升各种PINN框架在广泛PDEs上的性能。

2 预备知识

带有方程约束、初始条件(ICs)和边界条件(BCs)的PDE可以形式化为:

其中分别表示PDE方程、初始条件和边界条件。是目标PDE解。表示输入坐标,通常为空间和时间位置的组合,即

相应地,PINN的损失函数(点优化)通常定义如下:

其中表示由参数化的神经网络。分别为在中采样点的数量。为相应的损失权重。注意,当我们可以访问一些点的真实数据时,式(2)中还有一个附加的数据损失项。由于本文中我们主要关注PDE约束,因此在上式中省略了数据损失项。为了改进PINN的求解性能,本文提出了一种新的替代损失,以取代式(2)中PINN损失的标准定义。

高阶正则化

第一个方向是添加PDEs的高阶约束作为损失函数的正则化项。具体而言,由于PDEs是相同关系的集合,假设解是一个阶可微分函数,式(1)可以自然导出一系列高阶方程,其中维的阶导数满足。该正则化项对应如下公式:

其中表示带权重的采样点数量。


变分公式

作为传统PDE求解器中的经典工具,变分公式广泛用于降低近似解的平滑度要求。具体而言,将目标PDEs乘以一组预定义的测试函数,然后损失函数的PDE方程项转换为以下公式:

其中定义为维上的的反导数。通过分部积分中的导数操作被转移到测试函数上,从而绕过高阶导数。然而,上的积分依然难以计算,需要大量的求积点用于近似。此外,测试函数的选择需要额外的手动操作,并带来倍的计算成本。相比之下,RoPINN不需要测试函数且不会带来额外的梯度计算。此外,RoPINN采用信任区域校准策略,以限制低方差区域中的优化,从而控制采样估计误差。

3 方法

如前所述,我们提出了区域优化范式,将优化从散点扩展到相应的邻域区域。本文将首先介绍区域优化及其在减少泛化误差和满足高阶PDE约束方面的理论优势。然后,我们以简单而有效的基于采样的方式实现RoPINN,并结合信任区域校准策略控制采样估计误差。

3.1 区域优化

为清晰起见,我们记录式(2)中的点优化损失为,其中表示从内部域、初始状态或边界中选择的点。我们采用表示选定的有限点集。然后,式(2)可以简化为


相应地,我们创新性地将区域优化的目标函数定义为:

其中表示扩展邻域区域,超参数为。尽管该定义似乎需要比点优化更多的采样点,但我们可以开发一种高效算法来实现它而无需增加采样点。此外,这一公式也为我们提供了一个便利的理论分析框架。接下来,我们将讨论两种优化范式的理论性质。

泛化界

在此,我们讨论泛化误差的期望界,该界独立于点选择,从而更严格地量化PINN优化的误差。

定义3.1. 数据集上训练的模型的期望泛化误差定义为:

其中表示训练算法,表示优化后的模型参数。

假设3.2. 损失函数对模型参数是-Lipschitz且-平滑的,即对所有满足以下不等式:

定理3.3(点优化). 假设损失函数-Lipschitz且-平滑的。如果我们以步长进行随机梯度下降,则泛化误差满足:

  1. 如果是凸的,且,则
  2. 如果对所有由常数有界,且对非凸且单调递增,则

引理3.4. 如果对所有有界且是凸的,并且关于模型参数-Lipschitz且-平滑的,那么对于所有也是有界且凸的,并且关于-Lipschitz且-平滑的。

定理3.5(区域优化). 假设点优化损失函数-Lipschitz且-平滑的。如果我们以步长进行随机梯度下降,并基于式(5)中的区域优化损失进行次迭代,则期望泛化误差满足:

  1. 如果是凸的,且,则

  2. 如果对所有由常数有界,且对非凸,单调递增且满足,则,其中是一个与初始训练属性相关的有限数。

证明. 基于Lipschitz假设,可以被限制在一个与不同训练集下优化得到的参数的期望距离相关的项。区域优化范式在每次迭代中相对于点优化提供了一种更一致的梯度优化方向,从而提升了泛化属性。完整证明见附录A.3。

通过定理3.3和3.5,我们可以观察到区域优化可以降低泛化误差。此外,区域优化定理还提供了更通用的理论框架。例如,当时,传统的点优化相当于为每个区域选择一个单点。对于另一极端情况,将区域大小扩大至整个域(即),式(5)等价于直接优化定义在上的损失,其中泛化误差将减少到零。不幸的是,这种理想情况在实践中无法满足,因为式(5)需要计算整个域上的积分。更多关于实际实现的讨论在下一节中。

高阶PDE约束

在我们提出的区域优化(式(5))中,输入域上的积分操作可以放松损失函数的平滑度要求。例如,我们可以直接为第一阶损失维上导出泛化误差。


算法1:区域优化PINN(RoPINN)

输入:迭代次数,用于估计信任区域的过去迭代数,默认区域大小,信任区域校准值,初始PINN参数
输出:优化后的PINN参数
初始化一个空缓冲区,用于记录梯度
对于执行以下步骤
// 使用蒙特卡罗近似进行区域优化

  • 从邻域区域采样点:,其中
  • 计算损失函数
  • 使用优化器(如Adam、L-BFGS等)将更新为,以最小化损失函数

// 信任区域校准

  • 在整个优化过程中记录参数的梯度
  • 通过添加并保留最新的个元素来更新梯度缓冲区
  • 使用进行信任区域校准

推论3.6(针对一阶约束的区域优化)
假设对所有由常数有界,且对-Lipschitz且-平滑的。如果我们基于一阶维损失函数进行随机梯度方法,并进行次迭代,则在采用单调非递增步长的情况下,泛化误差满足定理3.5(2)。

推论3.6表明,在区域优化中对输入域进行积分可以帮助训练具有高阶约束的PINN,这对于波动方程等高阶PDEs非常有价值。在经典点优化中无法实现这一属性。详见示例3.7。

示例3.7(点优化在一阶约束优化中的失败)
在与推论3.6相同的假设下,不能保证一阶损失的Lipschitz和光滑性属性。例如,假设,其中-Lipschitz和1-平滑的。

3.2 实用算法

基于区域优化的理论见解,我们将RoPINN实现为一种实用的训练算法。如算法1所述,RoPINN包括以下两个迭代步骤:蒙特卡罗近似和信任区域校准,前者可以有效逼近优化目标,后者可以有效控制估计误差。接下来,我们将讨论RoPINN的细节和收敛性质。所有证明见附录B。

蒙特卡罗近似
注意到在式(5)中,区域积分无法直接计算,因此我们采用基于蒙特卡罗近似的简单实现方法。具体而言,为了逼近区域损失的梯度下降,我们在区域中均匀采样一个点来逼近每次迭代的梯度下降,其期望等于原始区域优化在式(5)中的梯度下降:

除了在不增加采样点的情况下有效地逼近区域优化外,我们提出的基于采样的策略还等价于高阶损失函数,特别是对于一阶项,这在实践中至关重要。具体来说,利用泰勒展开,我们有:

其中表示一阶损失函数,即

定理3.8(收敛速率)
假设存在一个常数,使得对中的所有,满足。如果步长随迭代次数递减,则基于蒙特卡罗近似的区域优化将以以下速率收敛:


定理3.9(梯度估计误差)
从蒙特卡罗近似和原始区域优化的梯度下降的估计误差满足:

其中表示区域中梯度的标准差。

信任区域校准
尽管蒙特卡罗采样的期望等于区域优化中的梯度(如式(8)所示),但这种设计在实践中也会带来估计误差(定理3.9)。较大的估计误差会导致不稳定的训练,进而影响收敛。为确保可靠的梯度下降,我们提出控制采样区域大小,以朝向可信赖的值,即“信任区域校准”。与优化中的传统信任区域概念不同,这里的信任区域用于定义在损失梯度的不同点的方差相对较小的输入域面积。形式上,我们根据梯度方差调整区域大小:

在实际中,我们将初始信任区域大小设为默认值,并在训练过程中根据校准计算估计误差(算法1)。然而,梯度的标准差计算通常需要多个样本,这将带来计算负担。为实现实用算法,我们提议采用逐次迭代的梯度方差作为近似,类似于深度学习优化器中的动量梯度下降,如Adam和AdaGrad

引理3.10(信任区域的一步近似)
假设损失函数-Lipschitz且-平滑的。两次迭代之间的梯度差异满足以下不等式:

其中表示次迭代的步长,当趋向于无穷大时,趋向于0。


定理3.11(信任区域的多迭代近似)
假设损失函数-Lipschitz且-平滑的,学习率随时间趋于零,则估计误差可以通过多次迭代中优化梯度的方差来近似。给定超参数,我们的多迭代近似保证如下:

值得注意的是,如算法1所示,每次迭代的梯度已经存储,因此我们的设计不会带来任何额外的梯度或反向传播计算开销。我们的算法不限于某个特定的优化器,通常,我们可以通过检索计算图来有效获取参数的梯度。

泛化与优化之间的平衡

回顾定理3.5,我们观察到较大的区域大小有助于减少泛化误差,而定理3.9表明较大的区域大小也会导致不稳定的训练,因为这会导致蒙特卡罗采样中的过高梯度估计误差。上述分析揭示了PINN模型的泛化与优化之间的权衡,下面正式陈述这一结果。

定理3.12(带有梯度估计误差的区域优化)
基于定理3.5中的假设,并将PINN模型应用于具有近似区域优化损失的区域优化损失,对于次迭代,我们进一步定义梯度估计误差的上界为,则泛化误差满足:

  1. 如果是凸的,且,则

  2. 如果对所有由常数有界,且对非凸,单调递增且满足,则

其中是一个依赖于初始训练属性的有限数。


证明. 与定理3.5不同的是,这里的梯度估计误差将在不同训练集之间带来额外的优化差异。完整证明见附录B.4。

基于定理3.12,我们指出经典点优化()和全局采样()分别对应于两种极端情况。前者使得,但无法减少泛化误差,而后者具有较大的梯度估计误差。因此,这两种情况都无法为PINNs提供完美的泛化性。相比之下,在RoPINN中设计的信任区域校准提供了一种自适应策略,可以更好地平衡泛化与优化,从而可以根据多迭代训练稳定性来调整区域大小。

4 实验

为了验证我们提出的RoPINN的有效性和广泛性,我们对一系列PDEs进行了实验,涵盖了不同的物理过程和一系列高级PINN模型。

基准测试
为了进行全面评估,我们实验了四个基准:1D-Reaction、1D-Wave、Convection和PINNacle。这前三个基准广泛用于研究PINNs的优化特性,尤其是1D-Reaction和Convection挑战性较大,常被用于展示“PINNs失效模式”。对于PINNacle,它是一个包含20个任务的全面基准,包括多种PDEs,如Burgers方程、Poisson方程、Heat方程、Navier-Stokes方程、Wave方程和Gray-Scott方程,涵盖1D至5D空间和多种几何形状。

基础模型
为了验证RoPINN在不同PINN模型中的广泛性,我们使用了五个基础模型,包括经典PINN、增强激活函数的PINN、FLS、基于Transformer的PINNsFormer、以及基于物理知识的KAN。PINNsFormer和KAN是最先进的PINN模型。


基线
如前所述,本文主要关注PINNs的目标函数。因此,我们仅将增强梯度的gPINN和基于变分的vPINN作为基线方法。值得注意的是,还有其他专注于不同方面的训练策略,例如采样为基础的RAR或神经切线核(NTK)方法。我们也对这些方法进行了实验,结果表明它们对RoPINN具有正交的贡献。

实现细节
在RoPINN(算法1)中,我们选择多迭代的超参数取值为,并将初始区域大小设为用于所有数据集,信任区域大小会在训练过程中根据PDE特性自适应调整。对于1D-Reaction、1D-Wave和Convection,我们遵循之前的文献,并使用L-BFGS优化器进行1000次迭代训练。对于PINNacle,我们严格遵循其官方配置,使用Adam优化器进行20,000次迭代。此外,为了简单起见并公平比较,我们将所有PINN损失的权重设为相等。实验在PyTorch中实现,并在单个NVIDIA A100 GPU上运行。更多实现细节见附录C。

4.1 主要结果

结果
如表2所示,我们在不同任务和基础模型上验证了RoPINN的有效性,并与两个被广泛认可的PINN目标函数进行了比较。以下是两个关键观察:

RoPINN在所有基准测试上都表现出稳定的良好性能,证明了其在PDE和基础模型上的广泛性。值得注意的是,由于所研究的PDEs差异很大,特别是对于PINNacle任务,获得一致的显著改进极具挑战性。

如表1所示,1D-Reaction和Convection难以优化,是所谓的“PINNs失效模式”。相比之下,RoPINN可以在某种程度上缓解这种挑战。具体来说,使用RoPINN,经典的PINN、QRes和FLS在1D-Reaction上都达到了90%以上的改进。此外,RoPINN还能进一步增强PINNsFormer和KAN的性能,这些方法在1D-Reaction或Convection中已经表现良好,进一步验证了RoPINN在帮助PINN优化方面的有效性。

与其他策略的结合

由于RoPINN主要关注目标函数的设计,它可以无缝集成并与其他策略协同工作。如表3所示,我们在1D-Reaction上实验了广泛使用的损失重加权方法NTK和数据采样策略RAR。尽管NTK可以稳定提升性能,但计算神经切线核需要额外的计算开销。基于NTK,RoPINN可以在稍微增加的时间成本下取得更好的结果。对于RAR,其在不同任务中的表现不稳定,而RoPINN也能对其进行增强。结果验证了RoPINN相对于其他方法的正交贡献和良好效率。

表3:基于PINN将RoPINN添加到其他策略中。时间为每100次训练迭代在1D-Reaction上的秒数。

4.2 算法分析

算法1中的初始区域大小
为了直观理解RoPINN,我们在图2中绘制了训练统计曲线,包括随时间调整的区域大小、训练损失和测试性能。从图2(a)可以发现,即使初始区域大小设置为不同的值,RoPINN在训练过程中仍会逐渐将信任区域大小调整为类似的值。这表明我们的算法可以捕捉到训练稳定性和泛化误差之间的潜在“平衡点”,信任区域大小的波动揭示了这一平衡过程。此外,如图2(b-c)所示,如果将初始化为更接近平衡点的值(例如1e-4和1e-5),训练过程将更快收敛。而过大的区域大小(例如1e-3)会因优化噪声而降低收敛速度(见定理3.9)。

式(8)中的采样点数量
为了提高效率,RoPINN在信任区域内仅采样一个点来近似区域梯度下降。然而,值得注意的是,采样更多的点会使式(8)的近似更加准确,从而降低梯度估计误差。此外,由于RoPINN采用自适应策略来调整区域,较低的梯度估计误差也会使优化过程适应更大的区域大小。因此,我们在图3(a-b)中观察到,采样更多的点也会增加最终学习到的区域大小并加速收敛速度。此外,图3(c)显示,增加采样点也可以提高最终性能,这在定理3.12中也得到了理论证明,即泛化误差的上界与梯度估计误差成反比。


效率分析

如上所述,采样更多的点可以提升最终性能,但我们选择仅采样一个点作为RoPINN的默认设置,以便在不增加额外反向传播或梯度计算的情况下提升PINNs的表现,这在原始PINNs上已经取得了显著的提升(表2)。为了更全面地理解算法特性,我们在图4中绘制了效率-性能曲线,可以得出以下观察结果。首先,计算成本在增加采样点时线性增长。其次,更多的采样点将带来更好的性能,但在10个点左右饱和,此时9、13和30个点的性能波动在三倍标准差以内(见附录D.3)。

消融实验

为了验证RoPINN设计的有效性,我们在图5中展示了消融实验。观察到即使我们仅采样一个点,固定大小的区域优化也可以在大多数情况下提升PINNs的表现,展示了引入“区域”对PINN优化的有效性。然而,如定理3.9所示,采样过程可能会引入梯度估计误差,因此相对提升在不同PDE和基础模型中表现不一致。通过我们提出的信任区域校准,可以获得更显著且一致的改进,这表明在优化和泛化之间实现更好的平衡(正式见定理3.12)在PINN模型训练中具有重要作用。

loss landscape

先前研究探讨了PINN在求解对流方程时遇到的问题,发现这并非由模型容量不足引起,而是由于难以优化的损失地形。我们在图6中提供了损失地形的可视化,这是通过沿着训练模型的前两个主Hessian特征向量方向扰动模型得到的。可以发现,使用式(2)的经典PINN损失优化的PINN呈现尖锐的锥形结构。相比之下,在RoPINN的加持下,损失地形显著平滑。这一可视化直观解释了RoPINN为何能够缓解“PINN失效模式”。更多结果见附录D。

5 结论

本文提出并分析了一种新的PINN优化范式:区域优化。超越了以往的散点优化,我们将优化从选定的点扩展到其邻域区域。基于这一思想,RoPINN被实现为一种简单但有效的训练算法,其中使用高效的蒙特卡罗近似过程,并结合信任区域校准策略来控制采样引起的梯度估计误差,从理论上展示了泛化和优化之间更好的平衡。除了理论优势外,RoPINN还能够在不增加额外反向传播或梯度计算的情况下,一致性地提升各种PINN模型的性能,展现了优异的效率、训练稳定性和通用能力。

邪云宝库
用于分享物理科学启发AI的新范式:人工智能的物理科学(PhysicsScience4AI, PS4AI)资料。用于各种debug日志,偏微分方程,物理信息神经网络,算法原理及实现,数据挖掘,机器学习,智能优化算法,多元统计及生活分享。
 最新文章