物理信息神经网络:气体传输问题的案例研究
Physics informed neural networks: A case study for gas transport problems
摘要
物理信息神经网络(PINN)最近被提出,提供了一种解决微分方程的新型有前景的方法。它们已被应用于更多场景,并且提出了该方法的不同变体。在本案例研究中,我们回顾了许多这些变体。我们重点关注能够补偿损失函数不平衡的变体,并对这些变体在气体传输问题中的应用进行了全面的数值比较。我们的案例研究包括损失函数的不同形式、不同的算法损失平衡方法、不同的优化方案以及不同数量的参数和采样点。我们得出的结论是,具有特定常数权重的原始PINN方法在我们的测试中提供了最佳结果。这些权重是通过计算代价高昂的随机搜索方案获得的。进一步的结论是,对于我们的测试案例,针对其他微分方程开发的损失平衡方法对气体传输问题无益,控制体积物理信息的形式与初始形式相比无优势,且最佳优化策略是L-BFGS方法。
关键词: 物理信息神经网络 多标准优化 气体流动 欧拉方程 守恒定律
1. 引言
天然气网络 [4] 将气体从多个来源输送到多个消费者,满足其需求,跨越了极长的距离。天然气网络中有多种控制气体流动的元素,如压缩机、阀门或电阻器。值得注意的是,压缩机本身会消耗气体。找到一种在满足需求的同时实现最有效操作的方式并不是一件简单的事情。这不仅在实际操作中如此,当将这一任务表述为数学优化问题时也是如此。解决该问题需要结合建模、仿真和优化等多学科和技术。其中一个重要元素是网络中气体流动的仿真。目前已经有一些数值方法可以高精度地模拟气体流动 [6,1]。然而,仿真任务仅是优化过程的一部分,通常需要进行许多具有不同控制参数的仿真来解决优化问题。因此,减少仿真成本是高效解决优化问题的关键。
图 1. 比较使用不同权重 训练的两个模型在解决问题 1 时的误差。左侧使用标准权重,右侧增加了权重 。模型使用 L-BFGS 方法训练,初始模型和采样点 均相同。(关于图中颜色的解释,读者可参考本文的网络版本。)
一种被广泛理解的天然气网络仿真方法是采用在空间、时间和最重要的用于描述气体流动的模型方面自适应的方法 [1]。在最后一点上,根据气体流动的动力学,可以使用不同的模型来平衡精度与简化性。单管中的气体流动通常用一维空间的守恒定律系统建模,如下所示:
其中 是状态向量, 是通量函数 [7, 第14章]。完整的欧拉方程是最准确的模型,其中:
其中 表示密度, 表示速度, 表示能量, 表示压力。对于天然气,通常假设 。然而,在某些条件下,尤其是在考虑管道系统时,可以假设气体具有恒熵性。这时可以应用等熵欧拉方程:
其中 取决于初始熵。进一步推动这一思路,可以推导出一系列气体模型。尽可能使用简化模型可以显著减少仿真时间。然而,仍需要进一步改进以应对真实的大规模天然气网络和更复杂的场景,如优化问题。
另一种加快仿真速度的可能性是使数值方案更贴近具体的气体仿真任务,并利用仿真仅在气体网络控制上有所不同的事实。该程序的结果称为降维方法,其中一个显著的例子是降维基方法。不幸的是,降维基方法不适用于气体流动的传输特性。总体而言,构建适用于气体流动任务的降维方法非常具有挑战性,因为其所需的基础结构尚不清楚。关于最新进展,请参考 [3]。在此,我们希望探索一种新的途径来构建适用于气体流动任务的降维方法。我们将应用物理信息神经网络(PINN)来近似气体流动模型。PINN 在这一背景下的应用具有以下几个关键优势:
如上所述,找到合适的降维方法来近似传输问题的解是具有挑战性且未解决的问题。由于神经网络可以任意逼近连续函数,可以期望优化过程能够找到足够准确的表达来几乎实时地创建气体流动调度。 通过应用机器学习技术,[13] 中提出了一种物理信息方法,该方法在逼近微分方程解方面取得了成功。与降维基方法不同,物理信息方法直接结合了微分方程本身,而不需要预先计算的特定解来获得降维模型。 神经网络可以很容易地扩展,实现作为输入的额外控制向量,例如 [8]。
本文中,我们重点模拟了使用 PINN 的具体应用:管道中的气体流动 PDE 模型。我们的工作为这些模型的高效仿真技术的设计作出贡献,这对于复杂天然气网络的仿真是至关重要的构建块。尽管本文中提出的许多思想和技术可以推广到其他 PDE 系统及其应用,但对这种普适性的研究超出了本文的范围。
PINN 是一个相当新且活跃的研究领域,文献中提出了许多对原始方法的扩展。针对气体流动任务的最佳标准 PINN 程序尚未确定。我们的探索重点是研究这些扩展在管道气体流动方面的表现,并了解可以期待的精度结果。由于缺乏对扩展的比较,目前尚不清楚其效果。
本研究的目标是通过对许多这些扩展进行全面的数值比较来填补这一知识空白。这包括在神经网络参数空间上最小化以获得近似解的两种损失函数的表述。一种表述基于守恒定律的微分形式 (1),另一种基于积分形式。两种表述在初始和边界数据的处理方式上有所不同。对于微分形式,这导致了多目标优化问题。在我们的案例研究中,我们包含了在训练过程中添加确定权重以平衡目标的最近提出的扩展,并将原始物理信息表述和用于确定权重的随机搜索程序作为基线。
我们评估了这些方法在两个不同模型复杂度及其初始和边界条件的气体流动基准问题中的表现,重点是其取得的精度。
损失函数表述、损失函数中的权重和平衡损失方法构成了训练神经网络所需的众多超参数的子集。此外,我们还在案例研究中包含了更多超参数:不同的最小化策略、网络层数、每层的神经元数量和损失函数中的采样点数量。虽然这并不详尽,但它为我们的应用提供了关于相关超参数的重要见解。
本文结构如下:在下一节中,我们定义两个测试问题作为基准。在第3节中,我们描述了如何通过引入两种损失函数表述使用物理信息神经网络来近似气体流动。在第4节中,我们展示了损失平衡扩展。在第5节中,我们给出详细信息并比较这些不同方法在两个基准问题上的应用结果。最后,在第6节中,我们陈述结论。
3. 用神经网络近似气体流动
3.1. 神经网络
为了近似气体流动,我们设计了一个(深度)神经网络:
其中, 是激活函数, 且 是仿射变换。神经网络由其 层的权重 和偏置 参数化。定义 为所有可训练参数的集合。
神经网络的参数数量由隐藏层的神经元数 和层数 决定。假设所有隐藏层有相同数量的神经元 ,则 。 的大小根据输入和输出的维度进行选择。
理想情况下,神经网络 直接预测状态向量 或 。然而,神经网络可能不会保持密度的正值,这需要注意以避免非物理的近似。
对于问题 1,如果神经网络预测 ,在计算 时可能出现除以零的情况。这不仅是理论问题,还会在实现中出现。对于完整的欧拉方程,可以如下处理:神经网络预测 和 的近似值。基于这些量并使用状态方程,可以通过定义明确的计算得到所有剩余量。更正式地,定义神经网络的输出为:
基于神经网络的输出,可以定义状态向量 和修改后的通量函数 的近似:
这种方法的关键在于,即使神经网络对密度的近似为零或负值,使用神经网络输出 (8) 也能可靠地评估完整欧拉方程的状态向量和通量(不会出现除以零)。
对于问题 2,同样,在使用状态向量 作为神经网络输出时,计算 时可能会出现除以零的情况。此外,状态方程要求正密度。因此,不能像问题 1 那样处理。此处,通过以下神经网络输出来保证密度的正值近似:
并通过 得到正密度近似。接下来可导出状态向量 和修改后的通量函数:
最终,通过非线性优化过程确定参数 使 和 尽可能接近气体流动的真实情况。即,我们考虑 ,其中损失函数 表达了对守恒定律 (1) 及初始和边界条件的符合程度。非线性优化方法需要起始点。我们使用基于随机性的 Glorot 初始化 [2] 来计算 的起始点。
在接下来的子节中,我们将引入两种不同的损失函数 的实现。这两种推导对于两个问题是相同的。因此,我们将省略下标“e”和“ise”,使用 和 ,以覆盖两种情况。
3.2. 物理信息神经网络
如前所述,我们将近似微分方程解的神经网络搜索表述为一个优化问题。这里,我们解释 [13] 中提出的物理信息方法。该方法基于守恒定律 (1) 的微分形式。关键构件是平方残差 、、 和 ,分别在某些点 上执行微分方程、初始条件、左边界条件和右边界条件。
守恒定律 (1) 在 处相对于网络参数 的残差定义为:
注意,导数通过自动微分计算。其余残差的定义方式类似,取决于所考虑的问题。例如,问题 2 的初始条件残差为:
残差用作近似解和精确解之间距离的指示器。因此,所有残差应在其定义域内最小化。因此,我们考虑积分残差(平方 范数):
其中 ,,。积分按各自定义域的体积进行归一化。
我们的解应最小化所有积分,形成多目标优化问题:
此问题尚无法数值求解。首先,我们需要将多目标问题转换为单目标问题。为此,我们将目标求和。其次,我们需要对积分进行离散化。这里,我们使用蒙特卡洛积分方法,在 的情况下得到近似:
其中 为有限随机选取的点集。从另一个角度看, 计算平方残差的平均值。同样地,我们为随机选取的有限点集 、 和 定义 、 和 的近似。在我们的实现中,随机选取的点集由拉丁超立方体抽样方案确定。
文献 [13] 提到使用蒙特卡洛方法有两个优点。首先,计算复杂性不随定义域的维度扩展。然而,这一优点以极慢的收敛速度为代价。其次,随机点的选择应防止优化器在规则网格上学习解,从而防止在网格之外泛化。这种思路来自其他机器学习任务的观察。
将积分替换为近似值,得到优化问题:
我们用下标“dif”表示关于守恒定律微分形式的损失函数。此优化问题最初在文献 [13] 中提出。从那时起,文献中提出了许多扩展。大多数扩展都涉及将多目标优化问题转换为单目标优化问题。通过构建 、、 和 目标的总和,我们使用了在推导中确定的常数权重,从而忽略了目标的相应体积。在更广泛的设置中,可以考虑目标的加权和。此时,权重成为额外的自由度,并影响优化过程。我们将在第 4 节详细讨论这一点。不过在此之前,我们将推导一种规避此问题的替代表述。
3.3. 控制体积物理信息神经网络
虽然上一小节的推导基于守恒定律 (1) 的微分形式,但我们可以基于守恒定律的积分形式推导另一个目标函数。这种方法最早由文献 [12] 提出,具有初始和边界条件自然包含在内的优势。因此,多目标优化问题的问题得以缓解。
起点是时空通量函数:
然后,通过散度定理并对足够光滑的 而言,当且仅当 满足微分形式的守恒定律 (1) 时, 才满足积分形式的守恒定律:
对于所有具有分段光滑边界 的 ,其中 表示 上的外向法向量。
其思想是在有限数量的控制体积 上验证 (20) 中的积分为零。为此,我们选择了 的有限分区 。同样,为了避免未定义的计算,我们需要定义直接作用于神经网络输出 的时空通量:
与原始 PINN 方法相比,初始和边界值自然地引入。我们通过这些值扩展神经网络输出,并将结果函数记为 。例如,对于问题 1,我们定义:
对于剩余量 、 以及问题 2,我们可以以相同方式进行。现在,我们可以表述优化问题:
此处,下标“int”表示与守恒定律积分形式相关的损失函数。如前所述,损失函数中的积分需要离散化。与物理信息方法不同,文献 [12] 建议使用确定性积分方案。这很有益,因为我们降低了积分域的维度,从而降低了复杂性。此外,该方法在损失函数中没有导数。因此, 的计算不需要自动微分,因此在相似数量的控制点情况下比 的计算更高效。此外,网格 是该方法的另一个自由度。
在第 5 节的数值测试中,我们将比较两种不同的求积策略:具有三个点的确定性高斯-勒让德求积和具有五个点的随机蒙特卡洛求积。我们还将考虑矩形和三角形网格。
总之,物理信息方法和控制体积物理信息方法是解决同一问题的两种不同方法。在第 5 节中,我们将比较这两种方法。我们还将考虑不同的优化方案——这是本节尚未讨论的话题。在此之前,第 4 节中我们将更深入地探讨物理信息方法中不同权重的问题。
4. 损失权重的算法平衡
从优化的角度来看,物理信息优化问题 (16) 是一个多目标优化问题。也就是说,我们试图同时最小化多个竞争目标 。将这些竞争目标相加是将其转换为单目标优化问题的一种方法。更一般地,可以构建竞争目标的加权和。为此,我们为每个竞争目标引入权重 ,并考虑优化问题:
下标“w-dif”表示具有额外权重的微分形式守恒定律的损失函数。权重决定了各项的相对重要性,可以在不同目标之间进行权衡。每组权重 对应的不同最优损失值定义了一个从 到 的流形——称为帕累托前沿。在这个前沿上,不仅有一个最优解,而是有一组关于不同权衡的最优解。文献 [14] 在具体例子中分析了物理信息神经网络的帕累托前沿。
从帕累托前沿中选择误差最低的解是具有挑战性的。这可以归因于权重影响残差的最小化,但最终我们希望实现最低的误差。权重对误差的影响取决于残差和误差之间的关系,目前对此理解有限。
除了理论挑战外,选择不同的权重在实践中也有优势。对于我们的测试问题,可以通过合理猜测来确定哪些目标比其他目标更重要。例如,对于问题 1,近似不连续的初始数据非常重要,因为底层的双曲方程沿特征曲线传递信息,这些曲线的方向取决于初始数据。因此,需要确保特征的起源(即信息源)被很好地近似。图 1 展示了这一效果。在此,我们使用 L-BFGS 方法以相同的初始模型和相同的采样点进行训练,但使用不同的权重 。我们观察到,增加 的权重会减少 和 的误差。
这个小例子表明,选择权重对测试问题很重要。然而,猜测权重并非普遍适用。改变初始或边界条件可能会改变特征的方向。
文献中也描述了权重的积极影响,并提出了多种算法来确定有益的权重。在以下小节中,我们将回顾这些方法。此外,我们将在第 5 节中进行数值测试,以找到使用神经网络近似我们两个测试问题的最可靠方法。
4.1. 基于梯度的方法
基于梯度的权重确定方法在文献 [16] 中提出,文献 [5] 研究了其修改版本。在文献 [5] 中,作者专注于不可压缩的 Navier–Stokes 方程,而在文献 [16] 中,作者研究了更广泛的方程,包括 Helmholtz 方程、Klein-Gordon 方程以及不可压缩的 Navier–Stokes 方程。文献 [16] 中的作者考虑了每个目标 相对于参数 的梯度,并分析了梯度条目的分布。
Glorot 初始化方案 [2] 确保这些分布的初始均值接近于零,且在优化过程中可以观察到保持接近于零 [2,16]。另一方面,这些分布的方差取决于具体的目标,并且在优化过程中可能有很大差异。这引发了以下考虑。
如果分布的方差接近于零,则梯度元素对参数 的影响不敏感,目标在优化步骤中影响较小。相反,如果方差较大,则有更多的导数对参数 非常敏感,目标在优化步骤中影响较大。因此,使用权重 来缩放分布,使得每个目标在优化过程中被同等对待。这可以防止在优化过程中某一目标被优先考虑。文献 [16] 中认为,这种不平衡的分布是损失函数不平衡的标志。这一解释与神经网络的初始化方案的工作方式密切相关。
在最终方法中,权重在整个优化过程中不断更新,以适应不断变化的分布。梯度 的分布作为参考分布,其他分布被缩放以相似。因此, 保持不变。对于剩余权重,文献 [5] 中的作者将 视为每个目标 的定义特性,并定义中间权重:
这些值在优化过程中变化较快,因此需要进行平滑处理。通过旧权重和中间权重 之间的凸组合进行平滑,:
此更新可以在优化过程中的每次迭代中进行,也可以在较低频率下进行。
绝对值的均值 是均值为零的分布的平均绝对偏差,与分布的方差密切相关。在文献 [16] 中,作者提出了一种不同的策略来定义中间权重,偏离了这种观点,即考虑 的最大绝对值并定义:
为了方便参考,我们将 (25) 中的定义称为平均-平均权重,将 (27) 中的定义称为最大-平均权重。通常,权重 初始值设为 1。在文献 [16] 中 ,而在文献 [5] 中 。在我们的数值示例中,我们将测试这两种值,从而得到四种策略。
4. 损失权重的算法平衡
从优化的角度来看,物理信息优化问题 (16) 是一个多目标优化问题。也就是说,我们试图同时最小化多个竞争目标 。将这些竞争目标相加是将其转换为单目标优化问题的一种方法。更一般地,可以构建竞争目标的加权和。为此,我们为每个竞争目标引入权重 ,并考虑优化问题:
下标“w-dif”表示具有额外权重的微分形式守恒定律的损失函数。权重决定了各项的相对重要性,可以在不同目标之间进行权衡。每组权重 对应的不同最优损失值定义了一个从 到 的流形——称为帕累托前沿。在这个前沿上,不仅有一个最优解,而是有一组关于不同权衡的最优解。文献 [14] 在具体例子中分析了物理信息神经网络的帕累托前沿。
从帕累托前沿中选择误差最低的解是具有挑战性的。这可以归因于权重影响残差的最小化,但最终我们希望实现最低的误差。权重对误差的影响取决于残差和误差之间的关系,目前对此理解有限。
除了理论挑战外,选择不同的权重在实践中也有优势。对于我们的测试问题,可以通过合理猜测来确定哪些目标比其他目标更重要。例如,对于问题 1,近似不连续的初始数据非常重要,因为底层的双曲方程沿特征曲线传递信息,这些曲线的方向取决于初始数据。因此,需要确保特征的起源(即信息源)被很好地近似。图 1 展示了这一效果。在此,我们使用 L-BFGS 方法以相同的初始模型和相同的采样点进行训练,但使用不同的权重 。我们观察到,增加 的权重会减少 和 的误差。
这个小例子表明,选择权重对测试问题很重要。然而,猜测权重并非普遍适用。改变初始或边界条件可能会改变特征的方向。
文献中也描述了权重的积极影响,并提出了多种算法来确定有益的权重。在以下小节中,我们将回顾这些方法。此外,我们将在第 5 节中进行数值测试,以找到使用神经网络近似我们两个测试问题的最可靠方法。
4.1. 基于梯度的方法
基于梯度的权重确定方法在文献 [16] 中提出,文献 [5] 研究了其修改版本。在文献 [5] 中,作者专注于不可压缩的 Navier–Stokes 方程,而在文献 [16] 中,作者研究了更广泛的方程,包括 Helmholtz 方程、Klein-Gordon 方程以及不可压缩的 Navier–Stokes 方程。文献 [16] 中的作者考虑了每个目标 相对于参数 的梯度,并分析了梯度条目的分布。
Glorot 初始化方案 [2] 确保这些分布的初始均值接近于零,且在优化过程中可以观察到保持接近于零 [2,16]。另一方面,这些分布的方差取决于具体的目标,并且在优化过程中可能有很大差异。这引发了以下考虑。
如果分布的方差接近于零,则梯度元素对参数 的影响不敏感,目标在优化步骤中影响较小。相反,如果方差较大,则有更多的导数对参数 非常敏感,目标在优化步骤中影响较大。因此,使用权重 来缩放分布,使得每个目标在优化过程中被同等对待。这可以防止在优化过程中某一目标被优先考虑。文献 [16] 中认为,这种不平衡的分布是损失函数不平衡的标志。这一解释与神经网络的初始化方案的工作方式密切相关。
在最终方法中,权重在整个优化过程中不断更新,以适应不断变化的分布。梯度 的分布作为参考分布,其他分布被缩放以相似。因此, 保持不变。对于剩余权重,文献 [5] 中的作者将 视为每个目标 的定义特性,并定义中间权重:
这些值在优化过程中变化较快,因此需要进行平滑处理。通过旧权重和中间权重 之间的凸组合进行平滑,:
此更新可以在优化过程中的每次迭代中进行,也可以在较低频率下进行。
绝对值的均值 是均值为零的分布的平均绝对偏差,与分布的方差密切相关。在文献 [16] 中,作者提出了一种不同的策略来定义中间权重,偏离了这种观点,即考虑 的最大绝对值并定义:
为了方便参考,我们将 (25) 中的定义称为平均-平均权重,将 (27) 中的定义称为最大-平均权重。通常,权重 初始值设为 1。在文献 [16] 中 ,而在文献 [5] 中 。在我们的数值示例中,我们将测试这两种值,从而得到四种策略。
4.2. 基于幅度的方法
文献 [15] 中引入了一种基于幅度的方法,专为线性椭圆型偏微分方程开发。作者关注于底层微分方程的固有尺度问题,并提出了一种称为幅度归一化的方法。作者总结其策略为:“每个损失函数都通过构成它的项的幅度进行归一化”。该方法最初为线性边值问题开发。然而,我们希望将其适配于我们的非线性初始边值问题。主要组成部分是幅度 、、 和 ,其定义类似于 、、 和 。目标是保持目标与幅度的比值(例如 )大致相同。例如,对于等熵欧拉方程,我们定义:
对于问题 1的左边界条件:
其他幅度可以以类似方式推导。然后,我们可以将幅度在其定义域上积分,得到 、、 和 ,类似于 (14)。接下来,我们使用与 (17) 相同的蒙特卡洛求积规则离散化这些积分,得到 、、 和 。这里,我们使用与之前相同的采样点。
最终,我们定义权重为幅度的倒数:
幅度依赖于神经网络参数 ,因此权重 在整个优化过程中会发生变化。与基于梯度的方法不同,作者不建议对权重进行平滑处理。在我们的实现中,我们将以特定频率更新权重。这与 [15] 提出的方案略有不一致。在该方案中,权重仅在某些事件发生时更新。
4.3. 基于注意力的方法
我们考虑的下一种方法是 [10] 中引入并在 Allen-Cahn 方程上测试的基于注意力的机制。与前述方法不同,这种方法将权重集成到优化过程中,而不是基于解来确定权重。在原始方法中,作者建议对 、、、 中的每个采样点加权,从而改变其重要性。然而,这显著增加了计算复杂性。为了便于比较,我们将此方法适配于问题 (24)。
我们考虑 ,即问题 (24) 的目标函数,其中 。此时,权重 应惩罚具有最高值的目标。通过在最大化 (关于 )的同时最小化 (关于 ),达到这一目的。因此,我们考虑鞍点问题:
该问题的解可以通过梯度下降法近似,其更新规则为:
初始时,权重初始化为 。
4.4. 随机搜索
为了对之前的方法进行对比,我们还进行了一项额外的随机搜索。即,随机绘制固定数量的权重元组 并对每个权重元组运行训练过程。对于两个测试问题,我们使用拉丁超立方体抽样策略从立方体 中随机抽取 20 个权重元组。训练过程结束后,我们选择具有最小损失值 的权重和参数,并将其结果称为 rnd-search-min。为比较起见,我们将具有最高损失值 的结果称为 rnd-search-max。
5. 数值测试
在本节中,我们将比较不同的方法。特别是在第 5.1 小节中,我们考虑物理信息方法和不同的权重方法。此外,我们在第 5.2 小节中研究控制体积物理信息方法。在最后的小节中,我们报告不同大小的神经网络(以参数数量衡量)和不同数量的采样点的结果。
我们主要的比较指标是不同方法的相对 误差。误差是针对神经网络的输出与参考解来测量的。对于问题 1,我们考虑 、 和 的误差,对于问题 2,我们考虑 和 的误差。例如, 的误差定义为:
其中 是有限点集。其余误差的定义方式相同。对于问题 1, 包含 50,000 个随机点,对于问题 2, 包含数值计算的参考解的网格点。
在前两个小节中,我们使用一个具有 层和 个神经元的神经网络。此外,我们使用固定数量的采样点:
这些选择通过第 5.3 小节中的数值结果得到验证,并将在该小节中进一步探讨。还请注意,问题 1 的初始数据和问题 2 的右边界数据是具有挑战性的重点。
如上所述,神经网络的初始参数和采样点是随机选择的。因此,相同测试的不同运行将产生不同的结果。我们在实验中考虑了这一点,每次测试运行五次。然后,我们报告相对 误差的平均值和标准偏差。关键是,对于相同的运行,我们在所有测试中使用相同的(随机选择的)初始神经网络和相同的(随机选择的)采样点。这消除了不同测试之间的随机性影响,确保了公平的比较。
5.1. 不同权重方法的比较
在本小节中,我们想要比较不同的权重方法,即在第 4 节中回顾的算法来确定问题 (24) 中的权重 和 。对于基于梯度和基于幅度的方法,权重将在每第 10 次迭代更新。我们将使用标准 Adam 方法优化神经网络的参数(或在注意力方法的情况下,参数和权重 )。此外,我们使用初始学习率(步长)0.01,并为了确保收敛,每 1000 步按 0.9 的因子进行指数衰减。我们运行方法 30,000 步。
表 1 显示了问题 1 的结果,表 2 显示了问题 2 的结果。
随机搜索最小化(rnd-search-min)方法的结果显示,在损失函数中使用特定权重具有明显优势。对于问题 2,这严格成立。对于问题 1,使用 rnd-search-min 权重代替基线权重可显著降低 和 的误差。然而,对于 的误差,这种情况并不存在。
在动态加权方法中,注意力方法在两个问题中都取得了最佳结果。但是,这些结果与 rnd-search-min 的结果之间存在明显差距。在问题 2 中,基于梯度和基于幅度的方法产生了更差的结果。在问题 1 中,这些方法表现更好,但不如基线权重。这里值得注意的是, 的平均-平均(avg-avg)方法的良好结果。总的来说,动态加权方法无法达到 rnd-search-min 方法的效果。
图 2 显示了第一次运行中不同方法的选定权重。由于损失函数可以任意缩放,不同方法的权重无法直接比较。然而,基于梯度的方法确定的权重应该引起重视,因为它们比其他方法确定的权重大了若干数量级。此处,只有问题 1 的平均-平均权重处于合理范围,因此可能解释了良好的结果。此外,对于问题 1 的注意力方法,初始数据的权重最大;对于问题 2,右边界数据的权重最大。因此,该方法体现了问题 1 初始数据和问题 2 右边界数据的重要性。然而,这并未导致比使用基线权重更好的结果。最后,基于幅度方法的权重在优化过程中几乎保持不变。然而,这种固定选择并不具有优势。
5.1.1. L-BFGS 优化
除了 Adam 方法,L-BFGS 方法在优化物理信息神经网络中也非常流行 [13, 9, 15, 10]。在本小节中,我们将更详细地探讨 L-BFGS 方法的优势。
首先,我们仅使用 L-BFGS 方法来优化神经网络。其次,我们采用 Adam 和 L-BFGS 方法的混合优化方案。这种组合在文献中常被提出,我们也对此进行了测试。具体步骤如下:我们首先使用 Adam 方法优化神经网络(再次)进行 30,000 步,并根据所使用的权重方法改变权重 。接下来,我们仅使用 L-BFGS 方法优化参数 。在 L-BFGS 方法过程中,权重 保持不变,维持最后分配的值。重要的是,我们不对 Adam 方法进行学习率衰减,因为这会抑制后续的 L-BFGS 优化,几乎不会改善结果。L-BFGS 方法没有固定步长,并在方法收敛时停止。对于停止准则,我们要求梯度容差为 。
问题 1 和 问题 2 的结果分别在表 3 和表 4 中给出。
对于第二个测试问题,最佳结果是通过 rnd-search-min 方法获得的。我们可以得出结论,不同的权重可以降低整体误差。在这个问题中,我们没有观察到先使用 Adam 过程的优势。在我们的测试设置中,尽管 L-BFGS 迭代次数更多,但 L-BFGS 方法通常所需时间比混合方法少。混合优化方案改善了动态加权方法的误差,相较于仅使用 Adam 例程。然而,所有方法都未能超越 rnd-search-min 方案确定的最佳权重。
这些发现对第一个测试问题也适用,尽管有一些限制。再次强调,最低误差是通过 rnd-search-min 方法获得的。然而,压力 的最低近似误差是在先运行 Adam 方法后得到的。但此时,密度 和速度 的误差较大。在不同量之间似乎存在权衡,基于梯度的 avg-avg 方法()很好地处理了这一挑战。
总之,对于我们的测试问题,仅使用 L-BFGS 方法配合一些固定权重似乎是合理的选择。此方法使用简单,并且能够非常快速地产生非常好且可靠的结果。找到这些固定权重的成本较高。随机搜索的计算成本最大,但如果需要最佳结果,这种努力是值得的,并且可以通过样本数量进行控制。相较而言,使用基于梯度的 avg-avg 方法可能会有优势,但这会增加先运行 Adam 方法的计算成本,而这仅对两个测试问题中的一个有效。
另请参见图 3,它显示了随机搜索方法找到的最佳和最差权重。该图突显了每次运行中随机过程所做的不同选择,强调了基础搜索问题的复杂性,以及算法平衡方法必须克服的挑战。
6. 结论
在本文中,我们对气体传输问题的物理信息神经网络进行了全面的案例研究。我们提供了不同方法的客观比较,以获取能够近似气体流动的神经网络,针对两个测试问题。我们的目标是提供有关如何有效获得这些神经网络的知识,以及在特定用例中可以期待的结果。我们希望利用这些知识开发减少计算量的低阶方法,即 PINNs,以避免冗余计算,适用于相似的模拟,并能够保持高精度。这一点至关重要,因为这些模型及其近似解是气体网络模拟的基础,进而影响气体网络优化和最优控制。因此,对于管道气体流动的高效近似方法具有重要意义,以推动在更复杂气体网络环境中的技术进步。
原始物理信息方法的一个主要困难是需要解决多目标训练问题以获得近似解。各个目标来自于分别强制执行的微分方程、初始和边界数据。训练问题的单一目标损失函数通过形成个别项的加权和得到。这使得选择这些权重成为一项挑战,以确保损失函数中的各个项得到适当平衡。解决这一问题是我们案例研究的核心之一。我们的测试显示,在物理信息损失函数中选择适当的权重对于获得最低误差的神经网络非常重要。我们最佳的权重是通过随机搜索方案确定的,该方案随机选择权重列表,为每个选择的权重训练一个神经网络,然后选择训练误差最低的网络。然而,这一过程计算开销非常大,并且由于权重依赖于问题,当问题发生变化时必须重复进行。
文献中提出了一些动态确定这些权重的策略(损失平衡方法)。这些策略已经在不同的微分方程中成功应用,且相较于原始方法,通常具有较小的计算开销。我们测试了几种这些策略,但在我们的测试问题中,没有一个方案的结果优于随机搜索方案和原始物理信息方法的解决方案。这一结果得出一个重要结论:这些方法并不适用于一般类的微分方程,气体传输问题可能面临特有的挑战,这些挑战未被这些方法识别。我们建议未来的损失平衡方法研究应包括与随机搜索方案的比较。
图 4. 问题 1(左)和问题 2(右)的规模测试结果。
此外,我们还测试了控制体积物理信息方法——基于守恒法则的积分形式。这种方法相较于原始物理信息方法及其损失平衡扩展具有一些理论优势。通过考虑积分形式,可以降低积分维度,避免在损失函数中进行自动微分以及确定权重的相关问题。然而,这些优势伴随着更高的实现开销。然而,在我们的测试案例中,该方法的表现不如基于微分形式的原始物理信息方法。此外,在这些测试中,确定性的积分规则表现优于随机蒙特卡洛积分法。
我们还考虑了三种不同的训练程序,包括 Adam 方法、L-BFGS 方法及其混合方式。我们的测试表明,单独使用 L-BFGS 方法在迭代次数最少的情况下产生了最佳结果。然而,在结合算法加权方法的情况下,我们观察到一些案例受益于混合方案。
综合考虑我们案例研究的所有结论,我们推荐原始物理信息方法并通过 L-BFGS 方法训练,以获得最佳的管道气体流动问题的近似。如果计算预算允许,我们强烈建议执行随机程序以确定最佳的损失平衡权重。
物理信息神经网络的一大优势是其灵活性,能够轻松适应不同的使用案例或在实现中更换构建块,例如优化方法或积分规则。因此,像这样的案例研究对于探索最具前景的路径至关重要。我们的测试表明,为了获得高精度近似,我们需要在训练阶段以非常高的精度解决优化问题,并且更精确的积分规则提供了更好的结果。然而,在传统的机器学习任务中,通常避免以高精度解决训练问题,以避免过拟合。因此,我们的观察显示了针对 PINNs 的新研究方向,这些方向与传统的机器学习方法有所不同。
我们看到针对 PINNs 的两个进一步研究方向,这些方向可以在我们气体传输管道的特定应用中取得进展,也适用于更一般的问题设置。首先,超波守恒律是否存在特定性质限制了所考虑的损失平衡方法的适用性,如果是的话,如何克服这些障碍?其次,我们能否识别哪些 PINN 扩展特别适用于哪些 PDE 问题,并理解其原因?这两个方向旨在加深对底层物理(以 PDE 编码)的理解,以及其在神经网络中的表示。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!