AI顶会ICML2024||参数化物理信息神经网络求解参数化PDEs:打破局限,实现快速内插泛化以及快速外推泛化,缓解优化病态!

文摘   2024-11-13 12:30   北京  


摘要


复杂的物理系统通常由依赖于参数的偏微分方程 (PDEs) 描述,例如流体力学中的雷诺数。在设计优化或不确定性量化等应用中,需要在参数空间的多个点评估这些 PDEs 的解。尽管物理信息神经网络 (PINNs) 已经作为一种新的强大竞争者出现,成为一种替代工具,但由于需要重复和耗时的训练,其在这一场景中的使用仍然不足。为了解决这一问题,我们提出了一种新的扩展方法,即参数化物理信息神经网络 (P^2INNs)。P^2INNs 通过显式编码 PDE 参数的潜在表示,能够对参数化 PDEs 的解进行建模。通过广泛的实验评估,我们证明了 P^2INNs 在基准 1D 和 2D 参数化 PDEs 上在准确性和参数效率方面都优于基准方法,并且在克服已知“失效模式”方面也表现出色


引言

科学机器学习 (SML) 的快速发展 (Baker et al., 2019) 正在如火如荼地进行。与传统任务中的机器学习不同,例如图像分类和目标检测,SML 需要精确满足重要的物理特性。最近的工作开发了多种深度学习方法,这些方法能够编码此类物理特性,如物理一致性(例如,通过强制执行守恒定律 (Raissi et al., 2019; Lee & Carlberg, 2021))或保持结构 (Greydanus et al., 2019; Toth et al., 2019; Lut et al., 2018; Cranmer et al., 2020b; Lee et al., 2021) 和对称性(例如,建模不变性或等变性 (Battaglia et al., 2018; Satorras et al., 2021))。在这些方法中,物理信息神经网络 (PINNs) (Raissi et al., 2019) 因其通过遵循物理定律学习解的稳健计算形式,正在研究界中获得越来越多的关注。PINNs 也易于通过使用自动微分 (Baydin et al., 2018) 和基于梯度的训练算法实现,这些算法可以在任何深度学习框架中轻松实现,如 PyTorch (Paszke et al., 2019) 或 TensorFlow (Abadi et al., 2016)。

PINNs 使用神经网络  对偏微分方程 (PDEs) 的解  进行参数化,神经网络  以空间和时间坐标  作为输入,并将  作为模型参数。在训练期间,神经网络在一组选定的点上最小化 PDE 残差损失 (参见 Eq. (12)),代表控制方程,同时还最小化一个数据匹配损失 (参见 Eqs. (11) 和 (13)),该损失在初始条件和边界条件上施加,另一组选定点则从初始/边界条件中采样。这种计算形式使得能够将物理定律,即由控制方程  描述的物理定律,融入解模型,因此被称为“物理信息”。PINNs 已被证明在解决许多不同的 PDEs 方面有效,例如 Navier-Stokes 方程 (Shukla et al., 2021; Jagtap & Karniadakis, 2020; Jagtap et al., 2020)。然而,尽管如此,PINNs 仍然存在一些明显的弱点:

  • W1) PDE 操作符通常是高度非线性的(使得训练极其困难);

  • W2) 当需要对新 PDE 参数求解时(即使是参数化 PDEs 中的新 PDE),需要从头开始进行重复训练。

为了应对这些问题,已有多种方法被提出:(为了解决 W1)提出了课程学习类型的训练算法,这些算法从简单 PDEs 训练 PINNs 到困难 PDEs (Krishnapriyan et al., 2021);(为了解决 W2)元学习 PINNs (Liu et al., 2022) 或直接学习参数化 PDEs 的解,如 ,其中  是 PDE 参数的集合,例如 $\mu = [\beta, \nu

为了同时解决 W1 和 W2 中的两个问题,我们提出了一种用于求解参数化 PDEs 的 PINNs 变体,称为参数化物理信息神经网络(P^2INNs)。P^2INNs 近似解为形式为  的神经网络(用于解决 W2),并且能够准确地推断近似解(参见 Table 1 和 Figure 1),即使是更难的 PDEs(用于解决 W1)。我们提出的一个新修改是显式提取 PDE 参数的隐藏表示,通过使用单独的编码器网络 ,并使用这个隐藏表示来参数化解网络 。而不是简单地将  视为参数域中的坐标,我们从 PDE 参数  中推断有用信息,构造 PDE 解隐藏表示的流形。

为了证明所提模型的有效性,我们使用知名基准 (Krishnapriyan et al., 2021) 的参数化 CDR 方程展示了所提模型的性能。如 (Krishnapriyan et al., 2021) 中所研究的那样,某些 PDE 参数的特定选择(例如,高对流或反应项)使得训练 PINNs 变得非常具有挑战性(即,困难 PDEs),我们的目标是展示所提方法能够以合理精度为这些困难 PDEs 产生近似解。

总结来说,我们的贡献如下:

  • 我们设计了一种用于求解参数化 PDEs 的新的神经网络架构 P^2INNs,它显著提高了 PINNs 在克服已知弱点(W1 和 W2)方面的性能
  • 我们通过实验演示了显式地将 PDE 参数编码到隐藏表示中在提高性能方面的重要性。
  • 我们展示了 P^2INNs 能够将所有实验基准 PDEs 的解通过一次训练运行学得,并且在预测精度方面显著优于现有的基于 PINN 的方法。


2. 背景与动机

我们首先通过提供参数化 PDEs 及其解的说明性示例,来激励一个新的高效变体 PINNs 的开发,该变体适用于多次查询和实时场景。有关 PDEs 的详细信息可在附录中找到。

2.1 对流-扩散-反应方程

作为示例,我们考虑参数化 CDR 方程:

该方程描述了状态变量  随着存在对流项(第二项)、扩散项(第三项)和反应项(第四项)而如何变化的方式。这里, 是关于传输方程的对流项的系数, 是扩散项的扩散系数, 是扩散相位的扩散度量, 是传播速度的扩展参数。请注意,我们使用了著名的 Fisher 方程 ,该方程也用于 (Krishnapriyan et al., 2021) 中作为我们的反应项。

我们注意到,我们选择这类 PDEs 有两个优势:(1)解特征与基于 PDE 参数的显著变化相关;(2)一些 PDE 参数值为 PINNs 引入了挑战性情境(例如,作为“失效模式”)。此外,分析解是已知的。然而,我们还指出,所提出的方法不仅限于此类 PDEs,也适用于一般 PDE 类(参见 4.3 部分中的 2D 情况)。

2.2 动机

我们的目标是设计一个解决参数化 PDEs 的模型,该模型能够克服 PINNs 在克服 W1 和 W2 时的计算形式。为此,我们首先尝试通过从解快照的可视化检查获得直觉,并显示在  坐标空间上(见图 2 和 3)。

第一组示例显示在图 2 中:对流方程的真实解(顶部)和不同参数  和  下的反应方程(底部)。当我们改变 PDE 参数,例如增加  时,我们逐渐获得变化的解(即,解变得更具振荡性,如从图 2(a) 到图 2(c) 所示)。这表明对于不同 PDE 参数的 PINNs 的模型参数可以具有相似的值,可以在训练 PINNs 时加以利用

这种观察结果确实已在 (Krishnapriyan et al., 2021) 中进行探讨,用于解决 PINNs 求解困难 PDEs 的问题。随着对流项( 较大)的增加,PDE 变得更难以通过 PINNs 求解,直到达到谱偏差 (Rahaman et al., 2019) 的问题(即解具有高度的时间振荡)。因此,(Krishnapriyan et al., 2021) 提出了一种课程学习算法,该算法从较容易的 PDE 开始喂入,并逐渐增加 ,直到达到目标值。这种方法在训练中丢弃了所有中间模型参数。相反,在我们的方法中,我们利用训练过程中获得的所有 PDE 信息来训练一个单一模型,用于参数化 PDEs 的解。

第二组示例(图 3)中,不同类型 PDEs 的解与上述类似观察一致——即使是不同类别的 PDEs(例如,对流、扩散以及对流-扩散方程),解也会逐渐变化,这可以在训练 PINNs 时加以利用。

动机 #1:可能存在参数化 PDEs 的潜在空间

由于具有相似参数设置的 PDEs 共享某些共同特征,我们推测参数化 PDEs 的解可以嵌入到一个潜在空间中,并通过共享的解码器网络进行重建。

动机 #2:同时解决相似问题可能更有效

考虑到由相似 PDE 参数化的解之间的相似性,我们推测可以通过将所有这些相似问题一起训练来改善训练过程——多任务学习方法也是基于相同的直觉 (Kendall et al., 2018; Ruder, 2017)。

受到这些观察的启发,我们开发了一种新方法,解决了已知的两个弱点 W1 和 W2


3. P^2INNs:参数化 PINNs

现在我们介绍我们提出的参数化物理信息神经网络(P^2INNs)。本质上,我们的目标是设计一个神经网络架构,有效地模拟参数化 PDEs 解函数  的作用。

3.1. 模型架构

对于 P^2INNs,我们提出了一种模块化的神经网络设计 该设计由三部分组成,即两个单独的编码器  和 ,以及一个流形网络 其表示为:

其中  表示模型的总参数。两个编码器, 和 ,接受时空坐标  和 PDE 参数  作为输入,并提取隐藏表示  和 。提取的两个隐藏表示随后被连接并输入到流形网络  中,以推断带参数  的 PDE 解 

重要的设计选择在于我们显式地将 PDE 参数提取到隐藏表示中,而不是将 PDE 参数  简单地作为参数域中的坐标处理,例如  是直接组合并直接拟合到模型中的(称为 PINN-P,用于我们在 4.2.3 部分中的消融研究)。通过这样的符号表示,P^2INNs 可以表示为 。这种表达表明我们显式地利用 PDE 模型参数来表征解神经网络的行为。

3.1.1 方程输入的编码器

方程编码器  读取 PDE 参数,并生成隐藏表示 我们采用以下全连接(FC)结构来实现编码器:

其中  表示非线性激活函数,如 ReLU 函数, 表示编码器的第  个 FC 层, 是层数。

我们注意到, 的大小要比  的大小大,因为我们通过生成隐藏表示捕捉到了参数化 PDE 的非线性特性。由于高度非线性 PDEs 在不同空间和时间坐标上的不同特性,我们有意采用了相对高维的编码表示。

3.1.2. 时空坐标的编码器

时空坐标编码器  为  生成一个隐藏表示 该编码器的全连接 (FC) 层结构如下:

其中  和  分别表示编码器的第  个 FC 层和 FC 层的数量。

3.1.3. 流形网络

流形网络  读取两个隐藏表示, 和 ,并推断输入  的解,记作 。在推断的解  上,我们构造了两个损失  和 。流形网络可以有多种形式,但我们使用以下形式:

其中  表示两个向量的连接; 表示 FC 层的数量。

3.2. 训练

通过最小化常规的 PINN 损失进行模型训练。对于由 P^2INNs 产生的预测 ,我们的基本损失函数由以下三个项组成:

其中  分别表示初始条件、边界条件和物理定律在 PDEs 中的损失, 是超参数。通常,总体训练和模型的损失遵循原始 PINN 的训练流程 (Raissi et al., 2019)。唯一的例外是与多次 PDE 相关的模型损失在小批量中最小化。在原始 PINN 中,每次迭代中,只有一个 PDE 被最小化。更具体地说,在每次迭代中,我们创建一个包含  的小批量,其中  是小批量的大小。我们随机采样 PDE 参数  作为小批量训练的一部分。换句话说,在一个小批量中,可以有多个不同的 PDEs,标识符为 

3.3. 快速微调

作为本研究的最终目标之一,是将已训练的模型部署到我们感兴趣的特定 PDE 参数  的集合上。我们设计了一种方法来微调已训练的模型,以提高这些特定 PDE 参数上的解精度。为此,我们采用 SVD-PINNs (Gao et al., 2022) 中的方法,表明通过对 PINN 训练后的权重进行奇异值分解 (SVD),能够有效地将其转移到单一 PDE 方程中。扩展这一见解,我们引入了一种 SVD 调制方法,将训练后权重的基通过 SVD 调制到 P^2INNs 的解码层的权重中。具体来说,只有流形网络  被转化为图 5 中显示的形式;每一层(除了第一层和最后一层)被分解如下:

然后,在微调期间,我们设置  为可学习的,同时保持网络中所有其他参数固定。可以选择将  和  固定。

在隐式神经表示领域中,使用坐标基于的连续神经网络函数进行学习时,shift modulation (Dupont et al., 2022) 被认为是领先的架构选择之一。这涉及为模型中的每一层偏置项添加移位项,并且仅在使用少量较低维参数时呈现出各种数据。然而,通过实验证明,在 PINNs 中通过移位进行调制并未显著提高性能。我们在 4.2.4 部分进一步讨论了这一点。



4. 评估

在本节中,我们在基准 PDE 问题上测试 P^2INNs 的性能:1D CDR 方程和 2D Helmholtz 方程,这两者都已知存在失效模式。我们首先介绍我们的实验设置,并通过广泛的评估展示 P^2INNs 如何优于基准方法。我们进一步分析了 P^2INNs 如何解决第 2 节中提到的失效问题。由于篇幅原因,详细的实验设置和结果在附录中提供。

4.1. 实验设置

数据集。为了简化问题但不失一般性,我们假设参数化的 1D CDR 方程和 2D Helmholtz 方程(参见 Eqs. (1) 和 (8))。为了生成真实数据,我们要么使用解析解,要么使用数值解。在 1D CDR 方程的情况下,我们通过使用三个不同的初始条件  来生成目标方程:两个高斯分布  和 ,以及  的正弦波。为了求解该方程,我们使用 Strang 分裂方法 (Strang, 1968)。对于 2D Helmholtz 方程,我们通过直接计算获得精确解。

基准方法和消融方法。我们比较 P^2INNs 与三种基准方法。PINN 是基于全连接层和非线性激活(如 Raissi et al., 2019)设计的原始结构,PINN-R 是使用残差连接的增强版本,使用了 (Kim et al., 2021) 中的方法。PINN-seq2seq (Krishnapriyan et al., 2021) 是一种将 seq2seq 学习方法应用于 PINN 模型的模型,能够随着时间的推移逐步学习数据。我们将整个时间划分为 10 步。此外,我们为我们的方法定义了一种消融模型,称为 PINN-P,其结构与原始 PINN 相同,但 PDE 参数  被视为参数空间中的坐标,即 

方法。我们针对每个方程类型的每个参数配置训练 PINN 和 PINN-R,遵循标准 PINN 训练方法——换句话说,对于一个方程类型,模型的数量与 PDE 参数配置的数量相同。对于训练 P^2INNs,我们将其与所有初始条件和配置点一起训练,即对于第 3.2 节中提到的每个方程中的多个参数配置,我们只训练一个模型。

评估指标。为了评估模型的性能,我们测量了模型预测的解与真实解之间的  相对误差和绝对误差。相对误差和绝对误差分别定义为:

其中  是用于测试的模型数量。在这个实验中,误差是针对每个测试点测量的,平均值用作评估标准。我们使用最大误差和解释方差作为进一步分析的指标(参见表 12)。我们使用 3 组随机数并报告它们的平均值。

4.2. 1D CDR 方程

在实验中,我们从 CDR 方程(参见第 2.1 节)中选择 5 种不同的方程类型,参数如表 5 所列,实验结果总结在表 2 中。现有基准显示出不稳定的性能,而我们的 P^2INNs 在所有 6 种不同方程类型中表现出稳定的性能。最显著的精度差异体现在扩散、反应、反应扩散以及对流-扩散-反应方程中。

例如,PINN-R 在系数范围为 1 到 20 的反应方程上标记了 0.4320 的绝对误差,而 P^2INN 的误差仅为 0.0042,误差减少了 102 倍。扩散方程中,系数范围为 1 到 5 时,精度差异最小。尽管 PINN 和 P^2INN 表现相似,但在系数范围为 1 到 20 的反应方程上,我们的方法能够更好地预测参考解,误差为 0.6782(PINN-VS)的对比误差为 0.1916(P^2INN)。由于较大的系数使方程难以求解,现有基准在该范围内通常表现较差。在所有情况下,取决于方程类型,我们的方法在误差减少率上超过了 PINNs,改善幅度在 33% 到 99% 之间,如表 1 所示。对于反应方程,我们的方法的改进比率显著。

4.2.1 未见 PDE 参数的解推断

我们进一步在更具挑战性的情境下评估 P^2INNs 的性能:测试训练好的模型在训练过程中未见过的 PDE 参数上,这可以视为实时多查询场景

对于反应方程,我们在  的区间上训练 P^2INNs,间隔为 1,并在  的区间上进行插值,并且在  的区间上进行外插,间隔为 0.5。图 6 中显示了对于 ,PINNs 的失效情况,P^2INNs 则表现出了卓越的性能,表明其在外插中的鲁棒性,不仅仅局限于学习或紧密对齐的参数。

4.2.2 P^2INNs 在 PINNs 失效模式中的表现

众所周知,PINNs 存在多个失效案例。特别是,具有大系数的 CDR 方程对于 PINNs 来说 notoriously 难以求解 (Krishnapriyan et al., 2021)。在报告的 PINNs 失效案例中, 的对流方程和  的反应方程是两个典型的代表——特别是, 对应于在训练后外插到  的任务,这是最具挑战性的任务之一。这两个方程的信号随时间强烈波动。因此,如图 7 和表 9 所示,PINNs 无法预测这些方程的解,而我们的方法几乎能够准确地重现它们的解(参见附录 F)。

4.2.3 消融研究

作为消融研究,我们不单独编码 ,而是直接将其输入到我们的方法 PINN-P 中(即,使用单一编码器网络 ,而不是显式地为 PDE 参数设置编码器 )。我们在反应方程上测试该模型,难度较大,结果如表 3 所示。如表 3 所示,尤其是在较宽系数范围内,P^2INNs 的性能明显优于消融模型,证明了我们的模型设计的合理性,即单独编码 PDE 参数和时空坐标  的重要性。更多的实验细节和其他消融研究见附录。

4.2.4 P^2INNs 在学习多种方程类型上的表现

现在,我们在更具挑战性的情况下测试所提模型,即同时学习 6 种不同 CDR 方程类型的单一解网络(参见第 2.1 节)。我们将提出的 PINN 专用调制方法与只更新所有参数的模型(记为 “ALL”)以及移位调制(Shift Modulation, Dupont et al., 2022)进行比较。在该实验中,我们以 1 到 5 的范围训练 P^2INNs 作为预训练模型,并测试了每种方法如何微调该预训练模型。对于实验,我们在每种类型的 CDR 方程上微调 15 轮,并总结了表 4 中反应、反应扩散和对流-扩散方程的结果。完整的实验结果见附录 F.3。

如表 4 所示,P^2INNs 能够准确地近似并区分这些具有挑战性的方程类型中的每个 PDE 解。此外,我们的 SVD 基于调制方法优于所有其他基准方法,说明了该调制如何在首次 100 个时期后使模型推断出已见和未见的 PDE 参数。对于两种未见的 PDE 参数,SVD 基于方法展示了最低的  误差,证明了其泛化能力和鲁棒性。换句话说,我们证明了通过我们的 SVD 方法,P^2INNs 能够适应多种 PDEs,并且可以调整到有限的可训练参数和较少的方程。

4.3. 2D Helmholtz 方程

对于 2D Helmholtz 方程,我们在  的区间上训练模型,间隔为 0.1,并在  和  这两个未见的参数上进行测试。如图 9 所示,P^2INNs 在这两种情况下表现出良好的性能(见  和未见的 )。

然而,尽管这两个值位于两个模型的已见(已训练)参数范围内,PINN 和 PINN-R 仍然表现不佳。

这些结果强调了我们方法的稳健性,不仅能在已知参数空间中表现良好,还能扩展到未探索的参数空间。因此,在解决某些系数范围内的方程时,P^2INNs 显示出卓越的计算效率,因为它们只需要在学习到的潜在空间中进行测试,无需额外的训练。除此之外,针对 2D PDE 的实验再次验证了我们提出的 P^2INN 方法在更高维场景中的鲁棒性,尤其是在存在非平凡边界条件的情况下。更多结果见附录 G。


5. 相关工作

用于求解偏微分方程的机器学习方法

传统的数值方法,如有限元法和有限差分法,具有明显的优缺点 (Patidar, 2016; Li & Bettess, 1997; Srirekha et al., 2010)。结果越准确,数值近似公式的计算成本就越高。这意味着要获得更准确的解,需要使用更精细的网格,这会带来更高的成本。为了缓解这些问题,研究人员开始转向机器学习方法 (Karniadakis et al., 2021; Cuomo et al., 2022)。经过多种尝试,如使用 Galerkin 或 Ritz 方法 (Rudd & Ferrari, 2015),PINNs 提出了以物理上健全且易于计算的形式求解一般控制 PDEs 的方法 (Raissi et al., 2019)。正如前文所述,PINNs 存在一些弱点,必须加以解决 (Krishnapriyan et al., 2021):(1) PINNs 难以学习某些 PDE 类别(例如,空间和/或时间域中表现出高度振荡或陡峭过渡的 PDEs),(2) 基于梯度的训练方法常常收敛于模型的局部最优解。另一种用于求解 PDEs 的方法是利用算子学习或深度 Ritz 方法 (Yu et al., 2018; Li et al., 2020; Gupta et al., 2021),但 PINNs 仍然具有很大的潜力,特别是针对描述物理现象的控制方程。

物理作为归纳偏差

为了在神经网络上施加物理约束,已经提出了多种策略 (Cranmer et al., 2020a; Rudd & Ferrari, 2015; Lee et al., 2021)。其中大多数关注的是为输出施加约束或将特定的物理条件注入神经网络。作为一种简单但有效的解决方案,PINNs 直接通过将物理条件作为损失来注入神经网络 (Raissi et al., 2019)。这个损失函数称为 。这是控制方程的残差损失。如果给定初始条件,我们还可以添加初始误差损失项 。此外,如果有特定的边界条件,我们可以在  中指定这些边界条件。

PINNs 的最新进展

在最新的文献中,PINNs 已经演变出了多种不同的方式,以解决与原始 PINNs 的问题。一些架构增强包括 (Cho et al., 2024a) 中的 PINN 扩展和超网络扩展 (Cho et al., 2024a),用于模型效率和有效训练的超网络设计。同时,在 (Lau et al., 2023) 中进行了系统的评估,并为增强 PINNs 提出了新的采样策略。已经有一些努力将 PINNs 与类型回归相结合 (Podina et al., 2023),以及从 PDE 操作符重定向的角度进一步优化 PINNs (De Ryck et al., 2023)。最后,已经提出了一些用于有效训练 PINNs 的新型优化器 (Yao et al., 2023) 和 (Müller & Zeinhofer, 2023)(基于自然梯度下降)。


6. 缓解PINNs失效模式

PINN 是一种在许多工程和科学领域中高度适用且前景广阔的技术。特别是,它具有只需给定一个待求解的 PDE 即可进行训练的优势,而无需额外数据。然而,由于 PDEs 的高度非线性特性,PINNs 在某些参数化 PDE 问题上表现不佳。此外,PINNs 还存在一个弱点,即模型必须从头开始训练,以分析一个新的 PDE。为了解决这些长期存在的问题,我们提出了参数化物理信息神经网络 (P^2INNs),它能够同时学习相似的参数化 PDEs。通过这种方法,可以克服 PINNs 在以前研究中未能解决的失效情况。为了确保它在一般情况下的有效性,我们使用了数千个 CDR 方程,结果表明 P^2INNs 在几乎所有基准 PDEs 中都优于基准方法。

邪云宝库
用于分享物理科学启发AI的新范式:人工智能的物理科学(PhysicsScience4AI, PS4AI)资料。用于各种debug日志,偏微分方程,物理信息神经网络,算法原理及实现,数据挖掘,机器学习,智能优化算法,多元统计及生活分享。
 最新文章