退火自适应重要性抽样法在 PINN 中用于求解高维偏微分方程Annealed adaptive importance sampling method in PINNs for
solving high dimensional partial differential equations
退火自适应重要性抽样法在 PINN 中用于求解高维偏微分方程Annealed adaptive importance sampling method in PINNs for solving high dimensional partial differential equations
目录
1. 引言
2. 物理信息神经网络 (PINNs)
3. 退火自适应重要性采样 (Annealed Adaptive Importance Sampling, AAIS)
3.1 EM 操作
**3.2. 退火自适应重要性采样(AAIS)算法**
**4. PINNs的重采样框架**
**5. 实验**
**5.1 结果和发现总结**
**5.2 二维泊松问题**
5.3. 高维泊松问题
5.3.4. 十五维单峰和双峰问题
6. 结论与未来工作
摘要
物理信息神经网络(Physics-informed Neural Networks, PINNs)已经成为解决广泛偏微分方程(Partial Differential Equations, PDEs)问题的强大工具。然而,尽管其界面友好且应用广泛,PINNs 在准确求解 PDEs 时仍面临挑战,尤其是在处理可能导致不理想局部极小值的奇异问题时。为了解决这些挑战并提高解的精度,我们提出了一种创新的方法,称为退火自适应重要性采样(Annealed Adaptive Importance Sampling, AAIS)。该方法受到有限混合模型中模仿目标密度的期望最大化(Expectation Maximization, EM)算法的启发,用于计算目标函数中离散化的 PDE 残差。
我们的目标是通过在残差较大的区域策略性地采样附加点,来近似离散化的 PDE 残差,从而增强 PINNs 的有效性和准确性。结合在 PINNs 中简单的重采样策略,我们的 AAIS 算法在测试的多种 PDE 问题中,即使在有限的训练数据集下,也表现出了显著的效率提升。此外,提出的 AAIS-PINNs 方法在求解高维奇异 PDEs 问题中展现了良好的潜力。本文引入的自适应采样框架可以集成到多种 PINN 框架中。
code:https://github.com/Zenki229/AAIS_PINN
1. 引言
偏微分方程(Partial Differential Equations, PDEs)被广泛用于建模物理现象。在过去的几十年中,传统数值求解器在求解 PDEs 方面取得了显著进展。这些经典求解器具备强有力的数学保证和高效的实现方法,提供了高精度和数值稳定性。然而,这些求解器通常计算开销较大,且在复杂系统中面临显著挑战。
近年来,随着计算资源和机器学习算法的快速发展,物理信息神经网络(Physics-informed Neural Networks, PINNs)被提出 [1],并因其在许多实际模拟场景中的实用性(例如流体动力学 [2–4]、光学 [5]、金融 [6] 等)而受到广泛关注。更多详情见综述文献 [7,3] 及相关参考文献。通过自动微分机制,PINNs 能够将 PDEs 编码为包含软边界条件和初始条件的损失函数。相比经典数值求解器,PINNs 在前向和逆向问题中具备易于实现的算法、无网格结构以及克服维度灾难的能力。因此,PINNs 广泛应用于各种与 PDEs 相关的问题,包括不确定性量化 [8]、随机微分方程 [9]、分数阶微分方程 [10,11] 等。
然而,尽管 PINNs 已在多个领域取得成功,其在复杂 PDEs 的求解中仍存在“失效模式” [12–15]。具体而言,PINNs 中固有的非凸优化问题通常导致神经网络收敛到平庸解,这仅是 PDEs 的局部解。对于简单的 PDEs(单尺度、单模态),传统 PINNs [1] 能够快速获得满意解。但对于多尺度 PDEs,传统 PINNs 通常表现不佳,因为低频局部解会偏离精确解 [12]。
因此,近年来针对 PINNs 方法的高效实现方案不断涌现。例如,损失重加权方法 [16,13,17] 和自适应采样策略 [18–23] 等,通过在权重或采样上的概率分布间寻找折中。此外,一些研究致力于通过采用新的神经网络架构来增强 PINNs 的表示能力 [24–26]。详细综述见文献 [27]。
自适应采样策略已经成为 PINNs 训练中的核心方法,提供了一种增强学习效率的稳健手段。其基本思想是,在损失值较高的区域策略性地采样附加点,从而引导训练过程优先关注这些区域,以取得更好的结果。在文献 [28] 中,作者表明重新采样离散点是必要的,并提出了一种基于损失梯度的重采样方案。文献 [21] 中提供了一种基于损失函数大残差的自适应细化方法(Residual-based Adaptive Refinement, RAR)。文献 [18,19] 提出了基于失效函数建模的失效信息 PINNs(Failure-informed PINNs, FIPINN)采样方法。此外,DAS-PINN [22] 采用基于 Knothe-Rosenblatt 重排的 KR-net 来逼近训练中的分布。这些方法已被证明优于标准 PINNs。然而,现有策略在多模态损失景观中仍面临挑战。领域分解和高斯混合方法被建议用于解决这一问题 [19,23]。基于残差的自适应分布方法(Residual-based Adaptive Distribution, RAD)在文献 [20] 中使用简单的蒙特卡罗方法,展示了在低维 PDEs 中的满意性能。但这些方法在高维情况下的扩展性仍然是一个未解决的问题,蒙特卡罗方法在高维情况下的效率可能会下降,对这一问题的研究还较为稀缺。
最近,我们对文献 [29] 中阐述的退火自适应重要性采样(Annealed Adaptive Importance Sampling, AAIS)方法产生了浓厚兴趣。该方法在复杂多模态目标分布的采样方面表现出了高效性,并通过所生成的样本逼近边际似然值。鉴于 AAIS 在处理高维多模态分布中的显著优势,我们识别出将该算法集成到自适应采样方法框架中的战略契机,特别是在高维 PDEs 领域中。
因此,本文提出了一种新颖的自适应采样方法,称为 AAIS-PINNs,用以提高 PINNs 模型训练的效率。AAIS-PINNs 框架基于多模态分布的期望最大化(Expectation Maximization, EM)算法 [29–31],旨在利用有限混合模型模拟 PDE 残差分布。为严格评估 EM 算法的性能,我们采用了有效样本量(Effective Sample Size, ESS)指标。该指标能够精确量化目标密度与拟合分布之间的逼近质量,详情请参考文献 [32–34]。
与 RAD 方法相比,AAIS-PINNs 在探索时需要更少的节点,从而在高维问题中表现出更高的效率。在第 5 节的实验中,我们观察到 RAD 方法在求解九维泊松问题时表现不佳,因为在高维中均匀采样效率非常低。此外,根据 NTK 理论 [12,35](该理论提出 PINNs 会优先学习解的低频部分),我们发现自适应采样方法能够增加损失函数或绝对误差的频率,这表明解的低频部分得到了良好的解析。在第 5 节中,与使用均匀采样方法的 PINNs 相比,残差中的频率增加现象在大多数情况下都得到了体现。
本文的主要贡献总结如下:
提出了自适应采样方法论:我们引入了 AAIS-PINNs,包含高斯混合(AAIS-g)和 Student's t 分布(AAIS-t)两种方法。此新颖方法是一种旨在近似 PINNs 中复杂目标分布的自适应采样技术。该方法显著提高了在高维 PDEs 中捕捉多模态残差的准确性,解决了文献中未涉及的问题。AAIS-PINNs 在一系列高维 PDEs 中表现出了稳健的性能,展示了其在各种 PDE 相关机器学习应用中的潜力。此外,AAIS 算法的自适应性使其易于集成到现有和未来的 PDEs 机器学习算法中。 稳健的 PINNs 重采样框架:我们引入了一个简单而稳健的重采样框架,专为 PINNs 设计。该框架通过控制训练数据集的规模保持一致性,同时策略性地引入自适应点以降低局部极小值风险。我们的方法在应用于多种前向 PDE 问题时,一致表现出频率增加现象。这一现象在不同 PDE 问题中的一致性,突显了我们提出算法在高维场景中的效率与效果。
本文组织如下:第 2 节介绍 PINNs 的基本知识。第 3 节展示 AAIS 算法的思想及有效样本量的定义。第 4 节提出了一个简单高效的 PINNs 重采样框架,适用于包括均匀采样和我们提出的 AAIS 方法在内的多种采样方法。最后,第 5 节进行了一些数值实验,并在第 6 节作出结论。
2. 物理信息神经网络 (PINNs)
本节基于文献 [1] 的公式简要介绍了物理信息神经网络(Physics-Informed Neural Networks, PINNs)。
给定一个 维区域 及其边界 ,考虑如下问题:
其中, 是微分算子, 是边界算子, 是方程 (1) 的未知解。
设 为 的神经网络表示,参数集合 包含了全连接神经网络的所有可训练参数。
参数集合 通过最小化如下损失函数 来确定:
其中, 是参数空间。最常用的损失函数形式是定义在整个区域 上的加权 范数,即:
然而,在实际问题中我们无法精确计算 和 ,而是通过在区域中采样点来构造离散化的损失函数:
其中,离散化后的损失函数是加权均方误差 (MSE) 损失:
这里, 和 分别为区域内和边界上的采样点, 和 为对应于这些点的离散权重。PINNs 可以通过自动微分机制直接将偏微分方程 (PDE) 编码到损失函数中。
上述损失重加权策略和自适应采样点策略旨在最小化由采样点引起的统计误差,同时一些改进神经网络结构的方法能够增强 PINNs 的表达能力。更具体地,根据文献 [22,23] 的公式,令 为数学期望,则 PINNs 的总误差可以分为两部分:
其中,
可以看到,(5) 式的第一部分来自于通过蒙特卡洛方法离散化损失函数产生的统计误差,第二部分来自于神经网络在参数空间 上的逼近能力。在本文中,我们仅考虑如何减少 (5) 式中 的误差,并假设边界得到了良好的近似。
3. 退火自适应重要性采样 (Annealed Adaptive Importance Sampling, AAIS)
本节简要介绍了基于 EM 算法的退火自适应重要性采样 (Annealed Adaptive Importance Sampling, AAIS) 方法 [30,29]。
给定一个目标密度 和设计的混合分布:
其中, 是所有可调模型参数的集合,, 是 的每个组成部分, 是 的模式数,, 分别是对应于每个组成部分 的混合权重和参数,权重满足 ,且 。
我们希望用设计的 来近似 ,根据文献 [30, Section 2.1],这等价于考虑以下的极大似然估计问题:
这意味着需要对有限混合模型应用 EM 算法。
此外,为了评估近似的性能,经典的方法是计算对数似然(式 (6)),但在计算积分时可能效率不高。这里我们定义了来自重要性采样的有效样本量 (Effective Sample Size, ESS) [34]:设 是从分布 采样得到的点集,则 ESS 定义为:
其中,
我们可以轻易看出 ,即它是归一化的。当重要性权重 的变化减小时,ESS 会增大,这意味着 的近似效果更好。当 消失时,意味着所有的 IS 权重都是相等的,此时提议分布是 的理想近似,即:
ESS 在过去十年中作为重要性采样方法的衡量标准因其简洁性而被广泛使用,更多关于有效样本量的讨论见文献 [34,33,32]。这里我们采用文献 [34] 中的定义(式 (7))。
多变量分布的 EM 算法在文献 [31,30] 中被介绍,作者们考虑固定数量的组件并调整组件权重和参数。在文献 [29] 中,提出了一种新颖的方法,该方法涉及在迭代过程中逐步添加新的组件到设计的提议分布中,并采用退火策略。接下来,我们将介绍退火重要性采样策略 (Annealed Importance Sampling Strategy, AAIS) 的思想。
3.1 EM 操作
首先,我们介绍固定规模(固定 , )有限混合模型的 EM 算法。这里我们将提供高斯混合模型和 Student's t 混合模型的具体细节。
在第 次迭代,,当前迭代的提议分布 具有参数 和 ,包括 和 , 。设 是从 采样得到的点集,并定义描述每个组件在生成每个采样点中所扮演角色的后验概率:
根据文献 [30] 的公式,在下一次迭代 中,提议分布 的新参数集合 应通过 EM 步骤更新:
E 步骤:
M 步骤:
其中, 是归一化的重要性权重:
。
高斯组件情况
以下假设提议分布 是多个高斯分布的混合,即 是高斯分布。这意味着每个 的参数 包含两个部分:均值 和协方差矩阵 。根据文献 [31, Section 2.2] 和 [30, Section 3] 的公式,用于更新高斯混合模型的 EM 算法可表示为:
Student's t 组件情况
类似于高斯混合模型,我们选择组件为 Student's t 分布,因为它们因其重尾特性在重要性采样中提供了更高的效率。参数 包含均值 和协方差矩阵 ,自由度 固定。然后,Student's t 混合模型的 EM 算法如下 [29, Section 3.4], [30, Section 4]:
其中,
有关 的更多细节,请参见文献 [31, Section 2.6]。
3.2. 退火自适应重要性采样(AAIS)算法
接下来,我们将讨论[29]中提出的退火自适应重要性采样(AAIS)算法的简化版本,适用于高斯分布和学生t分布。在这种简化的算法中,提议分布的每个分量的参数仅包括均值和协方差。首先,我们必须在迭代过程中构建中间目标密度函数,其中
这里的是一个温度梯度,是给定的步数。如果温度梯度设置得当,目标密度可以从初始猜测值中平滑地逼近。然后我们需要在AAIS算法中执行以下几种操作。
初始化操作
一开始,我们必须从目标函数构造一个初始提议。具体步骤如下:
首先在定义域内均匀采样个点,然后找到使目标达到最大值的点。 接着,将单分量提议的均值设置为,协方差为初始协方差。 运行EM算法:用采样个点,然后运行EM算法,直到(有效样本大小)大于给定的阈值,或者达到最大循环限制。
算法1详细描述了初始化操作的过程。
删除操作
在迭代过程中,如果中的某些分量可以忽略(即它们对应的权重小于给定的阈值),则可以将这些分量从中删除,并重新调整剩余分量的权重,使得它们的总权重等于1。
更新操作
当不足时,我们可以基于重要性采样权重添加新的分量。具体操作如下:
从中采样个点,计算基于目标的重要性权重。
找到具有最大权重的样本点,并以该点为均值、为初始协方差,构造一个新提议。
对新提议运行EM算法,根据目标函数调整分量,直到达到满意值,或者达到最大迭代次数。
如果与不需要合并,则按照以下方式更新提议分布:
其中是更新权重。
算法2详细描述了更新操作的过程。
AAIS算法的完整描述
AAIS算法的完整流程(如算法3所示)结合了初始化、删除和更新三种操作,可以用于高斯混合分布(AAIS-g)和学生t混合分布(AAIS-t)。EM算法在不同分布选择下分别遵循公式(9)和公式(10)。需要注意的是,如果使用AAIS-t,则必须额外指定自由度作为输入。
备注 3.1
对于算法3的某些设置,提供以下说明:
关于如何选择退火梯度(annealed ladder),详见[29, 第3.6节]。 与[29, 第3.2节]中的合并算法相比,更新操作中的合并设计在这里仅基于,而非互信息(mutual information),以简化计算。 参数设置的建议:
:设为提议分布分量数的1%; (采样阈值),(合并阈值); (采样点数),; (更新权重)。
若,主对角线元素设为; 若,主对角线元素设为。 为对角矩阵,主对角线元素的值取决于维数:
这些参数的选择基于实验经验,但每个参数的最优设置仍需在未来研究中进一步验证和优化。
4. PINNs的重采样框架
在本节中,我们提出了一种简单但高效的重采样物理信息神经网络(PINNs)框架,可与自适应采样策略结合使用。其核心思想是在训练过程中生成新的采样点,并将其与现有训练数据集结合,同时保持数据集的大小固定。
借鉴RAD结果[20]的启发,以及围绕高损失值区域采样附加点的概念,我们选择了一种与残差函数成比例的密度函数,,定义为:
其中是偏微分方程(PDE)的损失函数。
算法总结
采用重采样的PINNs训练算法总结为算法4。在这里,可以是以下任意一种采样方法:
均匀采样方法; RAD方法(见[20]); 本节第3部分提出的AAIS方法。
需要注意的是,在每次迭代中,我们通过以下方式保持训练数据集的大小不变:
从上一次训练数据集中选择定义域内的节点; 添加定义域中重新生成的新点; 重采样。
这一设计动机来源于[28],其中指出在训练过程中保持配点(collocation points)不变是次优的,这会导致PINNs呈现局部行为。
参数与超参数选择
参数的选择、超参数的设置以及AAIS算法的具体设置与具体问题相关,这些内容将在第5节详细说明。
备注 4.1
算法4提供了一种通过重采样训练数据集来训练PINNs的框架。这种重采样的思想在许多工作中得到了广泛应用,例如[19, 20],其目标是在保持采样大小固定的前提下展示自适应采样的效率。
我们希望该算法不包含复杂的训练技巧,并能够应用于其他PINNs改进方法,例如[27, 36]中的工作。
5. 实验
在本节中,为了评估采样效率,我们展示了三种不同采样方法的数值结果:
均匀采样方法(Uni):该方法使用均匀采样更新训练数据集。 RAD方法(Residual-based Adaptive Distribution, RAD):该方法使用简单的数值积分来计算,即在定义域中均匀地采样个点,并计算,然后基于概率更新训练数据集。 AAIS算法:在第3节中提出。
以下,我们将“Uni”表示均匀采样方法,“RAD”表示基于残差的自适应分布方法,“AAIS-t”和“AAIS-g”分别表示具有Student’s t-混合和高斯混合的AAIS算法。
根据第2节的PINNs采样框架,我们首先使用在定义域中均匀采样的小数据集进行神经网络的预训练,然后结合我们使用重采样策略生成的新的训练数据集与新的生成数据集。
对于所有测试的数值方法,除非另有说明,以下参数保持一致:
在第3节定义的退火梯度()设置为[0.7, 0.9, 1.0]; ; 设置为[100, 100, 100]; ESS中断阈值设置为[0.9, 0.88, 0.85]; AAIS-t算法的自由度设置为3。
这些设置是根据我们的经验,在高ESS值和计算成本之间进行的权衡。我们始终选择配点权重为1,即。
用于建模PDE数值解的神经网络为7层全连接网络,每层20个神经元。我们选择tanh作为激活函数,Adam和lbfgs优化器用于优化损失函数,学习率分别为0.0001和0.3。为了衡量采样策略的准确性,我们使用相对误差和误差,定义为:
其中属于测试数据集,数据集大小为。
5.1 结果和发现总结
首先,我们总结了不同问题的数值结果和发现。我们研究了训练过程中的误差衰减,分析了第(12)式定义的PDE目标密度的行为,并探索了自适应采样方法的限制。
对于具有单个和多个高奇异点的PDE问题,例如具有单个和多个峰值的泊松问题,我们观察到自适应采样方法在性能上优于均匀采样(Uni)方法,突显了基于残差的自适应采样的重要性。
此外,在低维情况下,RAD方法优于其他三种采样方法,这得益于它能够使用足够数量的搜索点(大约100k)紧密地模拟目标残差。另外,AAIS-t算法相比AAIS-g算法表现出更优的性能,这归因于Student’s t-分布的重尾特性。
然而,在高维或搜索点数量有限的情况下,AAIS-t可能优于RAD方法,因为简单的蒙特卡洛积分可能会失败。这代表了我们提出的AAIS-PINNs算法的显著优势,尤其是在有计算资源约束时,解决高维多峰PDE问题时尤为重要。
为进一步澄清,我们在表1中列出了四种采样方法的采样时间和误差的结果。根据这些结果,我们观察到,在低维情况下,RAD方法在获得更好结果时花费的时间最少。对于我们提出的方法,随着搜索点数量的增加,采样时间也会增加,这与我们算法的设计相符。然而,对于2D泊松问题(单个峰值),我们注意到如果搜索点数量有限(),RAD方法无法提供准确的预测。这表明,随着PDE维度的增加,RAD方法可能表现不佳,因为对搜索点的需求呈指数增长,这会迅速超出CPU和GPU内存的容量。由此,随着维度的增加,AAIS-t方法的采样过程尽管时间较长,但能获得准确的数值结果,展示了我们提出的采样方法在实际应用中的可行性。
5.2 二维泊松问题
在这一部分,我们专注于具有低规律性的二维泊松问题,其解具有多峰特性。该问题通常被认为是评估PINNs自适应采样效率的测试问题[22, 18, 23]。
问题描述为:
其中。源项和边界项由精确解给出:
其中为案例依赖的中心点。
我们列出了部分案例的采样时间和误差(见表1)。我们可以看到,对于低维情况,RAD方法优于其他三种采样方法,除了当时,RAD方法表现不佳。这意味着,如果搜索点数量有限,RAD方法会失败,而我们提出的方法则仍能有效工作,这在维度更高时表现得更加明显。
5.2.1 单个峰值
我们考虑单个峰值情况(),并设,精确解如图1所示。由于高奇异解的稀疏性,PINNs常常会陷入局部最小值,正如下面的分析所示。我们在定义域中总共采样2000个点,其中每次迭代更新500个点,即和,并在边界上采样500个点。
我们首先调查这四种算法的效率。我们设置Adam优化器的500个epochs和lbfgs优化器的1000个epochs进行预训练和自适应训练,最大迭代数为。在这里,我们设定RAD、AAIS-g和AAIS-t的为1000, 2000, ..., 10000,AAIS算法中。误差如图2所示。我们可以看到,在较少的epochs下,所有算法的相对误差表现相似,但误差有所不同,表明PINNs可能会陷入局部最小值,而自适应算法则能够跳出这些局部最小值。随着训练epochs的增加,这一差异会变得更加明显。
5.2.2. 九个峰值问题
接下来,我们考虑具有九个峰值的泊松问题,其中中心点 (𝑥𝑖₀, 𝑦𝑖₀) = (−0.5, 0.5) + (𝑚𝑜𝑑(𝑖,3) / 2, 0) + (0, ⌊𝑖 / 3⌋ / 2),𝑖 = 0, ..., 8([23])在域内均匀分布。精确解如图 8 所示。
同样,使用蒙特卡罗积分计算 ∫ (𝐱)d𝐱,我们在 Ω 内均匀采样了 100k 个点。对于域内的总点数,我们设置了 2k 个点,其中 500 个点根据每种采样方法进行采样,另外 500 个点采样于边界。
首先,我们使用 Adam 优化器进行 500 轮训练,并使用 lbfgs 优化器进行 5000 轮训练,作为预训练并每次迭代最大训练轮次为 𝑀 = 20。我们设置 AAIS 的点数为 6k,因为多峰问题需要适应性采样方法的能力。在图 9 中,我们列出了在训练过程中损失值和相对误差。结果表明,自适应采样方法比 Uni 方法生成了更好的结果。根据 [23] 中的参数设置,我们发现可以使用更少的点数获得类似的结果。
在图 10 中,我们分别展示了残差 和节点分布。与单峰问题类似,适应性采样方法的节点会集中在高奇异性区域。随着训练的进行,残差 会逐渐远离奇异点,并且频率会增加。图 11 中列出了绝对误差和解的轮廓,表明奇异点在绝对误差中隐藏,意味着模型在奇异点处得到了很好的训练。
5.3. 高维泊松问题
在这一部分,我们将重点关注高维度的多峰泊松问题。上述实验表明,在二维问题中,RAD 方法优于我们提出的 AAIS 算法。主要原因是 RAD 的搜索点数为 100k,即 𝑁𝑆 = 100000,简单的蒙特卡罗方法在二维问题中能够取得令人满意的结果。然而,在高维问题中,100k 的搜索点数将不足以有效解决问题,蒙特卡罗方法也会失败。而我们提出的 AAIS 算法通过重要性采样能够有效地解决问题。因此,在本节中,我们选择 RAD 和 AAIS-t 方法来测试 5、9 和 20 维度的多峰泊松问题。
给定 Ω = (−1, 1)ᵈ,源项 𝑓 和边界项 𝑔 的方程(14)由精确解给出:𝑢∗(𝑥₁, 𝑥₂, ..., 𝑥𝑑) = ∑𝑐ᵢ=1 ∑𝑗=1ᵈ exp [−𝐾((𝑥ⱼ − 𝑥ᵢⱼ)²)], 其中 (𝑥₁, 𝑥₂, ..., 𝑥𝑑) ∈ Ω,5D 和 9D 问题中我们分别设置了 𝐾 = 100 和 15D 问题中设置了 𝐾 = 10。
我们还列出了不同维度下 2 峰泊松问题的平均采样时间和 𝐿∞ 误差(见表 2)。与二维情况相比,我们增加了搜索点数,但 RAD 方法无法解决问题,而我们提出的方法可以在可接受的采样时间内获得准确的结果。
此外,对于高维泊松问题,由于计算数值误差非常困难,我们首先在域内均匀采样点数,然后结合来自高斯分布的采样点,其均值和协方差由每个解的中心点部分决定,然后使用这些点计算数值误差。
5.3.1. 五维两峰问题
我们设置中心点 (𝑥ᵢ₁, 𝑥ᵢ₂, ..., 𝑥ᵢ₅) = (0.5 * (−1)ⁱ, 0.5 * (−1)ⁱ, 0, 0, 0),其中 𝑖 = 1, 2。精确解如图 12 所示。为了测试相对误差,由于存储限制,我们在域内均匀采样了 100k 个点,从每个模式中采样了 15k 个高斯点,并在边界采样了 10k 个点。神经网络结构为 6 层隐藏层,每层 64 个神经元。最大迭代次数为 20。训练计划为:Adam 500 轮,lbfgs 2000 轮预训练,Adam 500 轮,lbfgs 10000 轮自适应训练。
接下来,我们在 𝑥₁𝑥₂ 平面上展示解的投影(即 𝑥₁, 𝑥₂, 0, ..., 0)。RAD 和 AAIS-t 的搜索点数分别为 100k 和 200k。损失值和误差如图 13 所示。RAD 方法由于搜索能力差,在 100k 搜索点下无法解决 5D 问题,但在 200k 搜索点下 RAD 方法能够有限解决。AAIS-t 方法通过重要性采样更准确地解决了该问题。图 14 展示了最后一轮迭代时的损失函数和节点分布。RAD 方法使得节点聚集在奇异点周围,随着搜索节点数的增加,这一效应更加明显。这也解释了为何 RAD 方法在 100k 搜索点下失败,但在 200k 搜索点下能够找到解决方案。对于 AAIS-t 方法,首先可以看到节点聚集在奇异点周围,这有助于得到更好的解,但由于搜索点数仍然相对较少,当损失频率增高时,AAIS 算法可能无法很好地模拟损失函数。
此外,在图 15 中,我们可以看到当 𝑁𝑆 = 100000 时,RAD 无法解决问题,而 AAIS-t 可以。对于 𝑁𝑆 = 200000,RAD 和 AAIS 方法都能够成功解决问题,因其更多地集中于奇异点。然而,RAD 方法的解决效果较差,表现为绝对误差的频率较低,表明解与奇异点的拟合度较差。对于 AAIS-t 方法,与二维问题中的解行为类似,绝对误差的频率较高,并且奇异点在误差中隐藏,表明我们的 AAIS 算法具有更好的求解能力。
5.3.2. 九维两峰问题
在这一部分,我们考虑具有两峰的九维泊松问题,其中中心点为 (±0.5, 0.5, 0, ..., 0)。精确解如图 16 所示。我们设置 𝑁𝑖𝑛 = 20000, = 2000,𝑁𝑏 = 5000 在算法 4 中。神经网络结构为 6 层隐藏层,每层 64 个神经元。我们使用 500 轮 Adam 优化器进行训练,2000 轮 lbfgs 进行预训练,并在自适应训练时使用 500 轮 Adam 和 10000 轮 lbfgs。
在此,我们仅选择 𝑁𝑆 = 200000,损失值和相对误差如图 17 所示。RAD 方法无法解决 9D 问题,但 AAIS-t 能够准确地解决问题。
接着,我们展示了第一次和第十次迭代时的残差和节点分布(见图 18)。RAD 方法仅能大致确定损失较大的区域,但无法精确定位。然而,我们提出的 AAIS 算法在预训练后使得节点聚集在奇异点周围,表明 PINNs 训练效率较高。但在最后一次迭代时,我们可以看到,尽管 AAIS-t 算法也在奇异点处聚焦,但由于 200k 搜索点的稀疏性,它也未能很好地模拟损失。
解和绝对误差如图 19 所示,我们可以看到 RAD 方法无法精确求解问题,但能够定位奇异点的位置。AAIS-t 方法能够完美解决该问题,绝对误差的频率增加,表明我们提出的 AAIS 算法具有更好的求解能力。因此,正如我们所知,这是第一次使用自适应方法成功解决高维泊松问题,且具有多个奇异点。我们提出的基于重要性采样的 AAIS 算法在自适应 PINNs 中取得了令人满意的数值结果。
5.3.3. 多维度多峰问题
理想情况下,在给定足够的搜索点的情况下,我们提出的方法可以在多维度和多峰问题中稳定运行,但RAD方法在问题复杂性增长时的表现会迅速退化。为了验证这一点,我们测试了两个案例,包括固定维度的不同峰值数目和固定峰值数目的不同维度。
固定维度实验
首先,我们将维度固定为5,评估了RAD和AAIS-t方法在多个峰值场景下的表现,峰值数分别为[1, 2, 4, 6, 9, 12, 16]。我们将参数设置与5D情况相同,并将𝑁𝑆 = 200000。结果如图20所示,RAD方法能够处理1个和2个峰值的情况,但随着峰值数目的增加,表现逐渐变差,如图21所示。这可能是由于5D情况下搜索点数不足造成的。相比之下,AAIS-t方法在峰值数量增长时依然保持稳定,如图22所示。AAIS-t方法的𝐿₂相对误差始终保持较低,这归功于足够的搜索点提供,我们发现随着峰值数量的增加,AAIS-t方法的采样时间变化不大,这是由于学生t分布具有较强的搜索能力。
不同维度实验
接下来,我们保持峰值数为2,测试了RAD和AAIS-t方法在不同维度下的表现,结果如图23所示。RAD方法的𝐿₂相对误差随着维度的增加显著增加,而AAIS-t方法的误差保持稳定。然而,我们注意到在9D情况下,AAIS-t方法的误差明显增加,这可能与PINNs的设计有关。
总体而言,考虑这两个实验,RAD方法随着峰值和维度的增加表现变差,但AAIS-t方法在问题复杂性增加时能够保持稳定的性能。在表2中,随着维度的增加,采样时间也增长,尽管AAIS方法的计算成本远高于RAD方法,但为了在高维度下获得准确的结果,这一点是值得的。
5.3.4. 十五维单峰和双峰问题
在这一部分,我们在非常高维的情况下测试了我们提出的AAIS算法,中心点为(0, 0, ..., 0)(见图24)。网格点的大小与9D情况相同,神经网络结构为20个神经元,7个隐藏层,这适用于单峰解。在这里,我们设置𝑁𝑆 = 100000,因为GPU的内存限制。
训练过程中的相对误差和损失如图25所示,残差和节点分布如图26所示,解的行为和绝对误差如图27所示。可以看到,RAD方法失败,甚至无法找到残差较大的区域。我们提出的AAIS算法成功地解决了该问题,并能够在预训练后基于残差进行采样。然而,当损失变得更加稀疏时,由于搜索点的稀疏性,我们提出的算法也未能找到残差。
此外,我们还在双峰问题中应用了RAD和AAIS-t方法(精确解如图28所示),所有参数相同(除了𝑁𝑆 = 200000),错误和损失如图29所示,轮廓如图30所示。可以看到,RAD方法失败,但我们的采样方法能够获得令人满意的结果,并展示了该方法在解决高维多峰问题中的潜力。
6. 结论与未来工作
在本研究中,我们提出了一种用于物理信息神经网络(PINNs)的退火自适应重要性采样(AAIS)方法,包括高斯混合(AAIS-g)和学生t分布(AAIS-t)两种变体。受到期望最大化(EM)算法在有限混合模型中的启发,AAIS算法能够在特定的参数配置下有效地复制目标函数。我们还将基于残差的自适应分布(RAD)方法[20]和均匀采样方法集成到PINNs重采样框架中,提供了四种不同的采样策略。
此外,我们通过对多种二维偏微分方程(PDE)的实验,研究了这四种采样方法在重采样框架中的表现。通过观察残差和绝对误差频率的增加,我们直接验证了自适应采样相对于均匀采样方法(Uni)的有效性。这些观察结果与经验神经切线核(NTK)理论[12,35]的断言一致,该理论表明,PINNs往往首先学习低频部分的解。此外,我们提出的AAIS算法能够有效捕捉残差的奇异性和锐利度,得到的结果与RAD方法相当。
在实验过程中,我们发现解的性能还依赖于PINNs的结构,这意味着我们可以通过精心设计模型和训练方法来提升性能,关于如何在高维度问题中通过PINNs训练来解决这一问题的详细讨论见[37]。我们提出的AAIS算法在实现和应用方面具有重要潜力,这是我们未来研究的方向。AAIS方法可以轻松扩展到高维度PDE问题,并与[27]中概述的其他训练方法相结合。此外,AAIS算法在逆问题中的表现也需要进一步验证。某些PDE(如KdV方程(A.3))中自适应采样方法的局限性也需要进一步探讨。
展望未来,我们计划进一步利用AAIS算法的优势,包括通过参数调优在高质量模拟行为和低计算成本之间找到平衡,探索并行计算架构,以及实验更复杂的混合模型。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!