解密物理信息神经网络的优化过程:PINNs 的准确性与竞争力究竟如何?
Unveiling the optimization process of Physics Informed Neural
Networks: How accurate and competitive can PINNs be?
摘要
本研究探讨了基于物理信息的神经网络(Physics-Informed Neural Networks, PINNs)的潜在精度边界,并将其方法与先前类似工作及传统数值方法进行对比。研究发现,选择改进的优化算法能够显著提升结果的精度。同时,对损失函数进行简单修改也可提高精度,为进一步改进提供了额外的途径。尽管优化算法对收敛性的影响大于损失函数的调整,但由于实现简便,实践中往往更倾向于调整后者。在全局范围内,结合改进的优化算法和适度调整的损失函数,可以使损失函数在各种物理问题上降低几个数量级。因此,使用小型网络(通常由 2 至 3 层、每层包含 20-30 个神经元)得到的结果,其精度可与采用数千个网格点的有限差分方法相媲美。本研究鼓励持续推动 PINNs 及相关优化技术的发展,以期在多个领域获得更广泛的应用。
关键词:
物理信息神经网络,优化算法,非线性偏微分方程
1. 引言
近年来,基于物理信息的神经网络(Physics-Informed Neural Networks, PINNs)的发展,使其在计算物理领域成为强有力的竞争者,打破了长期以来由经典数值方法主导的局面。这种颠覆性的潜力源于 PINNs 将领域特定的物理原则与神经网络强大的学习能力相结合的天生优势。然而,尽管 PINNs 显示出巨大的潜力,这一领域尚处于起步阶段,文献中仍存在许多关于其性能的显著空白。特别是在准确性和效率方面,缺乏严谨的数学分析和具体的方法论常常掩盖了其局限性的重要见解。
尽管 PINNs 在复杂物理系统中的适应能力令人瞩目,并已在多个领域取得了令人关注的成果,其效果却受到多种关键因素的影响,值得深入研究。其中,神经网络的架构设计是一个重要方面,它直接影响网络准确捕捉复杂物理现象的能力。此外,损失函数和优化技术的选择也在 PINNs 的整体性能中扮演了关键角色。与此同时,训练大规模 PINNs 的计算开销也引发了关于其可扩展性和效率的质疑,尤其是相较于经过数十年优化的传统数值方法。
要解决这些挑战,需要研究者协同努力,建立全面的基准测试、标准化的评估指标和理论框架,以揭示 PINNs 行为的基本原理。唯有通过严谨的分析和系统的实验,才能充分挖掘 PINNs 的潜力,使其成为解决复杂物理问题的可靠工具,并应用于包括流体力学、固体力学和量子物理在内的多个领域。
认识到目前 PINNs 文献中以试错法为主的局限性,本研究旨在深入理解定义其性能的基本因素。从本质上讲,PINNs 的训练归结为一个优化问题,这促使我们重新审视优化理论的基础。我们探索了 PINNs 优化的一些复杂性,力图识别限制其在各种物理应用中精度的瓶颈。我们的关注点超越了网络规模、架构、激活函数或其他超参数的调整,而是认为最重要的因素可能是支配优化过程的基本原理。通过探索不同的优化技术,我们试图界定 PINNs 在多种物理场景中可实现精度的边界,并重点关注优化器选择在确定 PINNs 解的精度和效率方面的关键作用。
在我们的研究中,我们证明了一些看似微小的优化过程修改可以显著提升精度,提升幅度通常跨越数个数量级。通过精心选择优化器,我们获得了更高精度的解,同时还能减小网络规模,从而显著减少计算开销。这种聚焦于优化的研究方法不仅提高了精度,还节省了计算资源,为更快、更高效的 PINNs 仿真铺平了道路,并增强了其在不同物理和工程领域中的可扩展性和适用性。
论文结构如下:
第 2 节简要概述了我们的 PINN 框架,并讨论了常用优化器相关的关键问题;第 3 节深入分析一个相对简单的案例,展示选择适当优化器的重要影响,以及如何通过优化器选择最小化网络规模,同时取得优异的结果,超越了此前类似问题研究的成果;第 4 节则提供了一组涵盖多个领域的物理问题,表明前一节中的见解可以扩展到多种问题;最后,第 5 节总结了我们的研究发现,并概述了未来可能的改进方向。
2. PINNs 方法总结
在某个定义域 上,给定一组坐标 ,一个描述物理系统状态 的通用偏微分方程(PDE)可以表示为:
其中 是非线性微分算子, 是源项。PINNs 方法(由 [1] 和 [2] 提出)通过寻找一个神经网络近似解 来解决这一问题。此处, 表示神经网络的参数集(即权重和偏置),它通过优化过程逐步调整,以最小化一个反映方程 (1) 满足程度的全局损失函数 。通常,损失函数定义为在大量点 上的残差均方误差(MSE):
为了完整地描述物理系统,还需要在边界 上施加边界条件。在涉及狄利克雷(Dirichlet)或周期性边界条件时,我们通过所谓的 强制满足(hard-enforcement) 来施加边界条件 [1, 3, 4, 5]。这意味着我们重新定义解的形式,使得边界条件独立于 PINN 的输出而得到满足。例如,对于狄利克雷边界条件,可通过以下方式重新定义解:
其中, 是满足狄利克雷边界条件(当 时)的任何平滑函数, 是一个当 时为零的平滑函数, 是 PINN 的输出。
对于周期性边界条件,也可以通过强制满足的方法实现。例如,设 和 分别为边界 上施加狄利克雷和周期性边界条件的子集,则可以重新定义解为:
这样,解 在所有边界上具有所需的行为:在 边界上,狄利克雷条件由于 而得到满足;在 边界上,周期性条件通过将坐标传递到傅里叶基实现。
对于诺依曼(Neumann)或罗宾(Robin)边界条件,尽管强制满足也是可能的,但其实现往往较为复杂,表达式也可能变得冗长。在这种情况下,可以采用 弱满足(soft-enforcement) 方法,即在损失函数 (2) 中添加一个额外项,以考虑边界上采样点的残差。
损失函数 是参数 的多维标量函数,其最小化需要一个强大的优化算法,在每个训练迭代中更新参数。PINNs 文献中两种常用的优化算法是 Adam [6] 和 BFGS [7, 8, 9, 10]。
Adam 优化器:在各种机器学习应用和 PINNs 训练中始终是基础组件。 BFGS 优化器:尤其是其低内存变体 L-BFGS [11],能够在显著更少的迭代次数内实现更高的精度,但容易陷入鞍点。
目前的最佳训练方案通常结合这两种优化器:在初始迭代中使用 Adam 来更好地处理可能存在的鞍点,然后切换到 BFGS 或 L-BFGS 以加速收敛。
2.1 优化过程的简要回顾
在此,我们回顾一下优化理论的基本概念。前述的两种优化器(Adam 和 BFGS)都可以归入 线搜索方法(Line Search methods) 的一般范畴 [12],其迭代过程如下:
其中, 是修正步的方向,依赖于损失函数的梯度和一个对称矩阵 :
是步长,具体取值因方法而异。参数 的选择需要权衡:既要确保局部梯度估计的准确性和损失函数的有效下降,又不能因为过小的步长阻碍收敛。
梯度下降法与扩展
最简单的情况是 梯度下降法(Gradient Descent Algorithm),此时 (单位矩阵), 为固定的小正数,具有线性收敛性质。Adam 优化器可以看作是梯度下降的改进版本,其中 , 的具体计算基于参数的变化,它具有更好的收敛性能,但仍然是线性收敛。
牛顿法与准牛顿法
牛顿法(Newton's Method): 当 是损失函数 的 Hessian 矩阵的精确逆矩阵时,可以得到牛顿法。牛顿法是一种二阶方法,能够在极少的迭代次数内收敛,但每次迭代的计算成本较高,因为需要显式计算损失函数的二阶导数并求解高维矩阵的逆。
准牛顿法(Quasi-Newton Methods): 介于梯度下降和牛顿法之间。它通过对 Hessian 矩阵逆矩阵的某种近似,只需损失函数的一阶导数,并仅涉及矩阵-向量乘法,从而实现 超线性收敛(但未达到二次收敛)。这些方法的计算成本远低于牛顿法。
步长选择与线搜索
步长 通常通过 不精确线搜索(Inexact Line Search) 方法选择,以保持 的正定性。一个典型的限制条件是 Wolfe 条件(Wolfe Conditions) [13]。
自标度 Broyden 公式
准牛顿迭代算法的一般形式可以通过 自标度 Broyden 公式(Self-scaled Broyden Formula) 表达。定义辅助变量:
则每次迭代后 Hessian 矩阵逆矩阵的近似可以通过以下公式更新 [14, 15]:
其中, 表示向量的张量积, 和 分别为缩放参数和更新参数,一般情况下每次迭代可能变化。
当 且 时,公式退化为标准 BFGS 算法。 不同的参数值定义了其他方法,我们将在后续章节中详细探讨这些变化。
3. 案例研究:中子星磁层
我们现在聚焦于非旋转轴对称条件下的无力中子星磁层问题,作为一个基准案例。该问题在 [16] 中已被详细研究,展示了 PINN 方法在此特定天体物理场景中的潜力。在此基础上,我们重新审视这一研究,以强调优化算法选择对性能的显著影响。尽管该问题的理论背景可在上述文献中找到,本文为完整性起见,将对核心概念和方程进行简要概述。
3.1 坐标与磁场描述
为了简化问题,我们使用紧致化球坐标系 ,其中 和 ,并引入无量纲单位 (恒星半径)和 (偶极分量赤道处的表面磁场)。在轴对称条件下,磁场 可以用两组流函数 和 来描述:
其中 是 方向的单位向量。
将上述表达式代入无力条件 后,可以得到以下方程:
这意味着 ,并进一步导出了著名的 Grad-Shafranov 方程:
其中,二阶微分算子 定义为:
3.2 无电流 Grad-Shafranov 方程(CFGS)
我们首先考虑一个无电流磁层,即 。此时,方程 (13) 的解析解为:
其中, 是由表面边界条件确定的系数, 是勒让德多项式的导数。
虽然这是一个相对简单的问题,但通过分析它并与解析解比较,可以为优化过程得出宝贵的结论。问题的复杂性取决于公式 (17) 中考虑的多极数目,即非零系数 的数量。相比于更复杂的解,简单解可以使用较少的可训练参数达到相同的精度。
为了说明这一点,我们专注于偶极-四极解(即 ,而 )。随后,我们将扩展这些发现,以涵盖更广泛的无力解和各种问题类型。
3.1.1 优化算法的影响
本文的网络架构与训练超参数如表 1 所示。我们使用了四种不同的优化更新方法来解决问题:Adam、BFGS、自标度 BFGS(SSBFGS)以及自标度 Broyden(SSBroyden)。前两种方法通常用于大多数 PINN 应用,而后两种方法是对公式 (10) 的特定参数 和 的调整。它们可以被看作是对 BFGS 公式的修改,而非独立的新优化器。“自标度” 表示 ,是通过一个缩放因子乘以逆 Hessian 矩阵近似值 ,而 “Broyden” 方法假设 。
SSBFGS 的参数选择
对于 SSBFGS,我们采用文献 [17] 中建议的参数选择:
SSBroyden 的参数选择
对于 SSBroyden,我们采用文献 [15] 中的参数选择:
其中, 为可训练参数的总数,、 和 为中间辅助变量,定义详见附录 B。
损失函数收敛的影响
图 1 展示了四种优化器的损失函数随迭代次数的变化。在所有情况下,我们均在初始训练阶段使用 Adam,以避开可能的鞍点并接近全局最小值,然后通过准牛顿法加速收敛。
Adam:相比于其他方法,Adam 的收敛较慢。 BFGS:损失函数比 Adam 减小了 6 个数量级。 SSBFGS 和 SSBroyden:相较于 BFGS,进一步分别减小了 2 和 3 个数量级。
表 C.4 展示了对解 和磁场分量(依赖于 的一阶导数)的绝对和相对误差。详细的误差分析请参考附录 C。
损失函数病态特性的解释
该现象的原因可归结为损失函数 的 病态缩放(ill-scaling),导致 Hessian 矩阵 在接近最小值时病态(ill-conditioned)。这种特性是由基于微分算子定义损失函数的 PINN 配置所固有的 [21, 22]。
Hessian 的特征值谱,如图 2 所示,展现了宽广的特征值分布,大量特征值接近 0,而一些离群值则表现出较大的幅度。条件数 定义为:
其中 和 分别为最大和最小特征值。在此问题中,,表明 严重病态。这意味着在参数空间 中,不同方向对损失函数的影响差异极大,导致类似 “长谷地” 的现象:某些方向具有陡峭的梯度,而其他方向则相对平坦。
准牛顿法的优势
准牛顿法利用 Hessian 的局部曲率信息,能够识别更优的下降方向。虽然标准 BFGS 在病态条件下仍可能表现不佳,但自标度方法通过对损失函数进行 预条件化(preconditioning) 提供了改进。通过近似逆 Hessian 矩阵,参数空间 被映射到新的空间 ,在该空间中,损失函数的条件数显著改善。
转换到 空间后,公式 (5) 可以表示为:
在新的 空间中,损失函数的地形更加均匀,没有明显的长谷地,梯度方向的步长能够更有效地接近最小值。
病态特性的影响
然而,当接近最小值时, 空间中的 Hessian 矩阵可能再次变得病态:
这解释了我们对标准 BFGS 方法进行改进的必要性。图 3 展示了在 空间中不同优化算法的 Hessian 光谱,表明标准 BFGS 在接近最小值时仍然病态,而改进的 BFGS 算法能够提供更好的条件数。这反映在所需的迭代次数上:BFGS 方法约需 40000 次迭代,而改进的 BFGS 方法仅需约 1000 次。
3.1.2 损失函数的影响
我们还可以通过略微修改常规的均方误差(MSE)损失函数 (2),研究其对优化过程的影响。具体来说,我们采用以下通用方法,通过一个用户定义的单调递增函数 计算损失函数:
与 和 对应的 Hessian 矩阵 和 的关系为:
在接近最小值时,由于 ,括号中的第二项可以忽略,因此两个 Hessian 矩阵成比例关系,比例系数为 。
两种改进的损失函数
两种显而易见的 选择为:
平方根损失函数:
对数损失函数:
由于平方根和自然对数的导数在 时大于 1,它们可能加速收敛。
实验设计与结果
我们使用三种不同的损失函数 、 和 对三个相同的网络进行训练,并采用标准 BFGS 优化器以排除优化器调整的影响。在训练中,Adam 阶段仍使用原始 MSE 损失 ,而在 BFGS 阶段切换到 。
图 4 展示了不同损失函数对收敛速度的影响。为了比较,我们在图中展示的是标准 MSE 损失 ,实际训练中使用了对应的 。结果表明,通过单调函数 计算损失,在其他条件相同的情况下,损失值降低了约两个数量级。相比 , 在接近最小值时斜率更大,因而收敛更快。这一优势在 PDE 解 及其导数的相对误差范数中更加明显,详见表 C.5。
收敛改进的原因
正如前一节所述,这种改进可以归因于 Hessian 矩阵条件数的改善。尽管所有实验使用相同的优化算法,但由于最小化的损失函数不同,每次迭代的逆 Hessian 近似值也有所变化。因此,预处理后的 Hessian 的条件数 取决于 的选择。
从图 5 中的特征值谱可以看出,相较于 , 的条件数更小,更多特征值聚集在 1 附近,且大多数特征值集中在更高的范围。这些特性表明 Hessian 矩阵更优的条件数,从而解释了其更好的性能。同样的结论适用于 。
损失函数修改与优化器的结合
损失函数的修改可以与优化算法的选择相结合。在我们探索的范围内,优化算法的选择对收敛的影响更为显著。然而,从实践的角度看,修改损失函数比调整现有优化器或开发新优化器要简单得多。
图 6 展示了在结合最佳优化算法和改进损失函数后的总体表现提升,进一步说明了优化器和损失函数改进的互补作用。
3.2 非线性无力解与高阶多极矩 (NLGS)
到目前为止,我们主要关注的是一个相对简单的线性问题,目的是展示优化过程的改进如何显著提高解的精度。接下来,我们将展示这些结果如何很好地推广到更复杂的 Grad-Shafranov 方程解中。
我们通过引入一个类似于 [26] 中选取的托罗伊德函数的形式,并对负值 进行了广义化,来构建非线性无力磁层模型。该函数定义为:
其中,参数 分别控制托罗伊德和极向磁场的相对强度、电流区域的范围以及模型的非线性程度。在恒星表面,边界条件由八个多极矩组成,即方程 (15) 中 。
非线性和高度多极化结构的引入显著增加了解的复杂性。因此,需要更大的网络和更多的可训练参数来达到可比较的精度。然而,由于优化的高效性,即使对于此问题,我们也能够将网络规模保持在相对较小的水平。表 1 中列出了训练和网络架构的超参数。
误差估计方法
对于非线性 Grad-Shafranov 方程,并不存在解析解,因此无法通过直接比较来计算误差。我们采用 [16] 中介绍的方法:
在规则网格 上进行正向计算,评估 PINN 解 的所有点值。 使用二阶有限差分格式离散化方程 (13)。 若 是方程的精确解,离散化 PDE 的 误差 应随网格分辨率增加而减少,满足 。
由于 是 PINN 的近似解,存在一个内在误差 。当 降低到与 同一量级时, 将停滞不前。这一现象可用来间接评估 PINN 的精度。
结果分析
图 8 展示了 BFGS 修改(顶部)和损失函数修改(底部)的性能表现:
左图:损失函数随迭代次数的演变。 右图:离散化 PDE 的 误差 与网格点数 的关系。
对于此复杂问题,优化改进在收敛性和精度上的提升与第 3.1 节中的简单问题类似。
误差表现:
使用标准 BFGS 优化器训练的 PINN,误差约为 。 SSBFGS 和 SSBroyden 显著降低了误差,达到更高的精度水平。 在分辨率约为 时, 超过了 ,接近了机器的内存限制。
绝对误差:
由于离散化方案为二阶,PDE 的绝对误差为 。
表 C.6 汇总了我们使用的所有 BFGS 算法和损失函数修改的详细误差指标。对于此二维问题,若使用二阶有限差分方法,达到可比的精度水平()至少需要 的网格点。在高维问题中,PINNs 的优势将更加明显。
3.3 参数研究
此前介绍的优化器和损失函数的改进可能依赖于网络的规模。因此,我们进一步进行超参数研究,探索 PINN 近似的精度如何随每层神经元的数量或隐藏层的数量变化。
网络规模对精度的影响
在每个模型中,我们固定训练点数量、迭代次数等设置。图 9 展示了不同情况下的 (PINN 误差)与每层神经元数量的关系,研究了以下组合的性能表现:
使用 SSBroyden 优化器和标准损失函数 。 使用 BFGS 优化器和对数损失函数 。 使用 BFGS 优化器和标准损失函数 (作为基准)。
对于仅包含一层的简单网络,这些调整对精度的影响较小。然而,对于包含 2-3 层的网络,当神经元数量达到一定阈值时,精度显著提升。尽管简单增加网络参数能够逐步降低误差,我们提出的优化改进显著加快了误差下降。这表明优化过程的改进比单纯增大网络规模更为重要。
优化器与损失函数的相对影响
图 9 的右图表明,优化器的影响略高于损失函数的重新定义。但值得注意的是,调整损失函数仅需更改一行代码,实施非常简单。
结论
对于此特定问题,包含 2 或 3 个隐藏层、每层约 30-40 个神经元的网络能够实现非常高的精度。在下一节中,我们将展示类似规模的网络能够在受不同方程控制的各种物理应用中实现类似的精度。
4. 其他物理问题
优化过程的分析及其对优化器或损失函数修改的受益并非特定于中子星磁层问题。为了展示其广泛的有效性,我们研究了不同领域中涉及各种 PDE 的问题。这些问题涵盖了以下特点:
高阶导数; 更多维度; 各种非线性程度; 时间相关性; 多方程系统。
分析方法
对于每种情况,我们简要描述每个 PDE 及其应用背景,并根据第 2 节的符号规范制定问题的数学形式。网络架构和训练超参数见表 2。
图 11 显示了所有问题的损失函数随迭代次数的演变,进一步证明了第 3 节所述发现的普适性。所有案例中,初始训练阶段(10000 次迭代)使用 Adam 优化器和标准 MSE 损失 。之后切换到以下两种优化组合之一:
使用 BFGS 优化器与对数损失函数 。 使用 SSBroyden 优化器与标准损失函数 。
非线性泊松方程(NLP)
我们解决了包含非线性(指数)项的泊松方程 [27]:
当 时,该方程在微分几何中称为 Liouville 方程; 应用于水动力学(描述稳态流的平均场涡量 [28, 29])以及量子场论(Chern-Simons 理论 [30, 31])。
为构造损失函数 (2),我们设 ,,其中 被选为使
成为 PDE 的解。我们在笛卡尔坐标 上解决该问题,施加狄利克雷边界条件:
通过以下定义可以强制实现边界条件:
文献 [27] 研究了最简单的情况()。我们将 提高到 ,以引入更显著的振荡行为,从而对求解器提出更高挑战。
非线性薛定谔方程 (NLS)
方程形式
一维时间相关的薛定谔方程,在便捷单位下避免了 的影响,其形式为:
其中:
是虚数单位, 是非线性势, 是一个复值函数,可表示为 。
将 的实部和虚部分开后,薛定谔方程可以转化为以下非线性偏微分方程的耦合系统:
应用领域
非线性薛定谔方程描述了分散介质中非线性波包的动态行为,广泛应用于多个领域:
玻色-爱因斯坦凝聚:称为 Gross-Pitaevskii 方程 [32, 33]。 流体力学:用于模拟小振幅重力波 [34]。 超导与超流 [35, 36, 37]。 非线性光学:描述非线性光传播 [38]。
损失函数的构建
在 PINN 方法中,损失函数定义为两部分之和,基于方程 (2) 构建。对于该系统,我们识别出以下部分:
对于方程 (38):
, 。
对于方程 (39):
, 。
非线性薛定谔方程是研究具有非线性交互作用波动态行为的重要工具。若需进一步分析或相关帮助,请随时告知!
Kortweg-de Vries 方程 (KdV)
方程形式
Kortweg-de Vries 方程描述非线性弥散波(如浅水波或等离子体波)的动态行为,其形式为:
其中:
是常数,文献中的标准值为 。
特性与应用
Kortweg-de Vries 方程描述浅水波或等离子体波的非线性弥散行为 [39]。 它揭示了控制这些波现象的基本原理,并在多个领域得到广泛应用,例如: 流体力学; 等离子体物理 [40]; 非线性光学 [41]。 方程包含重要的非线性项(如 Burgers-like)和三阶导数,是一个重要的鲁棒测试模型。
两孤子解
我们研究了一个相对复杂的解,即两孤子解,其形式为:
其中:
, 和 是任意常数,分别描述孤子的速度和初始位置。
初始条件与边界条件
通过以下方式施加初始和边界条件:
初始条件:
边界条件:
其中:
是空间区域的大小, , , , 是适当选择的函数,用于生成解析解 (43)。
损失函数构建
我们使用以下形式构建损失函数:
基于方程 (2) 的损失函数 ,设:
其中 。
狄利克雷边界条件通过以下定义强制实现:
Neumann 边界条件(方程 47)通过损失函数的弱施加(soft-enforcement)方式引入,其最终损失函数定义为:
其中:
是基于 PDE 的损失, 是用于平衡两部分损失的超参数, 是边界点的数量。
孤子相互作用
我们选择了如下初始条件:
两个孤子初始位置 , 初始速度 ,且 。
在模拟中,孤子会发生碰撞,引发非线性相互作用。碰撞后,孤子将以各自的速度分别传播,呈现为波的线性叠加。
图 10 显示了解的四个快照以便观察这种演化。损失函数和误差估计结果可以参见 图 11c 和 表 C.9。
3D Navier-Stokes 方程:Beltrami 流 (3DNS)
方程形式
Beltrami 流是流体力学中一个特殊的情况,其中涡量向量 与速度向量 平行。对于不可压缩流体,满足以下 Navier-Stokes 方程:
其中:
是压力, 是常量密度, 是动力粘度系数。
该系统包含四个变量:速度向量的三个分量 和压力 。
解析解
在笛卡尔坐标系 中,Beltrami 流的三维速度分量可以表示为:
其中 为任意常数。
压力的解可以表示为:
损失函数构建
通过以下方式构建损失函数:
对于方程 (51) 的每个分量:
对于方程 (52):
边界条件
对速度向量 的三个分量施加 Dirichlet 边界条件。以 为例,定义如下:
空间域 :
边界函数 和 可通过以下形式定义:
其中 定义为:
压力条件
对压力仅需在单个空间点 指定值以消除模糊性,因为可以任意添加时间函数 到 而不改变系统。
结果分析
损失函数和误差估计结果见 图 11d 和 表 C.10。
与文献的比较
表 3 提供了本研究与现有文献中的类似问题的对比。以下是主要观察:
BFGS 优化器在小规模网络上表现优于 L-BFGS。 尽管 L-BFGS 训练速度快,但其收敛速率较慢,且需要更大的网络才能达到相同精度。 对 BFGS 算法或损失函数的调整显著提升了性能,使损失函数在相同训练时间内下降多个数量级。
详细结果见图 12 和图 13。
5. 结论
在本研究中,我们探讨了物理信息神经网络(PINNs)可实现的精度边界。与传统方法相比,PINNs 这一新兴领域缺乏经过数十年积累的坚实数学基础(该基础能够提供方法的阶数和精度约束等洞见),通常依赖于试错法的蛮力策略。我们强调了优化算法在实现稳健收敛中的关键作用,无论具体的物理问题为何。此外,我们展示了适当选择优化方法可以显著提升结果精度,幅度可达多个数量级,并且不受特定物理问题的限制。
在准牛顿方法家族中,每种算法的收敛速度与对应 Hessian 矩阵 的条件性息息相关。我们证明,当 的特征值谱集中在 1 附近且分散性较小时,优化过程能够高效地最小化损失函数,从而得到高精度解。类似的效果也可以通过采用改进的损失函数 (而非常规的 MSE 损失)实现。损失函数的修改可以与优化算法的选择相结合,便于探索不同组合的潜力。研究表明,优化算法的选择通常对收敛的影响大于损失函数的调整。然而,在实际应用中,由于实现简单,调整损失函数可能更加可取:修改损失函数往往比更改现有优化器或全新设计优化器要容易得多。
随着 PINNs 领域的不断发展,对神经网络训练背后的优化过程有了更深入的理解,预计更加复杂的算法将很快在主流机器学习框架中普及。本研究也希望鼓励开发者朝这一方向努力。
优化过程的改进还带来了 PINNs 中网络规模和复杂性的显著降低。通过一系列基准测试,我们展示了如何用更小的网络规模和更高的精度解决文献中的各种问题(见表 3)。这提高了数值效率,并针对 PINNs 相较于传统数值方法的关键弱点提供了解决方案。
本研究中的所有模拟均在标准 PC 或普通笔记本电脑上完成,无需任何特殊硬件支持。尽管激活函数和网络结构等超参数的改进也可以提供进一步帮助,但我们的主要发现突出了改进优化器和重新缩放损失函数的重要性。随着问题维度的增加,特别是针对大规模问题时,这一效果预计将更加显著。
目前,PINNs 中最常用的优化器是 L-BFGS 算法,它是 BFGS 的更快迭代版本,但在病态条件下表现更差。因此,L-BFGS 需要更多的可训练参数来获得类似精度的结果。作为未来工作,我们将探索优化理论文献中针对 L-BFGS 算法的不同改进如何影响 PINNs 的收敛性。
💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~
💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!