PI-MLSM: 结合元学习、物理信息和神经网络方法实现数据高效的代理建模

文摘   2024-10-16 20:32   北京  
最近不少道友后台反馈说收不到公众号的推文,我查了相关规则发现,微信公众号发布了新规则,只有点亮小星星才能第一时间收到文章推送,步骤如下:

点击上方蓝字关注我吧!

使用元学习和物理信息深度学习方法实现数据高效的代理建模

Data-efficient surrogate modeling using meta-learning and physics-informed deep learning approaches


关键词:

代理建模,物理信息深度学习,元学习,知识迁移,领域适应


摘要

本文提出了一种基于物理信息的元学习替代建模(PI-MLSM)的新方法,这是一种将元学习和物理信息深度学习相结合的创新方法,用于在有限标记数据的情况下训练替代模型。PI-MLSM包括两个阶段:元学习和物理信息任务适应。通过四个数值示例证明,该方法在减少预测误差和提高可靠性分析方面优于其他方法,展示了其稳健性,并在优化过程中减少了标记数据的需求。此外,与其他方法相比,该方法在解决分布外任务时表现出更好的性能。尽管本文承认了物理信息的主观性等局限性和挑战,但它强调了PI-MLSM的关键贡献,包括其在解决广泛任务方面的有效性,以及在物理定律不明确的情况下处理问题的能力。总体而言,PI-MLSM展示了作为替代建模的一种强大且多功能方法的潜力。

图1. 物理信息深度学习的整体机制。神经网络模型产生近似解,并使用标记数据计算数据驱动的损失。接下来,通过计算近似解的导数,使用控制方程计算物理信息损失。总损失计算为数据驱动损失和物理信息损失的加权和,本研究中权重设置为1.0。最后,使用总损失来更新模型。


1. 引言

近年来,计算技术的快速进步导致了计算机模拟在物理和工程系统建模中的广泛应用。这些模拟对于准确预测多个现实世界系统的行为至关重要,并提供了有价值的见解。然而,获得可靠结果通常需要高保真模拟,这可能会导致巨大的计算成本。替代建模可以代替计算开销高昂的模拟,同时在预测中保持高度的准确性(Kim, Choi, Widemann和Zohdi,2022)。值得注意的是,使用有限次数的模拟训练的替代模型可以用于新输入的输出预测,从而显著降低计算负担,并使设计空间的探索更为高效。因此,替代建模在工程领域的各种应用中是一种宝贵的工具,如优化(Albanesi, Roman, Bre, & Fachinotti, 2018; Eisenhower, O’Neill, Narayanan, Fonoberov, & Mezić, 2012; Forrester & Keane, 2009; Kim & Boukouvala, 2020; Regis, 2014)、不确定性量化(Dey, Mukhopadhyay, & Adhikari, 2018; Manfren, Aste, & Moshksar, 2013; Volpi et al., 2015)、敏感性分析(Chen, Izady, Abdalla, & Amerjeed, 2018; Hou, Lu, & Chen, 2016; Li, Wang, & Jia, 2020)和可靠性分析(Dubourg, Sudret, & Deheeger, 2013; Echard, Gayton, & Lemaire, 2011; Jiang et al., 2019; Lieu et al., 2022; Zuniga, Murangira, & Perdrizet, 2021),从而实现快速和高效的预测。

图2. 所提出方法的整体机制。该方法包括两个阶段:元学习和物理信息任务适应。在元学习阶段,从源任务家族中提取元知识,这些知识用于物理信息适应阶段的模型初始化。在本研究中,“任务”被定义为学习单一系统的替代模型。

为了近似复杂的函数,各种建模技术如高斯过程(Moravej, Chan, Nguyen, & Jesus, 2019; Wang et al., 2021; Yuan & Nian, 2018)、克里金法(Kleijnen, 2017; Zhang, Xiao, Gao, & Fu, 2018; Zhao, Yue, Liu, Gao, & Zhang, 2015)、神经网络(Eason & Cremaschi, 2014; Neftci, Mostafa, & Zenke, 2019; White, Arrighi, Kudo, & Watts, 2019; Zenke & Vogels, 2021)、支持向量回归(Ciccazzo, Pillo, & Latorre, 2014; Davidson & Waas, 2018; Mao, Wang, Duan, & Men, 2022)以及响应面方法(Babaei, Norouzi, Nick, & Gluyas, 2022; Fan, Huang, & Wang, 2014; Rafiee & Faiz, 2019)都被有效地用作替代模型。在这些方法中,神经网络因其在深度学习和深度神经网络在计算机视觉(He, Zhang, Ren, & Sun, 2015; Ronneberger, Fischer, & Brox, 2015; Simonyan & Zisserman, 2014)、自然语言处理(Brown et al., 2020; Devlin, Chang, Lee, & Toutanova, 2018; Vaswani et al., 2017)和图像生成(Karras, Laine, & Aila, 2021; Rombach, Blattmann, Lorenz, Esser, & Ommer, 2021)等任务中的成功应用,而获得了显著关注。然而,有效训练深度神经网络通常需要大量标记数据(Sung et al., 2018; Wang, Yao, Kwok, & Ni, 2020)。这在模拟计算成本高昂的情况下可能会带来挑战。因此,有必要深入研究减少训练替代模型所需的标记数据量的方法。

因此,识别减少标记数据量的策略是深度学习中的一个关键问题,因为获取和标记高质量数据既费时又昂贵(Misra & van der Maaten, 2020)。在本研究中,我们集中讨论两种解决这一挑战的方法:元学习和物理信息深度学习。元学习涉及在一系列相似的任务上训练模型,使其能够利用少量示例快速适应新任务;在这里,任务的相似性通常没有定量标准(Finn, Rajeswaran, Kakade, & Levine, 2019; Nichol, Achiam, & Schulman, 2018)。模型学习到的元知识包括学习新任务的信息,如超参数(Franceschi, Frasconi, Salzo, Grazzi, & Pontil, 2018)、网络架构(Liu, Simonyan, & Yang, 2018; Real, Aggarwal, Huang, & Le, 2019; Zoph & Le, 2016)、损失函数(Bechtle et al., 2021; Psaros, Kawaguchi, & Karniadakis, 2022a)和初始化点(Finn, Abbeel, & Levine, 2017; Nichol et al., 2018; Rajeswaran, Finn, Kakade, & Levine, 2019),而不仅仅是简单地记住训练数据。该元知识可以应用于新任务,使模型能够通过少量示例学习,称为少样本学习。

在物理信息深度学习中,深度学习模型通过将物理定律融入训练过程中,来解决物理问题(Karniadakis et al., 2021; Li & Zhang, 2022)。这种方法利用深度学习的力量来识别数据中的复杂关系,并利用物理约束的知识来生成符合物理实际的解决方案(Sun, Gao, Pan, & Wang, 2020)。物理定律的使用有助于优化数据效率并提高结果的准确性(Kashinath et al., 2021; Raissi, Perdikaris, & Karniadakis, 2017)。物理信息深度学习结合了深度学习和基于物理的模型的优势,使其成为解决数据有限问题的有前途的方法。

先前的相关研究表明,知识迁移技术如元学习(Cheng, Dang, Frangopol, Beer, & Yuan, 2022; Finn et al., 2017; Snell, Swersky, & Zemel, 2017)或迁移学习(Alhashim & Wonka, 2018; Howard & Ruder, 2018; Reimers & Gurevych, 2019; Tan & Le, 2019)在减少所需标记数据量并提高学习新任务的性能方面是有效的。此外,在替代建模和系统识别中,一些研究应用了元学习和物理信息机器学习来从相似的系统中学习元知识(Chakrabarty, Wichern, & Laughman, 2022; Chen, Duan, & Karniadakis, 2021; Huang et al., 2022; Liu, Zhang, Peng, Zhou, & Yao, 2022; Psaros, Kawaguchi, & Karniadakis, 2022b; Zhong, Wu, & Wang, 2023)。然而,训练中用于学习迁移知识的标记数据量通常被忽略。这些研究大多假设数据丰富,并且其模型使用了从大量标记数据中学习到的先验知识。然而,在现实中,为替代建模获取大量高质量标记数据可能是困难的。事实上,如果有大量标记数据可用,直接训练目标任务可能更为简单,从而减少了对元学习的需求。在此背景下,本研究的目的是通过使用元学习和物理信息深度学习,改进替代模型在标记数据有限的情况下的性能,以解决包括现实世界工程问题在内的各种应用。

本文提出的方法称为基于物理信息的元学习替代建模(PI-MLSM),其包含(1)通过元学习方法初始化模型权重,以及(2)利用表达为导数的物理信息来指导学习过程。通过几个数值示例的结果表明,该方法可以准确地学习给定的物理系统,并可以应用于实际应用,如可靠性分析或设计优化,同时其性能优于从头开始训练的模型或使用元学习权重初始化但未使用物理信息约束进行训练的模型。

本文的其余部分安排如下:第2节概述了我们提出方法的机制。第3节解释了该方法的应用背景。第4节讨论了该方法的数值示例。第5节给出了本文的结论。


2. 基于物理信息的元学习替代建模(PI-MLSM)

2.1 物理科学中替代建模挑战的概述

在传统的替代建模实践中,通常为每个独特的任务从头创建一个新模型。例如,如果需要进行结构分析,则使用来自实际模拟的标记数据构建一个针对该任务的替代模型。值得注意的是,如果只需要一个模型,那么从头开始并不成问题。然而,当需要为变量或参数略有不同的相似任务构建多个模型时,获取足够的标记数据成为一项挑战,尤其是对于具有大量参数的深度学习模型。在诸如物理和工程等领域,数据获取往往涉及昂贵的实验或广泛的计算模拟,这成为了一个相当大的障碍(Karniadakis et al., 2021)。例如,如果我们对一根梁结构进行可靠性分析,其中输入变量如负载、材料强度和截面会有所变化,则需要大量来自实际模拟的标记数据来训练每个独特配置的模型。

在本研究中,标记数据包括坐标数据以及相应的测量或观察。例如,在结构分析中,数据可能包括在特定负载下的位移、应力或应变测量值,用于模型训练。这些点形成了监督损失函数的真实值,使得模型在遵循已知物理定律的同时,能够在不同条件下准确预测系统行为。

2.2 替代建模任务的定义和范围

任务定义是元学习中用于训练元学习模型的一个关键方面,其精确形式取决于手头的问题。例如,在少样本分类中,任务可能涉及从个类中采样一个小集合;而在强化学习中,任务可能需要指定环境的状态空间、动作空间和奖励函数。在先前的研究中,元学习用于建模物理系统时,任务分布通常定义为系统的参数化控制方程。在这种方法中,单个任务定义为方程中参数的特定值。例如,Burgers方程包含表示粘性系数的参数,该参数在方程的动力学中起着关键作用(Caldwell, Wanless, & Cook, 1981)。因此,任务可以由定义,表示具有特定值的Burgers方程。从现在起,我们将"任务"定义为单个替代建模,具有捕捉系统行为的参数。

2.3 元学习在替代建模中的应用

可以通过元学习方法解决替代建模问题,元学习从特定任务分布中获取元知识。元学习在替代建模中特别有用,因为它允许从具有不同设置但属于同一系统的相似任务中提取元知识。通过将这种元知识融入替代模型训练中,所得到的模型在数据效率和性能上都优于从头开始训练的模型。元学习方法包括在不同任务上训练模型,每个任务都有相应的训练数据。

元学习算法最初用于从给定的任务家族中提取有效的模型初始化权重。在各种元学习算法中,我们选择了与模型架构无关的元学习(MAML)算法,因为它可以与任何类型的模型架构结合使用。MAML采用双层优化的概念,包括“外层”优化和“内层”优化来训练模型。外层优化基于其在一组任务上的表现来更新模型的初始化权重。内层优化涉及使用从外层优化步骤获得的初始化的小步适应特定任务。然而,原始MAML解决双层优化问题时需要计算二阶梯度,这使得计算开销较大。

为了解决这一问题,我们实现了一阶MAML(FO-MAML),该方法利用一阶梯度作为二阶梯度的近似,从而降低了算法的计算成本(Nichol et al., 2018)。与标准MAML依赖二阶梯度进行优化过程不同,FO-MAML通过使用一阶梯度简化了这一过程。这一近似显著降低了计算需求。主要的区别在于更新机制:MAML通过计算二阶导数来更新其元参数,从而捕捉到每个任务学习过程中学习轨迹的影响,而FO-MAML则省略了这些二阶项。这种简化意味着FO-MAML仅关注来自每个任务训练过程的直接梯度,而不考虑这些梯度如何影响学习轨迹。尽管进行了这种简化,FO-MAML仍然保留了MAML的核心原则——通过最少的训练快速适应多种任务,但它以更高的计算效率实现。此外,在内层优化过程中,我们将模型配置为使用单步训练,以避免随着内层步数增加而可能出现的梯度消失问题,从而进一步减少计算成本(Rajeswaran et al., 2019)。

2.4 物理信息深度学习在替代建模中的应用

在只有有限数据可用的情况下,我们引入了物理信息深度学习(PIDL)方法,作为元学习框架的补充方法。值得注意的是,PIDL通常只需要少量标记数据,甚至不需要标记数据即可学习物理系统,特别是在系统由已知物理定律明确定义的情况下(Karniadakis et al., 2021; Raissi, Perdikaris, & Karniadakis, 2019)。PIDL通过使用损失函数或架构将附加的物理知识融入模型中,结合标记数据,帮助模型学习物理系统(Kashinath et al., 2021; Kim, Hurley和Duarte, 2022; Mao, Jagtap, & Karniadakis, 2020)。先前使用PIDL技术的研究通过损失函数采用表示系统控制物理定律的偏微分方程(PDE)来表达导数。

理论上,PIDL可以通过将物理定律纳入损失函数来学习系统的物理行为,而无需任何标记数据。然而,研究表明,在物理定律之外结合标记数据能产生比仅依赖物理更好的结果。因此,在我们的方法中,我们同时使用标记数据和物理定律来训练模型。PIDL的整体机制如图1所示。

2.5 元学习与物理信息深度学习的结合

先前关于结合元学习和PIDL的研究主要集中在利用提取的元知识评估模型性能,尽管这些研究使用了大量数据(Chakrabarty et al., 2022; Chen et al., 2021; Huang et al., 2022; Liu et al., 2022; Psaros et al., 2022b; Zhong et al., 2023)。即使在替代建模中,通常也会忽略所需的数据量。因此,我们旨在探讨在数据充足的情况下,是否优先直接利用这些数据解决特定任务,还是利用这些数据提取元知识,然后应用这些元知识解决每个任务。此外,现实世界的问题往往需要有限数量的标记数据,因为生成这些数据的成本较高。为验证元学习方法在替代建模中的价值,我们提出了一种方法,该方法在标记数据有限的情况下,超越了为每个任务直接训练单个替代模型,特别是在只有少量标记数据可用时。

我们提出的方法PI-MLSM利用元学习算法获得的元知识作为替代模型的初始化权重,并将其与PIDL方法相结合,用来训练通过元学习初始化的模型,利用与物理系统相关的导数信息,无论控制PDE是否明确给出。通过结合PIDL和元学习方法,即使只有少量标记数据可用,也可以利用元知识和物理知识加速新替代模型的训练。

PI-MLSM方法中的损失函数是监督损失和物理信息损失的组合。监督损失部分来源于标记数据,通常是将模型预测与实际观察结果进行比较。物理信息损失则结合了物理系统的知识,通常通过表示控制物理定律的微分方程来实现。这种损失确保模型的预测符合已知的物理原则。任何损失函数都可以应用,但本研究中使用的是均方误差(MSE)函数。

为此,我们从计算域中随机采样点并计算这些点的导数。计算域指的是特定问题定义的区域。由于问题通常由描述物理现象的微分方程表示,可以说包含导数的微分方程反映了物理知识。利用导数,我们基于底层物理计算损失函数,通常以微分方程的形式表示。PI-MLSM的整体机制如图2所示。

2.6 提出方法的细节

提出的方法包括两个阶段:(1)元学习和(2)物理信息任务适应。首先,在元学习阶段,使用FO-MAML获得模型的初始化权重,该权重代表了从给定任务家族中提取的元知识。随后,在物理信息任务适应阶段,会出现一个新任务,该任务在元学习阶段未曾遇到,但从用于元学习的任务分布中采样。通过训练以(通过FO-MAML学习的模型初始化权重)初始化的深度神经网络,使用到达的特定任务的标记数据和物理信息,获取该任务的最优模型权重

更新任务分布的元学习过程包括以下四个步骤(算法1):

  1. 数据集: 从任务分布中采样个任务()。每个任务包括一个支持数据集和一个查询数据集。支持数据集用于适应给定任务(内环),而查询数据集用于更新元参数(外环)。支持集有个数据,查询集有个数据。通常,相同,但它们不必相同。

  2. 适应(内环): 对于采样的每个任务),从权重开始训练替代模型,进行单次梯度下降以获取适应后的模型权重。仅使用支持数据适应任务。适应过程如下:

    其中,是内环的学习率。

  3. 评估: 使用权重的适应模型在任务的查询集上进行评估,并计算损失。然后将所有任务()的损失加起来,计算元损失。

  4. 元优化(外环): 更新以最小化元损失,即所有任务的平均损失。使用一阶梯度完成此操作,仅使用查询数据进行元优化。

    其中,是外环的学习率。

需要注意的是,在元学习阶段,该方法完全依赖于标准的监督学习方法,使用标记数据,不涉及PIDL。数据集在训练过程开始时只构建一次。在完成以下三个步骤(2)-(4)后,执行FO-MAML的一个epoch。在实际操作中,模型经过多个epoch的训练,类似于传统的深度学习模型。在每个epoch期间,使用相同的一组任务及其相应的支持和查询数据集进行元学习任务适应。通常通过实验或基于元损失的收敛性确定epoch的数量。一旦训练完成,模型权重可以用于初始化先前未见过任务的替代模型。

在原始MAML中,在训练开始时会采样一大组任务和查询数据,并且在每个epoch中从任务集中采样个任务,并从每个任务的数据集中采样个支持和个查询数据。然而,在提出的方法中,为减少使用的数据量,在训练开始时采样的整个任务集和数据集会用于每个epoch的训练。这意味着在每个epoch中任务和数据不会像原始MAML那样重新采样。

接下来,物理信息任务适应阶段的过程包括以下两个步骤(算法2):

  1. 数据集: 在此步骤中,从给定任务中采样个标记数据,以计算标准监督损失(本研究中为MSE损失),并基于给定任务的物理信息生成个物理数据,以计算物理信息损失。物理信息可以明确表示为PDE或与变量导数相关的其他方程。的值可以通过经验评估确定。在本研究中,我们旨在通过使用元学习和PIDL方法减少标记数据,因此我们进行了小和大的实验。

  2. 训练: 通过最小化监督损失和物理信息损失之和的损失函数来训练深度神经网络。监督损失通过比较神经网络预测与标记数据计算得出,而物理信息损失确保神经网络输出满足给定的微分方程。为了结合两种类型的损失,可以将适当的权重乘以一种损失来加速损失最小化。权重值可以通过经验评估确定,无论是在线还是离线的方式。在本研究中,我们将权重设置为1.0(相同的权重应用于两种类型的损失),并将最优权重的确定留待未来研究。我们注意到,Adam优化器用于这一更新。

2.7 示例:悬臂梁问题

为了演示如何将提出的方法应用于具体问题,我们考虑一个一维简单的悬臂梁问题,该梁的长度为米,并且在整个梁上施加了均布载荷牛顿/米(见图3)。假设问题的计算域为,可以得到梁的位移控制方程如下:

其中,是梁的位移,是杨氏模量,是惯性矩。

接下来,从区间中随机采样数据,并从采样数据中计算模型输出的四阶导数。然后,将模型输出的导数与目标值进行比较,并计算它们之间的均方误差(MSE)损失。这个物理信息损失被添加到使用标记数据获得的监督损失中,从而得出一个综合损失。最后,使用综合损失对模型进行更新。


3  提出方法的应用

3.1 潜在应用

所提出的PI-MLSM模型具有多种潜在应用。在本文中,我们关注它可以解决的三种不同类型的问题。首先,它可以用于预测已学习任务内的随机点。模型初始化在元学习阶段基于给定的任务分布进行训练,然后使用标记数据和基于给定任务的物理数据进行训练。

此外,所提出的PI-MLSM还可以应用于可靠性分析,该分析涉及在特定条件下评估失效概率。在这种类型的分析中,系统中的多个变量被视为概率性的,而非确定性的。因此,必须使用略有不同的变量来评估性能函数的每次迭代。使用元学习方法,模型可以学习单个任务的输入和输出之间的关系,其中输入遵循特定的分布。每个任务可以定义为性能函数的概率输入变量的平均值;任务分布的模型初始化,包括输入变量的各种平均值,在元学习阶段进行训练。模型在物理信息任务适应阶段进一步使用与性能函数相关的物理定律进行训练。

最后,PI-MLSM方法还可以用于解决优化问题,这涉及找到系统的最优设计或运行条件。当目标函数被简单定义时,输入变量与函数输出之间的关系可以容易地建模。然而,当问题变得更加复杂时,例如通过修改截面的设计来最小化二维板的最大位移,其中载荷、截面和材料属性变化,整个系统都应建模。在这种情况下,一个任务可以定义为设计变量,这些变量代表具有给定设计变量的整个系统。这意味着,如果我们将坐标输入模型,模型会输出与坐标对应的值。同样,模型初始化在元学习阶段进行训练,并在物理信息任务适应阶段进一步使用与系统相关的物理信息进行训练。

3.2 处理分布外任务(OOD任务)

元学习方法旨在从任务分布中提取元知识,以便于学习来自同一分布的新任务。然而,它们在处理分布外(OOD)任务时的效力尚不明确。基于优化的元学习技术,如MAML,通常在处理OOD任务时表现优于其他方法(Finn & Levine, 2017)。PIDL通过模型架构或损失函数将物理系统的先验知识融入深度学习模型,从而使模型更好地处理类似的物理系统(Haghighat, Raissi, Moure, Gomez, & Juanes, 2021;Kim, Hurley等,2022)。所提出的PI-MLSM结合了这两种方法,因此在处理OOD任务时表现出较强的鲁棒性。

然而,目前在替代建模中,对于什么构成OOD任务还没有标准定义。本研究将OOD任务定义为具有与用于元学习的任务分布相同的物理方程,但参数从分布外采样的任务。例如,如果元学习是在任务参数在-1到1之间的任务上进行的,那么参数为-2或3.5的任务可以被归类为OOD任务。

4  数值示例

在本研究中,我们提出了一种新的方法来应对机器学习解决方案中标记数据有限的挑战。为了评估我们方法的性能,我们进行了四个数值示例,并比较了四种不同的方法。这些比较的方法如下:(1) 使用每个任务的标记数据进行监督学习,从头开始训练模型(直接使用坐标数据和相应的值数据训练MLP),(2) 使用标记数据和物理数据从头开始训练模型,采用PIDL方法进行每个任务的训练(直接使用基于MLP的PINN进行训练),(3) 使用标记数据和监督学习从元学习初始化开始训练模型,解决每个任务(标准MLSM;使用坐标和数值数据进行元训练,并用MLP解决目标任务),参考Cheng等人(2022年),以及(4) 使用标记数据和物理数据从元学习初始化开始训练模型,解决每个任务(PI-MLSM;使用坐标和数值数据进行元训练,并用基于MLP的PINN解决目标任务)。

使用上述方法解决了四个示例,示例1至3对所有方法使用了相同数量的总标记数据。这包括方法1和2中用于单个任务的模型训练的数据,以及方法3和4中用于任务分布的元学习和单个任务的模型训练的数据。示例4对每个单个任务使用了相同数量的标记数据,但由于优化中的迭代次数不同,导致总标记数据量有所不同。

我们比较了四种方法在不同问题上的性能指标,包括预测的MSE、可靠性分析中的失效概率误差、使用的数据总量以及优化的目标函数的最终值。此外,为了测试所提出方法在解决分布外(OOD)任务(来自元学习使用的分布之外的任务)中的稳健性,我们使用四种方法解决了分布内任务和OOD任务。

为了确保标记数据分布的一致性,我们使用拉丁超立方采样(LHS)对所有标记数据进行采样。此外,LHS还用于对方法3和4的任务分布进行任务采样。多层感知器(MLP)被用于元学习和任务适应,这些操作是使用PyTorch库实现的。每个示例中使用的MLP的架构包括一个输入层、一个输出层和四个隐藏层。输入层中的神经元数量由输入变量的维度决定,示例1至4中输入维度从2到5不等。同样,输出层中的神经元数量从示例1至4中为1到2不等。每层隐藏层中的神经元数量固定为64,并且使用ReLU函数作为激活函数。在方法3和4中,元学习阶段的内环和外环的学习率分别设置为0.01和0.001。每个示例中元学习阶段的总epoch数量为10,000,任务数量和每个任务的数据量因示例而异。在方法2和4中用于物理信息学习的物理数据量取决于示例的类型。在所有方法的模型训练中,标记数据量和训练epoch数量依赖于示例,并在每个数值示例中进行了指定。训练是在Nvidia GeForce RTX 4070TI上进行的。

图4. 三个不同任务的Burgers方程的数值解,具有不同的粘性系数(),在空间域和时间域上进行计算。任务3()显示了较平滑的速度场,表明具有较高的粘性阻尼,而任务2()在附近表现出明显的速度梯度,这是低粘性流动的特征,可能导致冲击波的形成或湍流。中间的任务1()展示了这些状态之间的过渡。颜色梯度从红色到蓝色分别对应高到低的速度值。

4.1 示例1:学习具有显式物理定律的系统

示例1通过学习一个可以用Burgers方程表示的系统来生成预测,这意味着显式物理定律以PDE的形式给出。Burgers方程是一个描述一维流体流动的非线性PDE,它是计算流体动力学、数值方法和物理信息机器学习中的一个常用基准问题(Basdevant等人,1986;Caldwell等人,1981;Hon & Mao, 1998;Raissi等人,2019)。Burgers方程给出如下:

其中,是速度场,表示时间,表示空间,是粘性系数。方程的左侧表示对流项,描述了流体被速度场对流的情况。右侧表示扩散项,描述了粘性对速度场的影响(Hon & Mao, 1998)。

在这个示例中,我们在-1到1之间对进行采样,在0到1之间对进行采样。这个示例中的任务定义为,在元学习阶段,在0.001/到0.1/的范围内采样。我们在元学习阶段进行了50个任务,每个任务只有一个标记数据点,训练了10,000个epoch。在任务适应阶段,使用4个标记数据点训练模型一个epoch,以适应给定任务。对于不含元学习阶段的方法1和2,使用54个标记数据点从头开始训练模型一个epoch,以适应任务。对于涉及PIDL的方法,使用了10,000个物理数据点作为约束来满足Burgers方程。我们在三个任务上测试了四种方法的性能:一个分布内任务(任务1:)和两个OOD任务(任务2:;任务3:)。对于每个任务,我们进行了10次运行以构建替代模型,并展示了得到的MSE值。

表1展示了四种方法在三个任务上的MSE结果。PI-MLSM在所有任务中表现优异,优于其他使用相同标记数据的方法。值得注意的是,结合元学习的方法比不使用元学习的方法更有效,证明了MAML在快速适应特定任务中的能力。在任务1中,即分布内任务,PI-MLSM显著超越了从头训练的模型,并且也优于MLSM,表明在任务适应中将PIDL与元学习结合的有效性。在任务2中,即OOD任务,尽管表现的差距较小,PI-MLSM依然表现出色。在任务3中,另一个OOD任务中,PI-MLSM的表现显著优越,反映了其在任务1中的成功。

从没有使用元学习训练的模型的误差指标可以推断,任务2是最具挑战性的,而任务3是最容易的。通常,Burgers方程中的较低会加剧非线性现象,如冲击波和湍流,这些现象在数值上更难解决(Basdevant等人,1986)。三个任务的解法如图4和图5所示。与这一特性相反,MLSM在任务3中的表现最差,而在任务1中表现最佳。PI-MLSM在任务1中表现出色,但在任务2中遇到了更多挑战。这表明,使用元学习方法时,任务难度在数值分析和标准机器学习中的评估方式有所不同。值得注意的是,PI-MLSM在每个任务的10次迭代中表现出最小的标准差,支持了PIDL和元学习提高模型鲁棒性的观点。这些结果基于每个任务的10次迭代。

4.4 示例4:优化

图8. 示例4中解决的两个Vanderplaats悬臂梁问题。对于问题1,梁有五个段,在梁的右端施加400 kN的点载荷。对于问题2,梁有四个段,在梁的右端施加400 kN的点载荷,并在梁的中部(米)施加200 kN的点载荷。杨氏模量、允许应力和允许位移在两个问题中都是相同的,如图中所示。

在示例4中,我们考虑了一个悬臂梁的优化问题,这是一种Vanderplaats梁的变体。该问题的设计变量是每个段的宽度和高度,目标是在满足最大应力和位移约束的前提下最小化总体积(Vanderplaats, 1984; Zhang, Jia, Bontoft, & Toropov, 2022)。梁的总长度固定为1.0米。使用四种不同的方法解决了涉及该梁的两个不同问题。该问题与之前提到的“元学习任务”不同。在第一个问题中,梁有五个段,在右端施加了400 kN的集中载荷。杨氏模量为200 GPa,而允许的应力和位移分别为14,000 N/cm²和0.5 cm。此外,每个段的截面高度不得超过宽度的二十倍,且高度和宽度必须分别大于0.05米和0.01米。第二个问题涉及一个有四个段的梁,在中间(米,200 kN)和右端(400 kN)分别施加了两个集中载荷。其他变量与第一个问题相同。问题如图8所示。通过这个例子,我们展示了所提出的PI-MLSM方法能够有效地解决优化问题,减少所需标记数据的数量,同时提高准确性。

在这个示例中,一个任务涉及计算对应于给定设计变量)的一组坐标的位移和应力。因此,这个任务可以定义为向量。替代模型使用输入维度为1、输出维度为2的多层感知器进行训练,输入为坐标,输出为相应的位移和应力。在元学习阶段,我们从0.01到0.05和0.1到0.2的范围内分别采样,对于50个任务,每个任务有10个标记数据点。在这一阶段,我们将模型训练了10,000个epoch。在任务适应阶段,模型使用从有限元分析(FEA)生成的三个标记数据点进行五个epoch的训练,以适应特定任务。在优化过程中,为了评估函数,我们提供了的值,计算了目标函数(梁体积),在给定任务下训练替代模型,并使用训练好的替代模型根据坐标推断对应的位移和应力约束。最后,由于这是一个约束优化问题,我们使用惩罚方法将其转换为无约束问题,修正后的目标函数为:

其中,是每个段的长度,问题1中均为0.2米,问题2中为0.25米。表示梁的最大位移和应力,而表示允许的位移和应力。Nelder–Mead方法被用来解决这两个无约束优化问题。惩罚参数设置为10.0。

对于涉及PIDL的方法,我们利用100个物理数据点来确保由方程(10)表示的物理方程(表示梁的位移)能够产生准确的结果。通过比较四种方法在两个问题上的最优成本(即目标函数的最终值)和每种方法所需的标记数据量,评估了四种方法的性能。为了提供全面的分析,将直接使用FEA计算应力和位移的优化过程得到的最优成本与通过四种使用替代模型进行优化的方法得到的结果进行了比较。

表4和表5比较了每种方法在优化中使用的最优成本和标记数据的总量。由于不同方法的迭代次数和标记数据需求有所不同,我们主要关注优化完成前使用的总标记数据量。在两个问题中,PI-MLSM实现的最优成本最接近通过FEA优化得到的结果,同时使用的标记数据量最少。此外,PI-MLSM在两个问题中使用的标记数据总量的标准差是最小的,突显了其在优化场景中的稳健性。

有趣的是,在示例3中,我们观察到当任务适应涉及许多epoch(10,000个)时,MLSM比非元学习方法的准确性更差。然而,涉及元学习的方法,如MLSM和PI-MLSM,显示出优于其他方法的性能。这表明元学习方法在需要为给定任务或问题快速训练高度准确的替代模型的情况下非常有效,从而增强了模型精度并实现了快速适应。PI-MLSM在预测和优化中的卓越性能主要归功于其替代模型的高准确性。优化过程中问题1的10次运行中替代模型与FEA结果之间的平均归一化均方根误差(NRMSE)如下:Scratch-data: 0.6142,Scratch-physics: 1.3490,MLSM: 0.1027,PI-MLSM: 0.0848。对于问题2,NRMSE值分别为:Scratch-data: 1.8710,Scratch-physics: 0.8535,MLSM: 0.2514,PI-MLSM: 0.0574,如表6所示。这些结果以及表5和表6中的数据表明,在这种情况下,更高的模型准确性与更小的数据集规模相关。然而需要注意的是,在某些情况下,基于替代模型的优化可能比基于FEA的优化需要更少的迭代,即使最优成本可能会显著不同。

5  结论

本文提出了一种新颖的方法——PI-MLSM,通过结合元学习和物理信息深度学习(PIDL)方法,在有限标记数据的情况下训练替代模型。元学习方法提取元知识,这些有用的信息可以帮助训练给定任务分布的模型。PIDL方法将系统的物理特性先验知识融入黑箱模型,可以限制模型满足特定的物理定律。PI-MLSM方法包括两个阶段:元学习和物理信息任务适应。在元学习阶段,FO-MAML在给定的任务分布上进行元学习,得到模型的初始化权重。然后,使用元学习的模型初始化和PIDL方法(以物理信息损失的形式实现)来训练替代模型。由于元学习和PIDL方法在解决有限数据任务中都表现出了有效性,因此我们预计提出的PI-MLSM方法相比其他方法将表现出良好的性能。

本文提供了四个数值示例,以展示PI-MLSM方法在解决各种工程问题中的优势。对于示例1和示例2,这些示例涉及给定系统的预测问题,PI-MLSM相比不含元学习组件的方法(MSE降低20.0%至96.4%)和标准MLSM方法(MSE降低3.0%至95.3%)在相同的标记数据量下实现了更小的MSE。对于示例3,涉及可靠性分析问题,PI-MLSM相比其他方法在相同的标记数据量下实现了更小的误差(降低23.7%至99.0%)。对于示例4,即Vanderplaats悬臂梁结构的优化问题,PI-MLSM相比其他方法在最优成本的误差上实现了更小的误差(降低29.7%至77.8%),并在优化过程中使用了更少的标记数据(数据量减少12.4%至60.9%)。此外,PI-MLSM在多次运行中提供了稳健的结果,具有较低的标准差。而且,PI-MLSM在解决分布外(OOD)任务时,比标准MLSM表现出更稳定的性能。这些结果表明,PI-MLSM在解决各种类型的问题时优于标准MLSM或使用随机初始化的PIDL方法训练的模型。此外,无论替代模型是在少量epoch(示例4)还是在大量epoch(示例3)上进行训练,提出的方法都表现出了良好的性能。

尽管如此,本文也存在一些需要在未来研究中解决的局限性和挑战。首先,物理信息的使用具有主观性,可能会因人而异,导致用于解决同一问题的物理方程不同。需要进一步研究这一问题。其次,本文对OOD任务的难度没有深入探讨。存在多种类型的OOD任务,其难度可能会有很大差异。尽管PI-MLSM在处理各种OOD任务时表现良好,但仍需进一步研究以确定不同OOD任务的难度,以及如何将PI-MLSM应用于这些任务。最后,提出的PI-MLSM方法仅在同质任务上进行了测试,这些任务的控制方程形式相同。未来的研究应关注PI-MLSM是否能够用于解决控制方程略有不同的任务。一种可能的方法是使用一组基线任务进行元训练,然后使用它们的元知识来开发这些任务变体的替代模型。

尽管存在这些局限性,本文仍然做出了几个关键贡献。首先,即使只有少量数据可用,PI-MLSM仍能够有效地训练替代模型。其次,PI-MLSM能够解决广泛的任务,包括不仅限于简单预测,还包括更复杂的问题,如可靠性分析和优化。第三,PI-MLSM在训练替代模型时,无论是短期训练还是长期训练,都表现出卓越的性能。最后,PI-MLSM能够处理系统物理定律不明确的情况,使其在难以获取这些信息的情况下成为一种有用的工具。这些贡献凸显了PI-MLSM作为替代建模中一种强大且多功能方法的潜力。





END


PINNs代码汇总

长按扫码

点赞

关注

在看

💙整理不易,希望各位道友能够多多支持宝库,支持邪云宝库!你的一个点赞、一次转发、 随手分享,都是宝库前进的最大动力~

💛2024,不忘初心,宝库会给大家带来更好的内容,让我们2024,一起暴富!

邪云宝库
用于分享物理科学启发AI的新范式:人工智能的物理科学(PhysicsScience4AI, PS4AI)资料。用于各种debug日志,偏微分方程,物理信息神经网络,算法原理及实现,数据挖掘,机器学习,智能优化算法,多元统计及生活分享。
 最新文章