ZHIHUI LI, FRANCESCO MONTOMOLI. Aleatory uncertainty quantification based on multi-fidelity deep neural networks[J]. Reliability engineering & system safety,2024,245(May):109975.1-109975.15. DOI:10.1016/j.ress.2024.109975.
摘要
传统的不确定性量化( uncertainty quantification,UQ )方法在处理高维问题时会遭遇维数灾难,解决这一挑战的一种方法是利用深度神经网络 ( deep neural networks,DNNs ) 强大的近似能力。然而,传统的 DNNs 通常需要大量高保真度 ( high-fidelity,HF) 数据训练来确保精确的预测,但由于计算或实验成本限制,此类数据可得性有限。为了减少训练费用,本研究引入了多保真度深度神经网络 ( multi-fidelity deep neural networks,MF‑DNNs ),其中构建了一个子网络来同时捕获高保真度和低保真度 ( low-fidelity,LF ) 数据之间的线性和非线性相关性。MF‑DNNs 的有效性最初通过准确近似各种基准函数来证明。随后,考虑输入不确定性的均匀分布或高斯分布,首次使用开发的MF‑ DNNs来模拟1维、32维和100维环境中的偶然不确定性传播,UQ 结果证实,MF‑ DNNs 能够熟练地预测兴趣参量 ( quantities of interest,QoI ) 的概率密度分布及其统计矩,而不会显著降低准确性。此外,MF‑DNN 被用于模拟飞机推进系统内部的物理流动,同时考虑源自实验测量误差的偶然不确定性,基于二维欧拉流场和少量实验数据点,利用MF-DNNs对等熵马赫数分布进行了精确预测。总之,提出的 MF‑DNN 框架在解决实际工程应用中的 UQ 和稳健优化挑战方面表现出巨大的潜力,尤其是在处理多保真度数据源时。
引言
在实际情况中,偶然不确定性产生于系统内部固有的可变性和随机性,通常具有高维性。这些不确定性包括多种因素,例如,边界/初始条件的波动,制造振动导致的不确定几何形状等。传统的不确定性量化( UQ )技术,如蒙特卡罗( MC )、多项式混沌展开( PCE )和基于泰勒级数展开的方法,在处理这些高维随机不确定性时,面临着维度灾难带来的挑战。这些方法需要大量的高保真( HF )数据进行训练以达到可接受的预测精度。在工程应用中,产生足够的HF数据通常意味着计算或实验上的高昂成本。
为减轻对HF数据的依赖,多保真度( MF )方法引起了广泛关注。MF方法使用HF和低保真度( LF )数据集,利用LF数据的可得性和成本效益,通过增加HF数据的流入来提高模型预测的准确性。然而,上述方法在有效捕捉 HF 和 LF 数据之间的相互关系方面往往存在局限性。
近年来,MF神经网络( NNs )的出现提供了一条新途径,与传统的函数近似器相比,深度神经网络( DNN )被认为是低维和高维文本的通用近似器。已有多名学者过将 MF 方法与 NNs 相结合,证明了复合神经网络在近似基准函数方面的能力,然而,与并行子网络结构相比,其建模线性校正函数的能力略有下降。此外,在预测高维问题方面的表现仍未公开。
为了克服前人提出的并行子网络结构的要求,本文引入了一种具有单个校正子网络的网络结构,以实现线性和非线性校正建模的平衡能力。这种架构选择带来了几个吸引人的特性:
1)消除假设偏差: 无需将权重分配给单独的线性和非线性子网络,从而确保更中性和自适应的建模方法。
2)数学原理一致: 所提出的架构与作为其基础的 MF 方法的基本数学原理紧密结合。
3)更加简化: 精简的架构简化了 MF‑DNNs 的训练和测试过程,特别是在解决高维问题时。
4)易于实现: 新的 MF‑DNN 架构在编程中的实现更加简单。
据作者所知,这标志着使用 MF‑DNNs 解决高维随机 UQ 问题的开创性尝试。
方法研究
多保真深度神经网络
一种广泛使用的桥接 LF 和 HF 数据的综合校正公式为 :
其中 表示 HF 数据点上的模型预测值,c 为乘性校正因子, 表示 LF 数据点的标签值,δ 表示加性校正因子。此处 c 可以是常量,也可以是非常量,表示 和 之间的线性或非线性校正。换句话说,公式 (1)中的综合校正可以表示为:
其中,F 综合表示 LF 和 HF 数据之间的非线性和线性相关性。因此,所提出的 MF‑DNNs 应该由两个子网络组成,LF‑DNNs 子网络用于近似 的值, Correction DNNs 子网络用于预测 的值。
所提出的 MF-DNNs 的架构如图 1 所示。这里我们假设有一个大的 LF 训练数据集和一个相对较小的 HF 训练数据集。
代价函数设置为预测结果与实际值之间的均方误差( MSE ),代价函数对网络参数的梯度信息通过自动微分法获得,并利用基于梯度的优化算法最小化 MF‑DNNs 的预测误差。具体来说,采用 ADAM 和 L-BFGS 优化器。为了避免过拟合,添加 L2 正则化损失,通过对网络权重系数的平方幅值求和来最小化损失函数。LF‑DNNs 的损失函数定义如下:
其中, 表示LF‑DNNs的训练损失,M表示LF训练点的个数, 表示神经网络参数的集合, 为第H层的权值, 为第H层的偏置,H为隐藏层的个数。训练后的 LF‑DNNs 随后作为离线代理模型运行。
Correction DNNs的损失函数定义如下:
其中, 为 Correction DNNs 的总体训练损失, 为 Correction DNNs 的预测均方差, 为 Correction DNNs 的 L2 正则化损失,P 为 HF 训练点个数, 为正则化损失的控制参数。在训练过程中,LF‑DNNs 与 Correction DNNs 共享相同的 HF 自变量,目的是使 Correction DNNs 能够有效地学习 LF‑DNNs 生成的预测与相应的 HF 因变量集之间的差异,从而促进其相应校正和改进预测的能力。
使用贝叶斯优化算法对 MF‑DNNs 的超参数进行微调,其中包括隐藏层的数量、每个隐藏层的神经元数量以及学习率等。使用交叉验证方法评估优化后的 MF‑DNNs 的有效性。为实现单个子网络内近似线性和非线性相关性之间的和谐平衡,使用整流线性单元激活函数(ReLU)。ReLU的数学表达式如下:
MF‑DNNs 的构建和训练在 Tensorflow 2 环境中使用 Keras 进行。MF‑DNNs 的建立流程图和详细训练步骤如下:
结果与讨论
本文进行了一系列基准测试,以全面评估构建的 MF‑DNNs 在代理模型和 UQ 领域的性能。
线性相关的一维函数
以 LF 和 HF 数据之间线性相关为特征的一维函数理论表达式如下:
为了有效地近似 LF 和 HF 函数,生成一个包含 21 个 LF 点和 4 个 HF 点的数据集,并作为 MF‑DNNs 的训练数据集,每次训练执行 2000 个 epoch ,经过 20 次贝叶斯优化迭代后,LF‑DNNs 的最佳架构收敛为 3 个隐藏层,每个隐藏层内分别有 64、64、40 个神经元。Correction DNNs 的最佳架构包括一个含 8 个神经元的单个隐藏层。此外,最佳学习率确定为 0.001。前 1000 步使用 ADAM 优化器对 MF‑DNNs 的权重和偏差进行初始更新,随后的 2000 步中结合 L‑BFGS 优化算法继续进行优化。MF-DNNs 近似线性相关一维函数的性能如图 3 所示:
MF-DNNs与其他代理模型进行比较结果如图 4 所示,其中,RBF和KRG模型均仅基于HF数据点进行训练。
表 1 进一步分析了这些模型在预测 1000 个验证数据点时的均方差。
在这些模型中,除 Co‑KRG 模型外,MF‑DNNs 全面表现出色。考虑到 Co‑KRG 模型最初是基于线性假设制定的,因此这一结果符合预期。这证实了提出的 MF‑DNNs 在准确近似 LF 和 HF 数据之间的线性相关性方面的有效性。
非线性相关的一维函数
以 LF 和 HF 数据之间非线性相关为特征的一维函数理论表达式如下:
MF‑DNNs 使用的数据集包含 21 个 LF 数据与 6 个 HF 数据,按照类似于上节中详述的训练方法训练获得的 LF-DNNs 最佳架构由 3 个隐藏层组成,每个隐藏层中分别有 64、64 和 40 个神经元。同样,Correction DNNs 的最优架构包括 2 个隐藏层,每个隐藏层分别容纳 64 和 56 个神经元。MF-DNNs 近似非线性相关一维函数的性能如图 5 所示:
MF-DNNs与其他代理模型进行比较结果如图 6 所示:
表 2 进一步分析了这些模型在预测 1,000 个验证数据点时的 MSE。
在这些模型中,所提出的 MF-DNNs 脱颖而出,表现出与 HF 函数密切一致的分布,这表明配备了“ReLU”激活函数的 Correction DNNs 能够有效地近似低频和高频数据之间存在的非线性相关性。
32维函数
在各种工业设计场景中,处理 32 个参数构成了一个中等高维空间。因此,本文评估了所提出的 MF‑ DNNs 在近似 32 维函数方面的有效性。该函数的底层数学表达式如下:
采用拉丁超立方采样 (LHS) 技术生成数据集,包括 200,000 个 LF 数据点和 2000 个 HF 数据点。训练获得 LF‑DNNs 的最优架构由 2 个隐藏层组成,每个隐藏层有 512 个神经元,每层有 256 个神经元。Correction DNNs 的最优架构包含单个隐藏层,包含 32 个神经元。“ReLU”激活函数被部署在 Correction DNNs 中,学习率微调为 0.001,以促进最佳的训练过程。MF-DNNs 在近似 32 维函数中的性能如图 7 所示:
其中,红色散点的x坐标和y坐标分别表示 MF-DNNs 的预测结果和相应的解析解。理想情况下,零预测误差将导致红色散点与黑线精确对齐( 线斜率为 1 )。蓝色散点代表 KRG 模型的预测结果,该模型仅利用 HF 数据。红色散点与 MF-DNNs 分析解决方案的对齐强调了捕获潜在模式的有效性,特别是在解决高维挑战方面。
表 3 概述了各种模型在包含 50,000 个数据点的验证数据集上表现的 MSE。
结果验证了所提出的 MF-DNNs 模型达到了与复合架构相当甚至略好于复合架构的精度水平,超过了其他评估模型的性能。
100维函数
本研究通过评估 MF-DNNs 对 100 维基准函数的预测能力来进一步评估其性能。100 维基准函数是工程领域中一个重要的高维函数。所研究的基准函数的数学表达式为:
MF-DNNs 模型的训练利用了包含 10,000,000 个 LF 数据点和 100,000 个 HF 数据点的大数据集。根据超参数的贝叶斯优化结果,LF‑DNNs 的架构设计包含 4 层,神经元数量分别为 512、512、256 和 128。Correction DNNs 被设计为包含 64 个神经元的单层网络。在 LF‑DNNs 和 Correction DNNs 中,都采用了“ReLU”激活函数。此外,学习率设置为 0.001,以促进训练期间的有效学习。
MF‑DNNs 有效地展示了其预测 100 维函数解析解的能力,如图 8 所示:
表 4 总结了多个模型对包含1,000,000 个缩放数据点的验证数据集的评估。
结果表明,所提出的 MF‑DNNs 在准确性方面优于其他模型,从而证实了其在解决高维问题方面的有效性。
1 维函数的 UQ
使用训练获得的最优 MF-DNNs 来评估输入偶然不确定性对 QoI 的影响。选取以 LF 和 HF 数据之间线性相关为特征的一维函数理论表达式作为不确定性传播的控制方程,将均匀分布和高斯分布两种具有代表性的输入不确定性分布引入到 UQ 过程中。在 UQ 过程中,使用 MC 方法生成 1000 万个样本点计算统计矩。对两种不同输入不确定性下 MF‑DNNs 得出的 QoI 统计矩与解析解进行比较,结果如表 5 所示:
MF-DNNs 对 QoI 的均值和方差进行了准确的预测。最大的预测误差出现在峰度中,峰度是与 QoI 尾部分布相关的测量值。
图 9 展示了不同输入不确定性分布下 QoI 概率密度分布的直方图对比,其中 a)表示均匀不确定性的概率密度分布,b)表示高斯不确定性的概率密度分布:
表明 MF-DNNs 能够有效地模拟低维不确定性传播过程。
32 维函数的 UQ
为了进一步评估 MF‑DNNs 解决中等高维 UQ 问题的能力,我们选择了 32 维基准测试函数作为不确定性传播的控制方程。采用MC方法( 1000 万个样本点)模拟不确定性传播过程,利用 MF-DNNs 计算了两种输入不确定性情景下 QoI 的统计矩。然后将这些结果与分析结果进行比较,结果如表 6 所示:
虽然峰度预测可能存在一些差异,但 MF-DNNs 在估计 QoI 响应的均值和方差方面表现出了非凡的精度。
图 10 描述了32维函数的 QoI 概率密度分布的直方图比较,其中 a)表示均匀不确定性的概率密度分布,b)表示高斯不确定性的概率密度分布:
表明 MF-DNNs 可以有效地捕获和表示中高维 UQ 问题的不确定性传播过程的定性和定量方面。
100 维函数的UQ
随后使用 MF-DNNs 模型解决了 100 维 UQ 问题。同样输入不确定性有两种不同的形式:一个 100 维均匀分布的随机变量,或者一个 100 维高斯变量。对于这两种类型的输入不确定性,采用基于 MC ( 1000 万个样本点)的 MF-DNNs 来计算 QoI 的统计矩,与相应的分析矩进行比较对比,结果如表 7 :
MF-DNNs 在预测平均值方面始终具有较高的准确性,在预测峰度时偏差最大。
此外,使用 MF-DNNs 确定了 QoI 的概率密度分布,这些分布的直方图比较如图 11 所示:
虽然与分析结果相比,在方差、偏度和峰度的预测中观察到一些差异,但从MF-DNNs得到的概率分布与分析解密切一致。
在预测涡轮喷嘴流量中的应用
航空发动机是飞机的关键部件,为飞机提供推力、电力和压缩空气,任何潜在故障都可能导致灾难性后果。因此,在设计和运行阶段,在存在外部随机不确定性的情况下评估航空发动机的性能及其可靠性至关重要。本文利用 MF-DNNs 对某代表性航空发动机部件内部流场进行预测,并以 LS89 涡轮叶片为参考案例。表 8 列出了 LS89 叶片的基本几何参数和操作参数:
为了预测叶片表面的近壁等熵马赫数分布(该分布在确定涡轮喷嘴流的流动模式中起着关键作用),采用了两种保真度的训练数据。丰富的二维欧拉流数据作为 LF 源,有限的一组实验测量作为 HF 源。可压缩流场对应于两级保真度数据的控制方程如下:
其中,ρ 为空气密度,t 为时间, p 为压力,u 为流速矢量,∇ 为微分算子,μ 为动态粘度,e 为内能,T 为温度, κ 为热导率,D/Dt 为物质导数。使用计算代码 MISES (多叶片相互作用流管欧拉求解器)对二维欧拉流动进行数值求解。模拟网格由 MISES/ISET 生成,在 LF 模拟中生成了大约 3,180 个单元。图 12 显示了 LS89 通道内的详细二维网格以及马赫数分布轮廓:
欧拉流动分析表明,叶片通道内存在两个激波。前激波是由于阻塞引起的,喉部区域产生冲击波。由于吸力面上的流动加速,后激波在后缘附近形成。但需要注意的是,MISES 求解器通常根据 Kutta 条件确定后缘流动的行为,而不是明确解决底层流动物理问题。因此,欧拉流动结果可能无法准确预测尾缘区域的基底压力和损失。为了解决这一限制,本文采用 MF‑DNNs,利用 LF 欧拉结果捕捉基本流动模式,利用 HF 实验测量结果细化尾缘流场。
在此背景下,MF‑DNNs 的主要重点是预测叶片表面的等熵马赫数分布,马赫数分布直接决定涡轮喷嘴内的流动模式。从级联通道内获得 HF 实验数据后,可以利用 MF‑DNNs 实现更全面的流场重建。对于训练数据输入,选择 160 个 LF 点和 4 个 HF 点的组合。建模过程分别处理了 LS89 叶片压力侧和吸力侧的近壁流场。
LF‑DNN 架构包含 5 个隐藏层,每层分别包含 256、128、128、64 和 32 个神经元。同时,Correction DNNs 构建了 4 个隐藏层,每层分别包含 128、64、32 和 32 个神经元。等熵马赫数分布的比较结果如图 13 所示:
与在整个叶片表面弦上放置压力探头的方法不同,MF‑DNNs 基于二维欧拉流场和仅 4 个实验测量数据点准确预测了等熵马赫数的分布。MF‑DNNs 继承了上游区域的流动模式,并智能地修正了靠近后缘的激波附近的马赫数分布。
接下来,MF‑DNNs 的训练过程包含了HF实验测量误差产生的不确定性。具体而言,考虑了两种不同类型的测量误差。第一类不确定性具有固定的基于值的变化区间,其中不确定马赫数分布在0.2区间内。第二类包括归一化为10%的不确定性。在这两种情况下,偶然不确定性均使用高斯分布建模。与之前具有确定输出的 MF‑DNN 配置相比,MF‑DNNs 进行了更新以适应这些偶然不确定性,这需要调整输出层,使其包含 2 个神经元,分别实现平均值和标准差的预测。更新后的 MF‑DNNs 的预测结果如图 14 所示:
显然,MF‑DNNs 利用包含两种不同形式的不确定性的 4 个 HF 数据点的信息,熟练地预测了平均值。此外,MF‑DNNs 提供了合理的偏差估计,对应于 95% 的置信区间。这些结果证实了所提出的 MF‑DNN 能够有效解决实际工程应用中的偶然不确定性挑战。
结论
本文介绍了多保真度深度神经网络( MF-DNNs )作为高维偶然不确定性量化( UQ )问题的解决方案。本研究得出的主要结论如下:
MF-DNNs的有效性通过对各种基准函数的精确逼近来证明。Co-Kriging模型可以更有效地解决以线性相关为特征的低维问题,除此之外,与其他模型相比,MF-DNNs 在处理高维挑战方面都表现出了更优的性能。
MF-DNNs 在预测各种 UQ 问题的兴趣参量(QoI)的概率密度分布和统计矩方面证明了它们的有效性。在不同的 PDF 输入(高斯和均匀)下验证了该方法,该方法与蒙特卡罗输出一致。
该模型已应用于实际航空发动机问题。MF-DNNs 精确捕捉了 LS89 涡轮叶片近壁面流动特性,继承上游低保真欧拉流型,并利用高保真实验数据智能修正了激波附近的马赫数分布。
推荐阅读
乘积包络谱优化- Gram:一种用于滚动轴承故障诊断的增强包络分析
ReF-DDPM: 一种基于DDPM的滚动轴承故障诊断数据增强新方法
一种全新滚动轴承局部缺陷扩展动态更新和实时映射的数字孪生模型