WISE: full-Waveform variational Inference via Subsurface Extensions
WISE:通过次表面扩展的全波形变分推断
https://arxiv.org/pdf/2401.06230v1
摘要
我们介绍了一种用于全波形反演(Full-Waveform Inversion, FWI)的概率技术,该技术采用变分推断(Variational Inference, VI)和条件归一化流(Conditional Normalizing Flows, CNFs)来量化迁移速度模型中的不确定性及其对成像的影响。我们的方法将生成式人工智能与基于物理的共同成像道集(Common-Image Gathers, CIGs)相结合,减少了对精确初始速度模型的依赖。所研究的案例证明了其在根据数据生成迁移速度模型实现方面的有效性。这些模型用于在后续成像中量化振幅和定位效应。
1 引言
全波形反演(FWI)在勘探中起着至关重要的作用,主要是从观测到的地震数据中估计地球地下属性[1]。FWI的固有复杂性源于其非线性,以及波建模的不适定性和计算密集性进一步加剧了这种复杂性。为解决这些挑战,我们提出了一种计算成本效益高的概率框架,该框架可根据观测到的地震数据生成多个迁移速度模型。通过将深度学习[2]与物理学相结合,我们的方法利用了变分推断(VI, [3])和生成式人工智能(AI, [4, 5])的最新进展。我们通过形成共同成像道集(CIGs, [6]),然后训练条件归一化流(CNFs, [7])来量化迁移速度模型中的不确定性,从而实现这一目标。
概述:首先,我们阐述了FWI问题及其固有挑战。随后,我们探讨了变分推断(VI)在量化FWI不确定性方面的应用。为了降低VI的计算成本,我们引入了基于物理的摘要统计量,并证明了共同成像道集(CIGs common-image gathers)作为这些统计量的合理性。我们通过两个案例研究验证了我们的框架的能力,这些研究包括研究生成的迁移速度模型中的不确定性对迁移的影响。
2 方法论
我们通过简要介绍FWI和作为不确定性量化(UQ)框架的变分推断(VI),提出了一种用于FWI的贝叶斯推断方法。
2.1 全波形反演
从带有噪声的地震数据y中估计未知的迁移速度模型x,涉及到对非线性正演建模F的反演,该模型通过y = F(x) + ϵ将x与y联系起来,其中ϵ表示测量噪声。源/接收器的特征被假定为已知并包含在F中。由于噪声和建模中非平凡的零空间[8],解决这个非线性反演问题具有挑战性。因此,多个迁移速度模型都可能与数据相符,这需要使用贝叶斯框架来进行不确定性量化(UQ)。
2.2 全波形推断
我们的目标不是寻求单一的迁移速度模型,而是反演出与数据相兼容的一系列模型,这被称为“全波形推断”。从贝叶斯的角度来看,这涉及到在给定数据的情况下确定迁移速度模型的后验分布p(x|y)。用于从后验分布中计算统计量的算法可以分为:(i) 基于采样的算法,如马尔可夫链蒙特卡洛(MCMC)[9–12];或 (ii) 基于优化的算法,如变分推断(VI)[3]。
由于高维度和昂贵的基于波的建模,MCMC在FWI中变得不切实际[13]。因此,我们专注于低成本的VI,它通过用神经网络训练来交换后验采样的计算成本[14–29]。具体来说,我们采用摊销VI,它会产生离线计算训练成本,但能够在许多数据集y上实现廉价的在线后验推断[30]。接下来,我们讨论如何使用条件归一化流(CNFs)进行摊销VI。
2.3 使用条件归一化流的摊销变分推断
在VI中,后验分布p(x|y)通过具有可学习参数θ的替代分布pθ(x|y)来近似。由于CNFs具有低成本训练和快速采样的特点[31, 32],它们适合作为后验分布的替代,训练过程涉及最小化真实后验分布和替代后验分布之间的Kullback-Leibler散度。在实践中,这需要访问N对迁移速度模型和观测数据的训练对,以最小化以下目标函数:
在这里,fθ是具有网络参数θ和雅可比矩阵Jfθ的条件归一化流(CNF)。它根据观测值y(i)将每个速度模型x(i)转换为白噪声(如ℓ2范数所示)。训练完成后,CNF的逆运算可以将标准高斯分布的随机实现转换为以任何与训练数据具有相同统计分布的地震观测为条件的后验样本(迁移速度模型)。
2.4 物理信息摘要统计量
虽然CNF能够近似后验分布,但在成像采集发生变化或缺乏简化模型与数据之间映射的物理原理时,基于成对(x,y)训练CNF会带来挑战,这两者都会导致训练成本增加。
为了解决这些挑战,Radev等人[33]引入了固定的、尺寸减小的摘要统计量,这些统计量封装了观测数据并为后验分布提供信息。基于这一概念,Orozco等人[21]使用梯度作为物理信息摘要统计量,部分逆转了正向映射,从而加速了CNF训练。对于具有高斯噪声的线性反演问题,这些统计量是无偏的——无论是以原始数据还是以梯度为条件,都能保持相同的后验分布。基于这一原理,Siahkoohi等人[20]和Siahkoohi等人[22]使用了反时间迁移(RTM)[34],这是线性化Born建模的伴随算子的作用,用于汇总数据并为固定的准确迁移速度模型量化成像不确定性。
我们的目标是将这种方法扩展到非线性FWI问题。虽然RTM能够将信息从数据域传递到图像域,但在迁移速度不正确时,其性能会下降。Hou和Symes[38]表明,最小二乘迁移[39]可以完美拟合正确迁移速度模型的数据,但对于错误的速度模型则无法拟合。这凸显了在速度模型错误且RTM无法捕获信息的情况下存在的根本限制,从而导致后验分布有偏。对于错误的初始FWI速度模型x0,p(x|y) = p(x|∇F(x0)⊤y),其中∇F表示Born建模的梯度,⊤表示伴随算子。为了避免这个问题,需要更稳健的物理信息摘要统计量来保留信息。
2.5 共像集作为汇总统计
3 合成案例研究
我们的研究通过两个数据集上的合成案例研究评估了WISE的性能:Open FWI的CurveFault-A数据集和Compass数据集的二维切片。我们的目标是比较仅由RTM提供信息和由CIGs(曲率成像梯度)提供信息的后验样本的质量。
3.1 Open FWI
CurveFault-A数据集包含样本间具有显著可变性的速度模型,这对深度学习方法构成了挑战[49, 50]。此外,断层和倾斜事件进一步加剧了这种挑战,而观测数据仅包含反射能量。在这个数据集上进行测试可以让我们检验WISE生成速度模型的能力。
数据集生成和网络训练。我们选择了3000个640米x640米的速度模型,每个模型有64个等间距的接收器,接收器位于10米水深的拖曳位置,以及16个随机放置的震源[51]。假设地表具有吸收性。我们使用15Hz中心频率的Ricker小波,并去除了3Hz以下的能量以增加真实性,使用Devito[52, 53]和JUDI.jl[54, 55]模拟了声学数据。在将每个数据集与通过水平平均相应真实模型计算得到的1D初始FWI速度模型进行迁移之前,添加了不相关的带限高斯噪声(信噪比12dB)。我们计算了从-250米到+250米的101个地下偏移量的CIGs[56, 57]。数据集分为2800个训练样本、150个验证样本和50个测试样本。我们训练了两个CNF:一个使用速度-RTM对,另一个使用速度-CIGs对。
结果。图1中包含了我们的CNF在两个未测试样本上的结果,并揭示了速度中尖锐边界和平滑过渡的后验样本存在显著差异。虽然条件均值估计没有完全复制真实速度,但标准差与误差有意义地相关,表明由标准差表示的不确定性具有信息性。在50个测试样本中,基于CIGs的统计量的平均结构相似性(SSIM)分数为0.87,超过了基于RTM的统计量的0.85的平均分。受这些结果的启发,我们将接下来研究一个具有复杂地质结构的更现实示例。
3.2 Compass 模型
为了在更现实的设置中验证 WISE 并检查成像中的不确定性,我们考虑了以 FWI 算法面临的“速度反弹”挑战而闻名的 Compass 数据集。通过比较,对于一个糟糕的初始 FWI 速度模型,由 CIGs 和 RTM 提供信息的偏移速度模型的条件样本均值,我们验证了 CIGs 的优越信息内容。我们还说明了如何将偏移速度模型中的不确定性转换为成像反射器的振幅和定位的不确定性 [58]。
数据集生成和网络训练。我们采用了 1040 个 6.4 km 乘 3.2 km 的 Compass 模型的 2D 切片,其中 512 个等间距的源拖曳在 12.5m 深度,64 个海底节点位于随机位置。源和噪声设置保持不变。所有速度模型的算术平均值用作 1D 初始 FWI 速度模型(如图 2(b) 所示)。使用 51 个从 -500m 到 +500m 的地下偏移来计算 CIGs(如图 3(a) 所示)。数据集分为 800 个训练样本、190 个验证样本和 50 个测试样本,CNFs 训练了 200 个周期。
结果。我们的方法性能在一个未见过的二维Compass切片上进行了评估,该切片如图2(a)所示。当使用RTM来总结数据时,条件均值估计(图2(c))未能捕捉到不整合面的形状。得益于CIGs(曲率成像梯度),WISE捕获了更多信息,因此产生了更准确的条件均值(图2(d))。在50个测试样本中,使用CIGs的结构相似性(SSIM)分数平均值为0.63,优于基于RTM的统计量,其平均SSIM为0.52。
质量控制。为了验证推断的迁移速度模型,我们将为初始FWI速度模型(图2(b))计算的CIGs(图3(a))与为推断的迁移速度模型(图2(d))计算的CIGs(图3(b))进行了对比。在推断的迁移速度模型的CIGs中,观察到近偏移聚焦能量的显著改善。后验样本本身也表现出类似的聚焦行为。
下游成像。虽然获取后验是理解不确定性的重要一步,但理解其对(30Hz)RTM成像的影响更为相关,因为这涉及到最终产品的不确定性。为此,比较了为条件均值(图4(a))计算的RTM与为差异显著的单个后验样本(根据图4(b)中的逐点标准差判断)计算的RTM。这些偏差随着深度的增加而增加,并与RTM推断困难的复杂地质相关。为了理解这种不确定性如何传播到RTM图像中,通过为不同的后验样本执行RTM并绘制标准差的结果来评估前向不确定性,如图4(c)所示。这些振幅偏差是不同的,因为将迁移速度映射到RTM上是高度非线性的,导致大面积振幅剧烈变化和边缘变暗,这是由Born建模的零空间引起的。虽然这些振幅敏感性是有用的,但迁移速度的偏差也会导致反射器定位的差异。使用局部互相关技术[59]计算了参考图像(图4(a))与不同后验样本的RTM之间的垂直偏移,并将其包含在图4(d)中,其中蓝色/红色区域分别对应上移/下移。正如预期的那样,这些偏移在深度较大的区域和边缘处最为明显,这些区域的速度变化最大。
4 讨论
一旦覆盖了计算800个CIGs和网络训练的离线成本,WISE就能够以仅计算一组用于较差初始FWI速度模型的CIGs的低计算成本,为未见过的地震数据生成速度模型。Open FWI案例研究证明了WISE能够为广泛的未见过的速度模型生成逼真的后验样本和条件均值。在Compass模型的情况下,初始FWI速度模型很差。然而,从单个一维初始模型获得的CIGs仍然能够捕获来自非零偏移量的相关信息。根据这些信息,网络学会了在推断时生成聚焦的迁移速度模型。WISE还产生了两种类型的不确定性,即(i)从噪声数据中估计迁移速度模型时的反演不确定性,以及(ii)前向不确定性,其中迁移速度模型中的不确定性传播到成像反射器的振幅和定位的不确定性中。后者也可以用于水平追踪[12, 60]和地震解释[61]等任务。
未来的研究机会仍然存在。一个领域涉及处理“摊销差距”,即CNF倾向于在多个数据集上最大化性能,而不是在单个观测上表现出色[62]。为了提高单个观测的性能,特别是对于分布外样本,可以采用计算成本更高的潜在空间校正[22],这些校正结合了物理学原理。此外,还可以使用速度延拓方法[44, 63],包括神经算子[64]的最新进展。这些方法可以抵消为每个后验样本运行RTM的成本。
https://arxiv.org/pdf/2401.06230v1