本文版权归天然气工业杂志社所有
未经允许,不得转载
武娟, 罗仁泽, 雷璨如, 等. 基于大语言模型的致密砂岩储层测井含水饱和度预测[J]. 天然气工业, 2024, 44(9): 77-87.
WU Juan, LUO Renze, LEI Canru, et al. Prediction of water saturation in tight sandstone reservoirs from well log data based on the large language models (LLMs)[J]. Natural Gas Industry, 2024, 44(9): 77-87.
作者简介:武娟,女,1996 年生,博士研究生;主要从事储层评价、深度学习研究工作。地址:(610500)四川省成都市新都区新都大道8 号。ORCID: 0000-0003-3842-6878。
E-mail: 1605643696@qq.com
通信作者:罗仁泽,1973 年生,教授,博士研究生导师,博士,本刊编委;主要从事油气信号处理、深度学习人工智能方法及应用研究工作。地址:(610500)四川省成都市新都区新都大道8 号。ORCID: 0009-0003-2766-7008。
E-mail: lrzsmith@126.com
武 娟1 罗仁泽1,2,3 雷璨如1
殷 疆4,5 陈星廷1
1. 西南石油大学地球科学与技术学院
2. 油气藏地质及开发工程全国重点实验室·西南石油大学
3. 西南石油大学电气信息学院
4. 西北大学地质学系
5. 大陆动力学国家重点实验室·西北大学
摘要:致密砂岩储层测井含水饱和度预测是油气藏储层评价和产量预测的关键步骤,应用机器学习模型预测含水饱和度在一定程度上缓解了常规方法预测误差大的问题。但是现有的机器学习方法通常使用有限的测井数据从头开始训练模型,导致模型能力受限,进而阻碍了它的泛化能力。为此,基于大语言模型(LLMs)出色的泛化性能及丰富的知识信息,引入LLMs 进行储层测井含水饱和度预测,提出了一种基于真实关系及表格Transformer 网络(REaLTabFormer)增强的LLMs 对齐框架模型(RTF-LLA),最后进行了实验对比验证。研究结果表明:① RTF-LLA 模型由数据增强、知识蒸馏和跨模态对齐3 个核心模块构成;②数据增强模块以原始测井数据为基础,利用REaLTabFormer 捕获测井参数与储层物性参数间的内在关系,生成了高信息量的测井数据;③知识蒸馏模块从LLMs 提取主要的知识信息,指导测井数据与LLMs 文本知识进行跨模态对齐,并赋予模型准确预测储层测井含水饱和度的能力;④跨模态对齐模块通过词元对齐、特征对齐和序列对齐,有效地降低了模型对储层含水饱和度的预测误差。结论认为:①RTF-LLA 模型在S 气田储层饱和度实验评价中的平均绝对误差和均方根误差分别为1.332 和2.207,相较于其他主流机器学习算法至少降低了3.310 和3.174 ;②RTF-LLA模型可为小样本测井资料储层含水饱和度准确预测提供有效技术支撑,为储层测井含水饱和度预测提供了新思路、新方法。
关键词:大语言模型;跨模态对齐;致密砂岩储层;测井含水饱和度预测;泛化能力
0 引言
随着油气勘探开发进程的加深,非常规气实现了跨越式发展[1]。其中致密砂岩气藏储量资源丰富, 具有较高的经济效益[2]。但此类气藏大多具有异常低压、非均质性强、含水饱和度高等特点[3]。致密砂岩气藏受含水饱和度约束,投产井的生产特征存在明显差异[4]。尤其对于出水气井普遍存在的油气田,含水饱和度严重制约了油气井的稳产和增产。储层含水饱和度增大,油气井的开采效益会急剧降低[5]。因此, 储层含水饱和度的准确预测与评价对于含水致密砂岩气藏的勘探开发具有重要的现实意义[6]。在常规油气藏开发中,有多种方法能够有效评价含水饱和度, 例如实验室法、电法方程[7]、非电常规法[8]、核磁共振法[9] 等。但实验室法与核磁共振法成本高且耗时; 电法方程如常用的Archie(阿尔奇)、Total-shale 以及Simandoux 模型等[10] 受地层水矿化度、孔隙结构和黏土矿物含量等因素影响较大;非电常规法则依赖于经验数据,对储层类型有特定要求。传统的测井饱和度评价方法对含水致密砂岩储层的适用性较差。但是机器学习、深度学习等人工智能方法能够发现测井曲线信息与储层物性参数之间的关联。
近年来,人工智能方法在油气勘探领域的应用取得了突破性进展。大量学者围绕储层参数评价开展了一系列研究工作[11-13]。韩宏伟等[14] 提出一种半监督学习的孔隙度计算方法,该方法通过井震联合的方式,基于双向门控递归神经网络实现了储层横向孔隙度预测;王俊等[15-16] 利用改进的循环神经网络深度捕捉测井曲线与物性参数的关系,建立上下文信息关联,实现了储层参数准确预测。然而,循环神经网络容易出现梯度消失及梯度爆炸等问题,尤其在处理长序列任务时计算效率较低,难以进行并行处理。王欣等[17] 利用聚类算法增强邻域信息,并引入多层长短期记忆神经网络进行储层参数预测,但储层强非均质性在含水饱和度评价方面误差值较大; 李贺男等[18] 提出了基于卷积神经网络(Convolutional Neural Networks,CNN)与长短期记忆网络的储层参数预测融合模型;Zhang 等[19] 提出一种融合时间卷积网络预测孔渗饱参数的方法,但卷积网络容易忽视局部和整体的关系,导致有用信息的丢失,并且算法容易陷入局部极值;Sun 等[20] 引入了一种CNN 与Transformer 融合模型以提高孔隙度预测的准确性, 该模型利用了CNN 模型出色的空间特征捕获能力和Transformer 长距离复杂序列关系捕获能力,使得模型能更好地整合不同深度或时间的信息;Okon 等[21] 开发了一种基于多输入多输出的人工神经网络,用于预测储层孔渗饱参数,但由于浅层网络结构简单, 泛化能力有限,解决复杂非线性问题具有局限性;桂金咏等[22-23] 利用随机森林(Random Forest,RF)方法实现了储层含气饱和度、孔隙度的有效预测,但RF 需要调节决策树参数以获得模型最佳性能,并且对数据噪声较为敏感,影响模型预测精度,同时由于其集成特性,在处理小样本问题时存在限制。
尽管上述常规机器/ 深度学习方法在储层参数预测中取得了一定的突破,但他们通常使用有限的测井数据从头开始训练模型,导致模型能力受限。近期,大型语言模型(Large Language Models,LLMs) 以其卓越的上下文理解与文本生成能力,已经迅速渗透至各个专业领域[24]。在自然语言处理[25]、计算机视觉[26] 和生物信息学[27] 等领域,LLMs 正推动着技术的飞速进步和创新。然而,鲜有学者将LLMs 应用于储层参数预测。此外,在油气藏开发过程中, 由于获取岩心数据较困难,加之测井曲线与储层物性参数之间的对应关系也较为复杂[28-29],模型的设计时需要考虑这2 个问题。为此,利用LLMs 自身丰富的知识来指导致密砂岩储层的含水饱和度预测,提出一种基于真实关系及表格Transformer 网络 (REaLTabFormer)增强的LLMs 对齐模型,即RTF-LLA 模型(REaLTabFormer augmented Large Language models Alignment Framework),来解决小样本致密砂岩储层的含水饱和度评价问题,该模型在实际应用中表现出良好的适用性,为高含水致密砂岩储层的含气性评价提供了技术支撑。
1 问题提出
含水饱和度参数计算在流体识别和储量评价中至关重要,因此,对其精确预测可为油气勘探开发提供有效指导。致密砂岩储层表现出强非均质性, 岩石中孔隙和喉道尺寸大分布不均,孔隙结构复杂, 连通性差。而主流饱和度评价方法主要有以阿尔奇模型为基础的物理模型,但阿尔奇模型[30][ 式(1)] 在均匀孔隙型的常规砂岩储层中较为适用,对于孔隙结构复杂的致密砂岩储层,其岩电关系存在“非阿尔奇”现象,其变体如Waxman-Smits(W-S)模型[31] [ 式(2)] 计算结果与岩心含水饱和度值仍有一定偏差,由于物理模型中的许多参数值源于岩石物理实验,但岩心样本数有限,所得参数值可靠性差,以致模型适用性差[32]。
现有一些机器学习方法, 如高效梯度提升(LightGBM)模型[33]、RF 模型和极端随机树模型(Extremely Randomized Trees,ET)等,在复杂孔隙结构储层含水饱和度参数预测中有较好的适用性。但由于取心样本不足,使得机器学习模型没有足够信息支撑,并且致密砂岩储层非均质情况严重,含水饱和度多超过50%,局部出现低阻特征,导致常规方法在高含水的致密砂岩储层参数预测中应用效果并不理想,预测结果与岩心实验数据差距较大。利用阿尔奇公式、LightGBM 和RF 等主流方法进行含水饱和度计算,预测结果与岩心分析值进行比较,结果表明这些方法误差较大,预测精度不高(图1)。因此, 以鄂尔多斯盆地S 气田致密砂岩储层为研究对象,基于原始岩心、测井数据,设计数据增强策略,对高含水致密砂岩储层饱和度预测进行探索性的研究工作。
此外,得益于LLMs 强大的上下文建模及泛化能力,可有效改善机器学习方法预测能力欠佳的问题, 引入LLMs 对致密砂岩储层含水饱和度进行预测。然而,LLMs 预训练词元的嵌入向量无法与测井数据的嵌入向量较好地对齐,这限制了LLMs 在储层饱和度预测中的能力。基于此,设计知识蒸馏及跨模态对齐策略来缩小文本知识和测井数据之间的模态差距,以进一步提高基于LLMs 的储层饱和度预测模型的能力。
2 方法
笔者引入LLMs 进行储层含水饱和度预测,提出了一种基于REaLTabFormer 增强的LLMs 对齐框架模型,即RTF-LLA 模型(图2)。RTF-LLA 模型由数据增强、知识蒸馏和跨模态对齐3 个核心模块构成。首先,数据增强模块旨在通过生成与原始测井样本特征相似的合成数据集,以丰富数据集的特征信息,利用REaLTabFormer 捕获测井参数与储层物性参数的内在关系,进而生成高信息量的测井数据;其次,知识蒸馏模块从LLMs 提取关键的知识信息,以指导测井数据与LLMs 文本知识进行跨模态对齐,以及赋予模型对储层含水饱和度进行精确预测的能力;最后,跨模态对齐模块通过词元对齐、特征对齐和序列对齐3 种对齐方式,有效地降低了模型在预测含水饱和度时的误差,从而提高了预测的准确性。
2.1 REaLTabFormer 数据增强
REaLTabFormer[34] 是一个基于Transformer 架构的表格数据生成模型,用于生成高信息量的合成数据集。首先,该模型采用基于文本策略的固定词汇表方法,为测井数据中的每一列生成固定词汇表,使得在生成合成值时能过滤不相关的数据,减少生成无效样本的概率;其次,使用自回归模型(GPT-2)来建模测井数据,其所依赖的注意力机制允许模型在进行预测时关注测井数据最相关的部分,有效地捕捉测井数据的条件分布;最后,模型引入目标掩码策略以降低模型训练过程中复制数据的风险。给定原始测井数据为Xorg,经过REaLTabFormer 模型增强后的测井数据(Xaug)为:
REaLTabFormer 模型对长距离依赖关系和向量内部联系特征有较强的捕捉能力,而岩心数据、测井数据在纵向深度上存在显著依赖性。因此,应用该模型能更好地提取岩心及测井数据特征,达到数据有效增强的目的。
2.2 知识蒸馏
2.3 跨模态对齐
利用LLMs 进行含水饱和度预测,核心在于解决LLMs 文本知识与测井数据之间固有的模态差异。为此,提出通过词元对齐、特征对齐和序列对齐3 种对齐方式,以迁移LLMs 的知识辅助含水饱和度的预测。
给定增强后的测井数据(Xaug),首先经过嵌入层(Embedding)得到目标变量(含水饱和度)词元序列表示,再通过多头自注意力(Multi-Head Self Attention,MHSA)机制获得含水饱和度词元序列的注意力值(Xw):
将含水饱和度词元序列的注意力值(Xw)及对齐的文本词元序列(Xt)输入到Transformer 中,分别计算其隐藏向量特征:
特征对齐模块的目标是将隐藏文本序列特征Ht,l 的知识迁移到隐藏含水饱和度序列特征Hw,l 中。因此, 定义特征正则化损失为:
将第l 层的含水饱和度序列特征(Hw,l)及文本序列特征(Ht,l)分别与Xw 和Xt 进行残差连接,再经过线性层映射,输出预测的含水饱和度序列(Yw)与文本序列(Yt):
2.4 模型训练
模型训练结束后,将最终输出得到的含水饱和度序列Yw 与真实含水饱和度进行比较,以评价模型预测性能。
基于RTF-LLA 模型的致密砂岩储层含水饱和度预测算法如表1 所示。
3 实验设计
3.1 实验环境及参数设置
所有实验均在单块NVIDIA GTX 3090 GPU 上进行。选取预训练的GPT-2 作为LLMs,使用Adam 优化器进行优化,学习率设置为5×10 -4。对于总损失函数,设置超参数γ = 0.8、λ1 = 1 和λ2 = 0.01,3 种类型的损失均采用L1 损失(指预测值和真实值之间绝对差值的平均值)。主成分数量设置为d = 500。
3.2 数据来源
所使用的含水饱和度评价数据集是来源于鄂尔多斯盆地S 气田高含水致密砂岩储层,总共包含203 组数据。S 气田位于鄂尔多斯盆地伊陕斜坡西北部;主要储层为二叠系下石盒子组和山西组,其受地层水影响较大,气水关系复杂[35] ;储层矿物组分富含石英, 储集空间以次生孔隙为主,孔喉细小,孔喉结构复杂[36-37] ;储层岩性普遍致密,属于典型高含水致密砂岩气藏[38]。考虑到地层测井响应特征受矿物成分导电性影响,粒度、裂缝、地层水矿化度和岩石孔隙结构等均会影响三孔隙度曲线及电阻率。据此,优选自然电位、自然伽马、密度、补偿声波、井径、地层电阻率、冲洗带电阻率为储层含水饱和度预测模型的输入,测井曲线及岩心含水饱和度数据统计如表2 所示。
3.3 模型评估指标
4 实验结果及分析
将所获得的气井全部岩心含水饱和度数据及其对应的测井曲线,共203 个×7 组作为原始测井数据集。首先,利用REaLTabFormer 对原始测井数据进行数据增强,生成大小分布特征相似的1 500 条合成测井数据(与原始测井数据不重复),有效提取并扩充岩心数据的细节信息。其次,将数据增强后的1 500 条测井数据输入LLA 模块进行跨模态对齐训练。最后,利用原始测井数据作为测试集,测试模型对高含水致密砂岩储层饱和度预测的性能。RTF-LLA 预测结果与岩心真实值如图3 所示。由图3 可知, 含水饱和度真实值与预测值拟合度较好。此外,图4 中储层含水饱和度预测误差直方图表明,误差基本集中分布在0 ~ 2,误差范围较小。RTF-LLA 模型实验结果的MAE、RMSE 和R 分别为1.332、2.207 和0.986,证明了笔者所提算法对致密砂岩储层含水饱和度评价的可行性高。
4.1 消融实验
首先,对不同损失函数进行消融实验。特征正则化损失迁移文本模态知识到含水饱和度序列,而模态一致性损失确保了不同模态间的输出一致性。监督损失直接利用真实测井数据训练模型。表3 展示了不同损失函数对模型性能的影响。当模型仅使用监督损失时,MAE、RMSE 和R 分别为1.502、2.421 和0.983。而增加特征正则化损失或模态一致性损失后, 模型预测效果有一定的提升。当3 种损失结合使用时, 模型性能最佳,实现了最低的MAE 和RMSE,最终R 达到0.986。
其次,对数据增强RTF 模块进行消融实验。RTF 模块应用掩码多头注意力机制及过拟合约束原则,可提炼出测井与岩心数据之间更为丰富的细节特征信息。这一步骤显著增强了测井曲线与储层物性参数之间的相互依赖性,实现了数据的高质量扩充。数据增强模块的消融实验结果如图5 所示。由图5 可知, 不进行RTF 数据增强时,含水饱和度预测的误差更为明显。RTF-LLA 模型为小样本测井资料储层评价开辟了新途径,在引入RTF 数据增强模块后,预测性能显著提升,这进一步凸显了RTF 数据增强模块的有效性。
4.2 对比实验
为进一步验证模型的准确性与有效性,对RTF-LLA 模型与其他评估模型的预测结果进行对比分析。图6 为实测含水饱和度值与数据增强后多种模型预测含水饱和度值的相关性图。通过对比发现,使用RTF-LLA 模型的储层含水饱和度预测值与实际值吻合度最好,大部分数据点都集中在y = x 回归线附近。在含水饱和度值较小时,预测结果有所偏差,这是由于实验所获得该区块的岩心数据中含水饱和度小于45% 的值极少,模型在训练过程中难以学习到此分布。使用数据增强后,多数机器学习模型的预测值与实际值相关性约0.9,但RTF-AdaBoost 模型的预测值分布远离y = x,整体偏差大。RTF-CatBoost 模型预测结果总体分布于y = x 附近,但大多数预测值与实际值误差较大。此外,RTF-ET 模型的预测结果基本沿y = x 分布且较为集中,仅有少部分预测值偏离y = x,RTF-ET 模型的预测结果次优于RTF-LLA 模型预测结果。由于实际数据分布不均,多数机器学习模型在y = x 下方出现偏离较大的预测值,但RTF-LLA 模型应对不平衡数据分布的拟合效果优于其他模型。
表4 为岩心含水饱和度多种预测模型性能对比表。从表4 可以看出,相较于其他方法,RTF-LLA 预测模型在含水饱和度预测任务上的预测误差最小, R 达到0.986。当其余对比的机器学习模型未引入RTF 模块时,RTF-LLA 模型的MAE 和RMSE 分别至少降低3.310 和3.174,R 至少提升0.302。将RTF 模块引入到其他对比模型后,RTF-LLA 模型的MAE 和RMSE 分别至少降低1.175 和2.997,R 至少提升0.080。实验分析结果证明RTF-LLA 模型在高含水致密砂岩储层参数评估任务上,具有较高的预测精度和可靠性。
为了更好地展示RTF-LLA 的预测效果,选取研究区某井的对比实验结果进行可视化。如图7 所示, 展示了RTF-LLA 及多种机器学习模型对气井含水饱和度预测值的可视化结果。图7 中,深度右侧前3 道曲线是进行储层含水饱和度预测对应的输入测井曲线,深度右侧后8 道为RTF-LLA 及多种机器学习模型的含水饱和度预测结果对比情况,蓝色柱状为岩心实测含水饱和度数据。从图中可以看出, RTF-LLA 模型预测值与真实值吻合度最高,呈现出最佳的预测效果并且和试气结论相吻合,这同时也证实了笔者所提出方法对于该区储层研究具有重要的应用价值。
5 结论
1)针对岩心资料不足、储层含水饱和度与测井曲线对应关系复杂等问题,提出了一种基于RTF-LLA 模型的含水致密砂岩储层含水饱和度预测方法, 该方法模型包括数据增强、知识蒸馏和跨模态对齐3 个核心模块。
2)基于REaLTabFormer 的数据增强模块通过深度捕捉测井曲线与储层物性参数的潜在关联特征, 生成特征分布相似且细节信息丰富的合成测井数据; 知识蒸馏模块从LLMs 提取主要的知识信息,以指导测井数据与LLMs 文本知识进行模态对齐,并赋予模型准确预测储层含水饱和度的能力;模态对齐模块以词元对齐、特征对齐和序列对齐3 种方式,有效地降低模型对储层含水饱和度的预测误差。
3)通过与其他预测模型对比表明,笔者提出的方法具有最小的误差,证明了RTF-LLA 模型在面向小样本测井资料储层含水饱和度预测任务中的有效性。RTF-LLA 模型对于小样本致密砂岩储层孔隙度、渗透率等多种气藏物性参数预测同样具有借鉴价值。
4)在设计的储层含水饱和度预测模型框架中, 数据增强模块对模型整体预测能力的提升有显著贡献,在实际资料中用有限样本实现了高含水致密砂岩储层饱和度的准确预测,有效避免对成本高昂的岩心数据的依赖,可以极大地降低工程中的勘探成本。
编 辑 陈古明
论文原载于《天然气工业》2024年第9期
基金项目:四川省科技厅项目“新疆油田玛湖侏罗系三工河组致密薄储层地震预测方法研究”(编号:2024YFHZ0158)。
排版、校对:张 敏
审核:罗 强 黄 东
点击阅读原文,链接到《天然气工业》官网