【论文】范翔宇(本刊编委),等:基于自动机器学习的测井曲线重构技术

文摘   2024-09-27 09:30   四川  

本文版权归天然气工业杂志社所有

未经允许,不得转载

 

本文引用著录格式:

范翔宇, 孟凡, 邓娟, 等. 基于自动机器学习的测井曲线重构技术[J]. 天然气工业, 2024, 44(9): 38-54.

FAN Xiangyu, MENG Fan, DENG Juan, et al. Well logs reconstruction based on automatic machine learning technology[J]. Natural Gas Industry, 2024, 44(9): 38-54.


作者简介范翔宇,1974 年生,教授,博士研究生导师,博士,本刊编委;主要从事油气井工程测录井、油气井工程岩石力学、工程信息与控制等方面的教学与科研工作。地址:(610500)四川省成都市新都区新都大道8 号。ORCID: 0000-0002-1886-6318。

E-mail: 93334271@qq.com

通信作者:孟凡,1993 年生,博士研究生;主要从事地球物理信息技术与人工智能等方向的研究工作。地址:(610599)四川省成都市新都区新都大道8 号。ORCID: 0009-0004-3304-0727。

E-mail: mengfan.1993@163.com

范翔宇1,2 孟   凡1 邓   娟3 赵鹏斐1,2

廖思岚1 陈   雁4 张千贵2,5

1. 西南石油大学地球科学与技术学院

2. 油气藏地质及开发工程全国重点实验室• 西南石油大学

3. 中国石化胜利油田分公司物探研究院

4. 西南石油大学计算机科学学院

5. 西南石油大学石油与天然气工程学院

摘要:测井曲线在获取地下储层和油气信息时常因仪器故障、井眼垮塌等因素,导致部分井段测井曲线缺失或失真。相较于传统的经验模型和多元回归分析的测井曲线重构方法,机器学习可以更好地重构测井曲线、精准表征曲线之间复杂的非线性关系,但其仍存在普适性差、试错成本高和自动化程度低等问题。为此,以数据处理与特征工程、模型选择与调优、模型保存与预测、模型解释与公平性检验为技术流程,将自动控制技术应用于多模型选择与超参数调优过程中,配合数据预处理和可视化后处理手段,形成了一种基于自动机器学习的测井曲线重构工作流构建方法,并在生产中进行了验证。研究结果表明:①自动机器学习中,基于树的贝叶斯优化搜索可以兼顾预测性能和计算效率的平衡;②多模型的选择优于单一模型,可解释性分析和公平性检验可以指导模型选择,保证模型的泛化性;③加入地质分层和岩屑录井的非数值信息,有助于进一步提升预测的精度;④缺失值处理和标准化方法的选择会对模型性能产生一定的影响。结论认为:①相比于传统的机器学习方法,自动机器学习能够更好地发挥多模型选择与优化调参的潜能,自动化地寻找适应于研究目标的模型;②自动机器学习在提升精度和效率的同时降低了人工干预和试错成本,使机器学习方法能够更好地应用于石油地质勘探领域的各类预测任务。

关键词:测井曲线;曲线重构;自动机器学习;特征工程;模型选择

0  引言

随着油气勘探开发的不断深入,非常规油气已成为关注和研究的重点[1]。非常规储层、薄互层、裂缝孔隙型储层评价及老井深挖等方面的研究应用,对测井曲线质量和完整性提出了更高的要求[2-3]。然而在实际测井过程中,常因井壁垮塌、仪器故障、地层高温高压等外界因素,导致部分井段测井数据缺失或失真,对岩性和流体的指示变差,给测井评价解释工作带来很大的困难。基于岩石物理的传统经验模型和多元回归分析等建模方法可以对测井曲线进行重构反演[4-7]。然而,经验模型极大地简化了真实的地层信息,依赖于研究者的主观经验,适用性较差。多元回归分析方法难以反映测井数据间的非线性关系,表征空间有限,难以应对井下多变且复杂的情况。因此,探索并建立一种更高效的测井曲线重构方法流程,对完善区域测井数据库,增加地球物理勘探解释准确性具有重要意义。

近年来,随着机器学习的快速兴起与硬件算力的飞速提升,大数据分析逐渐成为各学科关注的焦点。机器学习方法以强大的特征映射和表征能力,在图像处理和自然语言方面获得了广泛的应用。在石油勘探测井领域,更是渗透到了测井解释、岩性判别、储层预测等多个专业[8-10]。测井曲线重构作为回归预测类任务,已涌现出大量模型与算法的应用[11-17]。日益复杂的模型和算法导致了更高的学习和应用成本,其目的仅是逼近数据集中隐含的数据映射上限。对于地质勘探人员,复杂的模型和算法只会造成精力的严重浪费。明确工作流程,降低模型选择难度, 将更多精力用于数据集质量提升和应用上,更有助于机器学习在专业领域的长足发展。

目前,没有任何一种算法可以在所有机器学习任务中取得绝对优秀的性能[18]。研究人员必须深度参与机器学习的每个阶段,导致精力的过度损耗和对经验丰富专家的高度依赖。为了改善这种状况,自动机器学习(Automated Machine Learning, AutoML) 已成为工业和学术感兴趣的热门话题[19-20]。自动机器学习旨在减少应用过程中的人工干预成分,从自动化的角度出发,集成多种先进机器学习模型,自动化模型选择与超参数调优(以下简称超参调优)过程, 运用模型可解释分析技术与多指标性能评估手段,设计出应用于问题的端到端自动化解决方法,让不具备数据科学专业知识的人也能够成功搭建机器学习模型。与传统的机器学习方法相比,自动机器学习拥有更快的模型与超参数迭代速度,可以在短时间内获得更高的预测精度和性能。

因此,笔者提出一种基于自动机器学习的测井曲线重构方法,以数据处理与特征工程、模型选择与调优、模型保存与预测、模型解释与公平性检验为线, 串联形成高性能、低成本的测井曲线重构预测工作流程,使勘探开发人员可以快速地将机器学习算法应用于具体研究区域。单次流程可从20 种机器学习模型中自动选择排名前三(TOP3)的模型,并自动进行超参调优,大大提高了测井曲线重构的训练效率和预测精度。最后,针对地质分层与录井岩性特征、离群值处理、缺失值处理和数据标准化方法4 个因素对模型预测性能的影响进行分析,获得了适用于研究区域的测井曲线重构预测方法。

1  自动机器学习原理与方法

1.1  理论与定义

自动机器学习的理念来源于自动化和机器学习2 个学科的交叉融合。自动化指没有人或较少人参与, 使用各种控制方法使系统达到目标的过程[21]。机器学习指当一个程序通过经验在某任务上获得了评估性能的改善时,称该程序关于任务和性能对经验进行了学习[22]。自动机器学习则是希望减少或替代耗时费力的人工研究筛选过程,使研究人员专注于明确问题定义范围和提升数据收集质量,即在有限计算预算下,全部或部分取代人类的筛选行为,得到满足性能指标的机器学习流程配置的自动化方法。在此基础上,自动机器学习问题可定义如下:

通常,机器学习流程可以划分为问题定义、数据收集、特征工程、模型训练、模型优化、模型评估和模型应用等7 个步骤。其中,特征工程、模型训练、模型优化和模型评估需要反复试错迭代,以获取性能最佳的工作流程。一旦最佳流程确定,保存后的模型仅需要收集新数据,即可快速应用获得预测结果。自动机器学习的自动化流程由数据科学专家精心设计,部分或全部替换人工的研究筛选过程,达到的预测精度会比传统的机器学习模型更快、更高。其核心优势在于加快模型优化迭代速度,快速获取满足精度目标的机器学习模型。其工作流程如图1 所示。

图1  自动机器学习工作流程示意图

1.2  搜索空间

1.2.1  特征工程

数据特征的质量是后续模型学习性能的重要保障[23],机器学习特征工程是将原始数据转化成更易表达问题本质特征的过程。常规的机器学习算法一般不具有深度神经网络的自主构建隐含特征的能力[24], 但可以通过设计具有针对性的数据预处理流程,达到提取隐含特征的效果。以自动构建特征为目标,特征工程包括特征选择和特征增强2 个内容。

特征选择可以去除不相关或冗余的特征,目的是简化模型,从而避免过度拟合。特征选择是一个搜索的过程,首先基于搜索策略形成特征子集,随后进行评估,最后验证确定子集是否有效,否则重复迭代过程[19]。搜索策略涉及3 种类型的算法: 完全搜索、启发式搜索和随机搜索,其中随机搜索法中常用的是模拟退火和遗传算法。对子集的评估方法可分为过滤式、包装式和嵌入式3 种:过滤式方法考虑每个特征的散度或相关性,通过设定阈值进行选择,如相关系数检验法;包装式方法使用选定的特征子集对样本集进行分类,以分类准确度作为标准来判断特征子集的质量;嵌入式方法实际上是将变量选择的作为模型学习的过程之一来执行,如决策树方法。

特征增强可以对特征进行变换和组合,目的是增强模型鲁棒性和泛化性。虽然该过程经常基于领域知识进行人工判断,但也形成了一些通用的方法和原则,如特征降维、特征构建和特征编码。

1)特征降维。通过映射函数根据某些指标提取信息和非冗余特征,与特征选择的差异在于它改变了原始特征。常用的方法有主成分分析(Principal Component Analysis, PCA)和线性判别分析(Linear Discriminant Analysis, LDA)。

2)特征构建。本质是为了增强原始特征的数据表达能力,这一过程高度依赖于人工专业知识,如标准化、归一化、数据离散化和数据之间的加减乘除等操作。然而手动探索所有可能性很不现实,因此有自动搜索和评估组合的方法,如基于决策树[25] 和遗传算法[26] 的需要预定义操作空间的方法,也有基于注释的方法[27]

3)特征编码。特征编码是基于数据中学习到的字典映射对原始特征进行重新解释,使在原始特征空间中不可区分的训练样本在新的控件中可以被分离, 常见的编码有稀疏编码[28] 和局部线性编码[29]。此外, 核函数方法也可以认为是一种特殊的特征编码形式, 即使用基函数作为字典构造映射。

在特征工程中,自动机器学习需要处理的搜索空间主要有2 类:一类是要生成的特征和选择的特征; 另一类是由特征处理工具的超参数组成,例如主成分分析法中含有2 个参数(确定特征维度的数值型变量和是否使用稀疏编码的布尔型变量)。总的来说,拟采用的特征工具预处理工具越多,搜索空间就会越大,预测性能的近似误差就越小,但潜在的优化误差就会越大,消耗的计算资源和时间成本也随着增大。

1.2.2  模型选择

确定了输入特征,下一步就是选择1 个或1 组模型来进行训练和预测,通过验证和测试流程确定模型配置和检验模型泛化性,得到在特定条件下的最佳模型。这也是大部分学者或研究人员经常关注并投入大量研究精力的领域。目前文献中已经提出了很多种类机器学习模型工具,如树模型、线性模型、核函数模型和深度神经网络模型。但每种模型在数据建模上都有一定的优势和劣势,例如树模型能够获得很好的训练精度,但很容易过拟合导致泛化性不佳; 线性模型预测效果稳定,但无法处理强非线性关系。收集足够多理论成熟且广泛适用的机器学习模型作为待选模型就显得十分重要。以Scikit-learn 机器学习库(以下简称Sklearn 库)为例,作为经典的机器学习模型库,内置了很多相关的机器学习模型,部分经典的算法模型的超参数情况如表1 所示。

表1  Sklearn 库中经典算法模型的超参数数量统计表

传统机器学习研究过程中,不同模型及其超参数的选择通常由人工试错的方法决定,十分依赖主观经验。然而自动机器学习的出现改善了这种精力浪费的情况。在模型选择时,备选的算法模型及其对应的超参数构成了分层结构的搜索空间(图2)。当使用对应的算法模型时,就需要搜索并确定其最优超参数配置组合。与特征工程一致,搜索空间越大, 模型预测性能将会越好,但优化难度和计算资源也会增加。

2  多模型参数搜索空间的分层结构示意图
注:c 表示超参数是连续型变量,d 表示其为离散型变量。

1.3  优化与评估策略

优化与评估策略是实现自动机器学习的主要方式,亦可称之为控制器。控制器包含2 个主要成分, 优化器和评估器(图3)。优化器专注于搜索和优化搜索空间的参数配置,评估器专注于使用优化器选定的超参数来衡量学习工具与当前配置之间的性能。随着研究的不断进步和发展,通过从过去或外部数据中学习和积累经验的方式也开始用于自动机器学习领域,如元学习[31] 和迁移学习[32]

图3  自动机器学习系统控制器构成图
1.3.1  优化器

训练优化环节是自动机器学习中最消耗时间的步骤。对于优化,通常采用凸损失函数的评估标准, 因此大部分优化算法最终获得的性能是相对接近的[33]。所以平衡效率和预测性能才是优化器的主要目标。对于优化算法,根据可以处理搜索空间类型和需要获取反馈形式可以分为4 类:简单搜索方法、基于样本优化方法、梯度下降方法和贪心搜索方法[20]

简单搜索方法包含网格搜索和随机搜索。网格搜索是一种枚举方式,尝试搜索空间的所有可能,当搜索空间中具有连续性参数时,需要将参数离散化。随机搜索采用随机采样的方式,会比网格搜索更加节省时间[34]。但这2 种简单搜索方法对搜索空间都没有进行假设,仅依赖评估器的反馈来确定最佳配置,虽然比较低效,但是由于其简单易用,仍具有广泛的应用场景,如Sklearn 库中经典的GridSearchCV RandomizedSearchCV 方法。

基于样本优化方法是更智能的搜索方法,它根据先前的评估样本自适应的生成新的配置,显得更加有效。根据不同的优化策略,又可以分为启发式搜索(如粒子群优化算法、进化算法)、基于模型的无导数优化方法(如贝叶斯优化)和强化学习。

梯度下降方法基于可微的损失函数,通过梯度下降来优化连续超参数,能更好地定位配置,也能处理更复杂的搜索空间。区别于传统的显式计算优化,梯度下降法依赖数值计算,因此计算成本较高, 传统机器学习的逻辑回归和支持向量机均可以使用该方法搜索超参数[35],而深度学习使用链式规则计算梯度,通过反向传播更新超参数[36-37]

贪心搜索方法是解决多步决策问题的常用策略, 在求解时做出局部最优决策。虽然贪心搜索不一定能够找到全局最优,但能以合理的时间成本逼近全局最优的局部最优,在特征选择中有一定的应用[38-39]

在以上的优化搜索方法中,网格搜索和梯度下降方法均有效率低的缺点。在自动机器学习工具中, 常采用随机搜索方法和基于样本的贝叶斯优化方法, 既可以保证搜索效率,也能够获取满意的预测精度。以经典的优化搜索工具为例,在Auto-WEKA 库和Auto-Sklearn [40-41] 中,常用基于顺序模型的优化方法(Sequential Model-Based Optimization, SMBO), 该方法通过迭代解决黑盒优化问题,将从超参数构建的概率模型映射到验证集的评估指标中,很好地平衡了超参数探索和资源分配的问题。而在Hyperopt [42-43] 中,进一步采用了基于树结构的贝叶斯优化方法,并使用分布式异步的计算设计策略加快超参数搜索的速度。因此,笔者将其作为本次研究中超参数搜索的主要方法。

1.3.2  评估器

评估器的目标是衡量机器学习流程配置的性能,一般通过训练集、验证集和测试集来反映。此外,评估器也可以给优化器提供反馈,例如梯度下降方法需要梯度信息。和优化器不同,评估器不太关心配置的搜索空间,一般直接对学习模型参数进行评估。针对不同类型的机器学习任务,其评估指标也有所不同。如在回归任务中,常用的评估指标有平均绝对误差(Mean Absolute Error, MAE)、均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)、可决系数(R2)等。有时也可以根据实际需求进行针对性的设计,如针对时间序列数据的DILATE loss 函数[44]。总之,计算效率是评估器优先考虑的问题。

在数据量庞大的时候,会使用子集的方式进行评估。小批量子集是在大数据背景下加速训练和评估的方式,通过使用样本的特征子集来进行每一轮的评估。例如,在神经网络训练时常用的小批量梯度下降法。

在经典的机器学习训练过程中,也会依据评估指标使用早停的方式防止过拟合。早停是一种防止模型过拟合的常用方法,通过提前观察早期较差的训练效果[45],在自动机器学习中可以提前停止对应流程配置的训练并返回训练报告,降低模型训练的运行时间。然而早停也会引入一些噪声和误差,因为部分早期性能不佳的配置可能在足够的训练后表现优越。

1.4  自动机器学习工具库

总的来说,自动机器学习工具通常会关注如何整合与优化特征工程、模型选择和优化算法3 个领域的前沿进展,同时也会提供很多相关的配套工具模块,如探索性数据分析、模型可解释性分析和模型本地化/ 云端部署等方面。笔者对国内外现有的自动机器学习相关工具与开源代码进行了系统的整理与优势分析,结果如表2 所示。

表2  自动机器学习工具库统计表

基于对各类自动机器学习库的分析,笔者选用PyCaret 库作为主框架来搭建测井曲线重构方法的自动机器学习工作流程。PyCaret 库是新兴的自动机器学习框架,与其他主流的开源机器学习库不同,它的优势在于精心的流程设计与完善的整合包装,包含了SklearnXGBoostLightGBMCatBoostOptunaHyperoptRay 等多个机器学习库和优化库的功能。在应用上,简化了训练、评估和部署的代码有助于将注意力集中于问题定义、数据收集等更实用的流程, 而不陷入复杂的技术细节。在功能上,涵盖了从数据预处理、特征工程、模型选择、超参调优、模型评估和部署等机器学习的元素。在绘图上,提供了特征重要性分析、敏感性分析、公平性检验等相关绘图来帮助用户理解模型预测行为,判断模型的适用性。

2  自动机器学习实验设置

以孤岛探区为研究对象,该探区位于渤海湾盆地济阳坳陷沾化凹陷,已钻遇层位为新近系和古近系,其中新近系披覆于古近系基岩之上,形成不整合接触。探区岩性以砂/ 泥岩为主,主力产层为新近系馆陶组和古近系沙河街组,其中沙河街组自上而下细分为沙一段、沙二段、沙三段和沙四段。该区域共收集到463 口井的相关数据,并从中筛选出了70 口测井系列完整的井作为数据集。该数据集包含了井径、自然伽马、补偿密度、补偿中子、声波时差共5 条测井曲线以及地质层位、录井岩性2 类离散数据。其中地质分层和录井岩性的添加不仅是为了体现自动机器学习流程对离散型数据的处理方式,更是为了测试其存在对预测性能的提升程度。声波时差曲线为重构目标,以数据预处理与特征工程、模型选择与超参调优、模型保存及预测性能、模型解释与公平性检验为流程,依次说明基于自动机器学习的测井曲线重构工作流程。

2.1  数据预处理与特征工程

井曲线具有种类多、数量大和多源异构的大数据特征[3]。原始测井曲线以井名、井次进行区分, 同类型测井曲线在不同井之间可能存在单位不统一、值域不一致等情况,因此需要优先进行检查与校正。对于声波时差、井径曲线,可依据以下公式进行统一。

式中ΔtΔt' 表示声波时差,单位分别为μs/mμs/ft dhdh' 表示井径,单位分别为cmin

对于自然伽马曲线,新旧仪器的刻度差异和采集过程中的系统误差会造成自然伽马曲线值在相似地层时,数据分布和值域出现较大差异。自然伽马曲线基于“同期同相地层具有相似测井响应”的原则进行标准化。由于探区平面范围较大,统一的标志层不易选取,因此首先使用K-means 聚类方法依据井位大地坐标的欧氏距离通过不断调整聚类簇数量进行预分组,随后在测井软件中绘制组内连井剖面, 观察井间测井曲线相似性进行检验。若组内井间差异大的井数据较多,则调整K-means 聚类数量重新进行迭代,若井间差异大的井数量较少且位于组内边缘,则调整至邻组进行连井剖面检验。经多次尝试,该区域最佳数量为6 组(图4)。待预分组确定后, 选择标志层及标准井使用直方图法进行标准化校正, 其部分井校正前后对比如图5 所示。

图 4  基于 K-means聚类分析的井位分组分布图

图5  研究区自然伽马曲线标准化校正前后对比图

经过对测井数据的预处理后,以曲线系列完整性和该井是否含有录井岩性为筛选标准,去除多余井段,得到了70 口井作为数据集,总数据量达到 375 703 行。随后以井为单位按5∶1∶1 的比例划分为训练集、验证集和测试集,验证集用于训练过程中的性能度量,测试集将作为盲井,仅在最终的性能测试中使用,用于检测模型的泛化性。对于验证集的选取,与传统机器学习使用交叉验证采用百分比随机抽样不同,以井为单位的切分方式可以有效避免因交叉验证而导致的验证集精度过高。

以上数据预处理过程是依据测井领域知识的针对性调整,除此之外,还有许多机器学习通用的数据预处理方法。在PyCaret 库的实验初始化设置中,以面向对象的形式定制多种数据预处理过程。数据将以Pandas.DataFrame 的形式导入,并依次进行特征类型、缺失值插补、离群值处理、特征编码、标准化、训练策略等参数的设置。在数据预处理之后,再通过特征工程查看转换后的特征间相关性,对特征进行选择。

2.1.1  特征类型设置

计算机对于数据的存储形式主要为数值型和分类型2 种。数值型以整数和浮点数为主,能够被机器学习模型直接接收。而分类型以多类别和布尔型为主,也有顺序含义的序数类型,需要转换为数值型数据才能够被模型所接收。虽然自动机器学习可以根据数值形式自动划分类型,但对于输入时已经编码为01 的分类型数据,明确设置数据类型可避免后续预处理过程中的混淆。本次实验以深度、井径、补偿中子、补偿密度、自然伽马作为数值型数据特征,以地质层位、录井岩性作为分类型数据特征。地质层位有深度上的序数含义,可进一步以明化镇组、馆陶组、东营组、沙一段、沙二段—沙三段、沙四段为顺序来初始化。

2.1.2  缺失值插补与离群值处理

部分井段的录井岩性存在缺失值,可使用丢弃、统计值替换或分类器迭代计算的方式进行插补。实验中使用迭代计算的方式,将缺失值插补视为分类预测的任务,可调用的算法包含随机森林、梯度提升决策树、K 近邻等多种分类器,默认使用轻量级梯度提升决策树进行缺失值插补。

测井曲线由于仪器误差和测量环境原因,可能存在的异常离群值,使用奇异值分解技术通过PCA 线性降维技术可以识别异常,通过异常值阈值比例参数进行。可用算法包含孤立森林、椭圆包络、局部离群因子等方法,覆盖了基于分类、统计和密度的离群点检测方法,本次实验使用孤立森林方法。

2.1.3  特征编码与标准化

离散的分类数据特征需要进行编码才可以被模型读取。在PyCaret 库中,当分类特征的类别数量小于25 时,采用one-hot 方式编码为稀疏矩阵。当类别大于25 时,one-hot 方式编码会造成内存的极大浪费,此时会采用LeaveOneOutEncoder 方式编码,该方法排除当前行并计算该类别的目标平均值,既避免了行泄漏,也保证了编码数据的分布多样性。实验中地质层位数据以one-hot 方式编码,形成包含01 值的6 列特征。录井岩性以LeaveOneOutEncoder 方式编码,形成具有浮点数形式单列特征。

不同测井曲线类型具有不同的值域范围和频率分布特征,采用归一化或标准化进行处理,即将特征数据统一为0 1 区间或均值为0 方差为1 的范围, 避免因值域差异导致的模型系数优化困难。实验中默认使用采用归一化方式,并在讨论部分比较与标准化方式的精度差异。

2.1.4  训练策略

机器学习的回归任务以逐点计算进行建模,可采用交叉验证或传入验证集验证的方式来进行训练。交叉验证在每一折的训练过程中,会以等比例的方式将输入训练集切分为训练和验证2 个部分,不能有效地考虑测井曲线的井间差异,导致模型易过拟合, 泛化性降低。因此,本次实验在井数量充足的情况下, 采用传入验证集验证的方式来进行训练,使用测试集来测试模型的泛化能力。

2.1.5  探索性分析与特征选择

探索性数据分析属于自动机器学习流程中的人工干预和检验核实部分。该过程以特征转换后的数据为分析对象,检查数据特征是否进行相应的转换、数据值域和分布是否达到满足需求、特征与预测目标之间是否存在过低的相关性等影响因素。探索性数据分析通过调用特征散点图、特征核密度图、小提琴图、热力图、柱状图等多种绘图手段,从多方面的角度来探索数据本质。其中,热力图可以快速地查看特征之间的相关性,确认预测目标与转换后特征的相关性(图6)。以录井岩性为例,转换后的数据为单列的浮点数的数值型数据。相关性热力图中, 声波时差与岩性的相关性达到了0.545,仅次于补偿中子和补偿密度曲线,说明该数据集中岩性类型对声波时差有明显的影响。

图6  连续型数值变量之间的相关性热力图

对于特征选择,PyCaret 库中提供了基于变量相关性的过滤式方法和基于模型和序列的包装式方法, 参数依次为特征选择、特征选择方法、特征选择评估器和特征选择的数量。此外,还有移除多重共线性、主成分分析、忽略低方差类别这些特征筛选方法。本次实验中,所有特征与目标之间均存在一定关联性, 因此不需要对特征进行筛选。

2.1.6  参数显示

在应用过程中,所有特征预处理和筛选方法均以参数形式进行传入setup)函数,并在预处理结束后,将输出状态表格显示预测目标、任务类型、数据维度及预处理方法等信息。

基于前文方法原理中对自动机器学习中特征工程的描述,自动化特征工程的核心在于对搜索空间中训练特征和预处理工具超参数的自动化选择。PyCaret 库中的特征工程虽然提供了多样的工具选择, 并将功能封装为可选的参数,但主观上并非完全自动,依赖于人工经验判断和试错。实际上,现有的超参数优化算法可以通过将特征工程中所有的选择视为变量,单独设计搜索空间,同模型选择与超参调优一起纳入到优化搜索算法的寻优过程中,以验证指标为优化对象自动化所有的过程,如Hyperopt 优化算法库。

缺少人工干预的特征工程存在2 个问题:①原始数据需要转换为模型易处理和符合专业认知的数据,适当的人工干预可以保证准确性并融入专业邻域知识;②将该过程并入模型选择和超参调优的搜索空间中,会进一步增大了优化算法的搜索范围和复杂程度,造成优化误差增大。基于上述原因,现有的大部分自动机器学习工具均保留了特征工程的人工干预成分,仅将优化搜索算法设计到模型选择与超参调优的环节,如PyCaret 库和AutoGluon 库。

2.2  模型选择与超参调优

完成数据特征的初始化设置后,PyCaret 库可以通过一行代码直接对所有可用模型进行初步比较,回归任务的评价指标包含平均绝对误差、均方误差、均方根误差、可决系数、均方根对数误差(Root Mean Squared Logarithmic Error, RMSLE)、平均绝对百分比误差(Mean Absolute Percentage Error, MAPE) 和TT 7 种,其中TT 代表了模型训练和评估所用的时间。如果需要增加评估指标,可以根据Sklearn.metrics 库中的函数标准进行设计并自行添加。在本次曲线重构任务中,平均绝对误差和可决系数将作为主要评估标准。在模型预选过程中,以平均绝对误差指标进行排序,选择TOP3 的模型进行后续的调优,其模型选择过程的评价指标输出结果如表3 所示。

表3  自动机器学习库回归模型评估结果对比表

在模型预选阶段,由于计算资源和速度的限制,对模型参数的探索还不完善。在获取TOP3 模型之后,可进一步使用tune_model)函数来对模型的进行调优,得到最佳模型参数组合。超参数优化效果受搜索空间和搜索算法约束。自动机器学习工具会将所有可用模型的搜索空间预定义,无需人工设置。以K 近邻回归模型为例,该模型有6 个参数,其中3 个默认为固定参数,另外3 个为可调超参数。固定参数分别为构建树的叶节点大小(leaf_ size=30)、用于距离计算的闵可夫斯基距离幂参数(p=2)和自定义度量参数的控制变量(metric_ params=None),可调超参数分别为预测每个点的邻居数(n_neighbors int{1,5l})、邻居的权重(weight "uniform","distance")和计算点之间距离的函数(metric "minkowski","euclidean","manhattan")。对于模型参数的优化搜索方法包含基础的随机搜索、网格搜索和基于树结构贝叶斯优化搜索。以KNN 回归算法为例,本次实验对3 种不同的优化策略的时间成本和精度进行比较,结果如表4 所示。比较结果可知, 网格搜索的方式非常耗时,虽然能够找到训练集上的最佳参数组合,但时间成本太高,因此不建议使用。随机搜索和树结构贝叶斯优化搜索方法时间成本控制较好,两者相比,后者能够基于样本对搜索过程进行优化,满足预测性能和时间成本之间的平衡,故作为本次实验中的默认选择。

表4  自动机器学习库K 近邻回归模型调优策略效果对比表

2.3  模型保存及预测性能

完成模型训练和调优后,需要进行保存和预测。自动机器学习库保存的不仅仅是模型的参数,还包含数据预处理的整个工作流程,如图7 所示。

图7  自动机器学习库工作流程框架图

在对新的数据集进行预测时,直接读取工作流程,传入新的数据集,即可获得对数据的预测结果。当数据中包含待预测目标的真实值时,可自动执行对模型的泛化性检验,获得性能指标。依据上述流程, 本次实验中TOP3 模型经过超参调优后在训练集、验证集和测试集的性能评估结果如表5 所示。从表中可以看出,极限梯度提升树和轻量级梯度提升机在精度上具有一定的稳定性,随机森林回归器出现了过拟合现象。这说明在模型选择和调优过程中,多模型的调优策略要优于单一模型。

表5  自动机器学习模型在训练集和测试集的预测性能参数表

2.4  模型解释与公平性检验

机器学习模型依赖于对单一指标的训练、验证和测试,虽然模型有时会在验证及测试过程均表现良好,但仍不能忽视其背后的决策原因。模型可解释性可作为附加的测试流程,用于检测模型的偏见, 调试和审核模型的误差。当模型预测效果变差时,通过合适的解释与决策,能更好地说明模型的公平性、鲁棒性、因果关系等特征。该过程通常基于绘图对模型进行可视化展示,理解其内部决策过程。其中, 常用的绘图包含残差图、误差图、特征敏感性分析图、特征重要性分析图、公平性检验图。

残差图反映模型在训练集和测试集中的预测特征,可以直观反映预测值和真实值之间的绝对偏差和统计分布情况。误差图体现预测值和真实值在测试集上的误差和拟合情况,反映预测值整体分布偏移的情况。以随机森林模型和极限梯度提升树模型为例, 随机森林表现出较高的验证集性能(图8-a f),但是从误差图中可以明显地看出训练集发生了过拟合(图8-a),并且验证集的残差散点分布面积要大于极限梯度提升树模型(图8-be),而残差分布直方图解释了高指标的原因,即低残差的数据分布更集中于0(图8-c)。但理想的模型应满足训练集和验证集分布相似,不出现过拟合现象,借助残差图可以判断极限梯度提升树模型更佳(图8-d f)。极限梯度提升树模型的误差图反映模型预测时的偏差倾向(图8-d),即当声波时差小于325 μs/m,模型预测值通常偏大,当声波时差大于325 μs/m 时,预测值通常偏小。

图8  极限梯度提升树模型与随机森林模型预测特征分析对比图

特征敏感性分析图用于反映模型参数对模型输出影响程度的大小。特征重要性分析图用于展示模型中各个特征对模型预测结果贡献程度。这些图可以帮助理解哪些特征对模型的预测更为敏感、更为重要,也可以间接地体现模型是否满足专业领域的认知,防止出现数据假象。在特征敏感性分析图中 (图9-a),深度特征对声波时差十分敏感,超过了补偿密度曲线。这是由于压实作用的影响,深部岩石的孔隙度通常低于浅层岩石,造成声波时差随深度而降低的明显变化。而在特征重要性分析图中 (图9-b),井径、自然伽马曲线的重要性较低,可以推测,数据集中井径并没有很好地反映井壁的扩径现象,自然伽马所反映的泥质含量对声波时差没有太大影响。因此,模型的可解释性分析有助于对原始数据的质量和特性依据专业认知的进一步反思和理解。

图9  基于解释机器学习模型输出的特征影响分析图

模型公平性检验。当输入特征中包含有分类属性时,可以针对类别对模型进行类别平衡检验。有助于判断不同类别下模型的预测性能,并以此为依据对模型或数据进行进一步的反查。如图10 所示,模型除明化镇组以外,其他层位的预测精度均 良好。

图10  基于地质分层的模型公平性检验图

3  曲线重构预测结果

为了具体评价自动机器学习流程的预测效果,在测试井中选择了最具代表性的2 口井进行效果展示, 分别记为A 井和B 井,选择极限梯度提升树、随机森林和轻量级梯度提升机3 种模型进行对比(表6)。

表6  典型模型测试预测精度对比表

A 井的井况稳定,无明显的扩径现象,三孔隙度曲线受岩性和油气性质的变化而变化,测井解释结论以油层和油水同层为主(图11)。在该井中,轻量级梯度提升机的预测性能最佳,平均绝对误差达到了8.060,并且可决系数为0.915。从测井图上的表现上看,3 个模型在储层段均达到了较好的重构预测效果。

图11  测试集中A 井沙三段测井图

B 井在沙四段钻遇角砾岩层段,井况较差,部分泥岩层段出现扩径现象,三孔隙度曲线中密度下降明显(图12),相关性明显变差,声波时差受影响较小, 导致重构预测值偏大。从该井各模型预测的结果看, 极限梯度提升树模型预测较好,虽然可决系数只有0.867,但相比其他模型异常峰值较少,扩径段与真实值也更为接近。

图12  测试集中B 井沙四段测井图

通过对2 口典型井的分析可知,影响重构预测精度的外在因素为井壁扩径导致的三孔隙曲线相关性差异所致,结合前述的敏感性分析和重要性分析图(图9)进行分析,中子和密度曲线的异常变化会对模型的预测结果造成较大的影响,这也一定程度上解释了模型预测产生误差的原因。虽然扩径现象可以通过人工观察测井曲线轻易识别,但若作为机器学习的定量预测任务,该问题仍需要后续进一步的研究积累。

4  模型主控因素

自动机器学习获得的最优模型与工作流程,仅代表对当前输入特征在对应性能指标的最优预处理方式和模型配置组合。考虑到PyCaret 库未实现完全的特征工程自动化,因此有必要对特征工程的部分控制因素进行初步分析和讨论。为了初步判断各类因素对结果的影响,将录井岩性和地质分层、缺失值插补、离群值处理、标准化方法作为影响因素与默认基线进行消融实验,每次实验中将工作流自动选择的TOP3 模型的性能指标进行比较,具体数据如表7 所示。

表7  特征工程消融实验分析数据表

通过对评价基线的消融实验可知,首先当去除地质分层和岩性特征后,模型的整体预测性能出现了明显的下降,说明了岩性和地质分层在预测中起到了正向作用,因此评价为显著性影响。并且本次实验中岩性分类共59 类,泥岩数据量居多,未进行同类岩性合并与细分,因此仍有提升空间。

对于缺失值处理,当使用高频值进行替换后, 在验证集和测试集中取得了更好的性能。通过初步分析,缺失值处理作为工作流的第一个步骤,其结果可能影响后续岩性编码(LeaveOneOut)的正确取值,进而影响岩性特征,导致模型预测误差增大。

当去除离群值处理后,模型的性能未见明显差异,说明影响程度较低。而对于标准化处理,标准化方式表现出了更好的性能,而不使用标准化处理的时候未见明显差异,说明归一化方式未起到明显的作用,据此推断,测井曲线的频率分布标准化比值域标准化更有效。

5  结论

1)相比于传统的机器学习方法,自动机器学习方法实现了自动的多模型选择和超参调优,可以更好地发挥机器学习模型的潜能,基于树的贝叶斯优化搜索方法可以兼顾预测性能和训练效率之间的 平衡。

2)不同机器学习模型具有不同领域的优势与劣势,多模型选择优于单一模型,利用可解释性分析和公平性检验方法,可以保证模型的泛化性。

3)基于自动机器学习的声波测井曲线重构在孤岛探区中取得了良好的预测成果,调优后LightGBM 模型的预测平均绝对误差为11.882,可决系数为0.921。加入地质层位和岩屑录井的非数值信息,有助于进一步提升预测的精度。

4)测井数据的异常值处理和标准化校正与对模型性能有一定的影响,数据预处理方法的选择需要基于数据与目标进行针对性设计与判断。

5)作为一种基于自动机器学习的测井曲线重构工作流构建方法,该方法将自动控制技术应用于模型选择和超参搜索过程,在保证高精度的同时,大大提升了模型的训练效率,降低了人工干预成本,具有很强的实践应用价值。因此,该方法也可应用于其他回归类预测任务,如总有机碳含量预测、孔隙度建模等领域。


参考文献请点击下方“阅读原文”查看

编 辑 陈古明

论文原载于《天然气工业》2024年第9期

基金项目国家自然科学基金项目“深部火山岩体井周多尺度力学失稳机理及钻井低力学扰动点的地层空间分布规律研究”(编号:42172313),四川省自然科学基金项目“CO2 驱替页岩气竞争吸附与渗流耦合机理及CO2 地质封存利用技术研究”(编号:2022NSFSC0185)、“纹层状页岩微细观结构特征及其对岩石非连续变形破坏的影响机理研究”(编号:2023NSFSC0921)。



【2024年专辑,点击图片阅读

 往期回顾   


专辑
天然气与新能源领域新类型、新技术、新进展专辑(2023.11)
中国石油—西南石油大学创新联合体(2023.4)
中国气田开发提高采收率专辑(2023.1)

●国家级页岩气示范区回顾与深层页岩气展望专辑(2022.8)
●中国煤层气勘探开发专辑(2022.6)
●新能源:中国氢能、地热专辑(2022.4)
非常规油气地质工程一体化勘探开发专辑(2022.2)
●中国致密砂岩气勘探开发一体化专辑(2022.1)
●中国深层页岩气勘探开发专辑(2021.1)
●天然气水合物勘探开发钻井专辑(2020.8)
深层超深层天然气勘探开发钻完井专辑(2020.2)


   往期回顾 


专题

氢能研究与技术新进展
专题
(2
0
24.5)
PDC钻头研究专题
(20
24.5)
超深层天然气开发专题
(2024.5)
页岩气勘探新进展专题
(2024.5)
非常规天然气勘探新进展专题(
2023.10)
●中国天然气地下储气库建设新进展专题(2023.10)
●大数据赋能天然气钻井专题(2023.9)
●塔里木盆地天然气勘探专题(2023.9)
●高含硫天然气勘探开发新进展专题(2023.9)
钻井提速提效新进展专题(2023.8)
非常规油气开发专题(2023.8)
重点盆地天然气研究新进展专题(2023.8)
钻井新工作液专题(2023.7)
四川盆地油气勘探专题(2023.7)
钻井液防漏堵漏新技术专题(2023.6)
非常规天然气开发专题(2023.6)
四川盆地页岩气勘探专题(2023.6)
天然气管网安全高效运行新方法专题(2023.5)
复杂工况条件下固井新技术专题(2023.5)
鄂尔多斯盆地天然气勘探专题(2023.3)
页岩气开发专题(2022.11)
四川盆地非常规油气勘探开发专题(2022.10)
四川盆地天然气勘探专题(2022.5)
鄂尔多斯盆地米脂地区天然气勘探突破专题(2021.12)
中国海域天然气勘探专题(2021.11)
页岩气勘探专题(2021.9)
页岩气水平井套管变形防治专题(2021.5)
深水油气钻完井专题(2021.4)
氢能研究专题(2021.4)
塔里木盆地走滑断裂控储控藏研究专题(2021.3)
碳中和目标下的中国天然气产业发展专题(2021.2)
四川盆地天然气勘探重大进展专题(2020.7)
中国天然气发电专题(2020.7)
中国天然气价格改革研究专题(2020.5)




排版、校对:张  敏

审核:罗  强  黄  东

点击阅读原文,链接到《天然气工业》官网

天然气工业
创刊于1981年,是由中国石油西南油气田公司、川庆钻探工程有限公司联合主办的学术期刊。关注地质勘探、开发工程、钻井工程、集输加工、安全环保、经济管理等多个领域。Ei检索、CSCD核心、中文核心、中国科技核心、入选中国科技期刊卓越行动计划。
 最新文章