【论文】闵超,等：可解释机器学习在油气领域人工智能中的研究进展与应用展望

文摘 2024-10-12 09:31 四川

本文版权归天然气工业杂志社所有

未经允许，不得转载

音符动态简约分割线

本文引用著录格式：

闵超, 文国权, 李小刚, 等. 可解释机器学习在油气领域人工智能中的研究进展与应用展望[J]. 天然气工业, 2024, 44(9): 114-126.

Min Chao, Wen Guoquan, Li Xiaogang, et al. Research progress and application prospect of interpretable machine learning in artificial intelligence in oil and gas industry[J]. Natural Gas Industry, 2024, 44(9): 114-126.

音符动态简约分割线

作者简介：闵超，1982 年生，教授，博士；主要从事最优化理论与人工智能方法在油气田开发中的应用研究工作。地址：（610500）四川省成都市新都区新都大道8 号。ORCID: 0000-0003-1245-8142。

E-mail: minchao@swpu.edu.cn

通信作者：李小刚，1981 年生，教授，博士，本刊青年编委；主要从事油气增产、非常规天然气产业发展等领域的研究工作。地址：（610500）四川省成都市新都区新都大道8 号。ORCID: 0000-0002-5875-883X。

E-mail: swpuadam@126.com

闵超^1,2,3　文国权^1,2　李小刚³

赵大志^1,2　李昆成³

1. 西南石油大学理学院

2. 西南石油大学人工智能研究院

3. 油气藏地质及开发工程全国重点实验室·西南石油大学

摘要:人工智能作为战略性新兴产业及新质生产力正迅速地渗透入油气领域，并有望成为行业发展的新引擎和制高点。“黑盒”的机器学习模型缺乏透明度和可解释性，导致现有机器学习方法在油气领域的认可度和信任度不高，制约了以机器学习为核心的人工智能在油气田中的融合和发展。为此，系统介绍了可解释机器学习方法在油气田勘探开发过程的研究现状，阐述了机器学习模型的可解释性是促进油气领域人工智能大规模应用的关键，以及事后可解释方法在油气机器学习方法上的局限性，并对技术的应用进行了展望。研究结果表明：①利用Shapley 加性解释（SHAP）和模型无关局部解释（LIME）等事后可解释方法进行煤层气产能主控因素实例验证，指出了可解释的油气田特征指标还不足以完全指导可解释模型的构建和分析，需要基于本质可解释思路建立符合油气田勘探开发自身特点的本质可解释机器学习方法；②利用机理模型、因果推断和反事实解释等本质可解释方法，分析油气田数据和模型参数之间的因果关系，构建了本质可解释机器学习方法；③选取典型煤层气压裂数据进行产能预测实例验证，发现因果推断能有效挖掘地质参数、施工参数和产能之间的本质关系，且基于因果关系建立的机器学习模型可以实现预测泛化性能提升。结论认为，基于事后可解释和本质可解释机器学习方法不仅是未来油气领域人工智能发展的必然趋势，而且是解决人工智能在油气领域现场落地的“瓶颈”问题及关键技术。

关键词:油气田勘探开发；人工智能；机器学习；可解释机器学习；事后可解释；本质可解释

0 　引言

当前我国油气对外依存度较高，为保障国家能源安全，从战略层面上需要加强油气资源的勘探开发。但是，随着常规油气的日益枯竭，剩余的可采油气资源大部分属于较难开采的非常规油气^[1-2]。在这一背景下，人工智能与油气工业的深度融合，已成为推动油田企业实现规模增产的重要手段^[3]。与数值模拟和实验研究等方法相比，通过拟合无法使用机理模型描述的油气田开发数据方式，基于机器学习（Machine Learning）的人工智能方法可以有效降低计算成本以及提高预测精度。另一方面，对深度神经网络（DNN）这类典型的“黑盒”学习模型而言，因其过程不透明性导致无法广泛应用，所以为达到可信任目标的可解释机器学习越来越受到关注^[4-7]。

机器学习的可解释性表示模型能够以被人类认知的方式进行解释和呈现。在油气人工智能领域，机器学习可解释则意味着其模型能够提供符合现实机理，可被现场工作人员理解及认可的决策规则；反之，机器学习不可解释则表现为现场工作人员仅能获得模型的输入和输出，而无法获悉其决策的内在机制。例如，基于BP 神经网络的储层渗透率预测^[8]任务中，将测井数据和储层渗透率分别作为模型输入和输出，但是BP 神经网络结构中存在数以万计的神经元及对应参数，无法透明地分析测井数据与储层渗透率之间的非线性关联，导致机器学习模型的决策机制是不可解释的。而储层渗透率作为油气井产能的一个重要影响因素，其预测的不可解释性意味着储层产能的预测需要消耗大量的时间试错，来确保其可靠性。此外，基于卷积神经网络（CNN）的钻井事故预测^[9]中，钻井数据和事故类别作为模型输入和输出可被人类解释，但是钻井数据在CNN 神经元中的传递机制以及隐含层到输出层的决策机制是未知地，人类无法有效观测钻井数据—神经元—事故类别间的详细决策关系，导致无法确定CNN 的失误边界，不知是否该信任CNN 的判断结果，往往会因为过于谨慎地停工停产或过于放松地持续工作导致不必要的人力和经济损失。在高投入、高风险的油气领域，样本获取难度大、成本高且具有典型的大数据、小样本特点，在有限数据的前提下，“只知其然，而不知其所以然” 显然是不被信任的。因此，油气人工智能需要在保证模型准确性的同时，模型可解释性同样不可缺失，这是推动油气人工智能在油气田开发现场落地的重要基础之一。

在未来很长一段时间，围绕油气田勘探开发过程中的机器学习问题，展开可解释理论和方法的研究，解决如何构建可解释机器学习实现对油气田勘探开发的准确分析，如何确保模型的透明性和可靠性，将是油气田人工智能重点方向^[10]。这意味着机器学习模型必须保证： ①建模前的可解释性，涉及数据的预处理和数据展示的方法；②建模中的可解释性，即建立具备可解释性的机器学习神经网络模型； ③建模后的可解释性，即利用可解释性方法，对具有“黑箱”性质的深度学习模型输出做出符合人类逻辑准则的解释。鉴于此，本文论述了可解释机器学习在油气田开发过程中的应用进展与发展趋势，以期为实现可解释的智能油气田提供有益的参考。

1 　背景概述

1.1 　油气领域中的机器学习

机器学习本质上利用计算机从现有的复杂数据中学习基本规律，并根据数据和所得到的规律对未来的行为结果和趋势进行预测^[11]，包括线性模型、决策树、神经网络、支持向量机（SVM）、集成学习、聚类和深度学习（Deep Learning）等算法^[12]。

人工智能在油气领域中的应用可以追溯到20 世纪90 年代^[13]，法国道达尔公司将机器学习算法应用于油气勘探和生产，中国石油大庆油田于1999 年在国内首次提出建设数字油田的理念^[14]。随着21 世纪数字时代的到来，信息化、智能化开始成为企业的核心竞争力^[15]，国内外油田公司相继推进了“智能油田”建设。2014 年康菲石油公司与多所大学合作，利用机器学习算法指导精确布井、高效钻井和压裂设计优化。2017 年，道达尔、壳牌等多家公司推出油气勘探、钻井、开发的各种智能化解决方案。2018 年，中国石化启动智能油气田试点建设项目， 2019 年，又进一步启动油田企业人工智能技术试点应用项目。2020 年11 月，中国石油昆仑数智推出油气田勘探开发过程工业互联网平台：勘探开发“梦想云”^[16]。可见，2010 年以来，机器学习在油气田开发过程各个领域的研究和应用已超过了传统的数值模拟和实验研究等方法，成为智能油气田时代的研究热点^[17-18]，包括利用人工神经网络（ANN）、长短期记忆网络（LSTM）、卷积神经网络、多层感知机（MLP）、支持向量机、随机森林、聚类算法、 K 近邻算法（KNN）、树模型、主成分分析（PCA）和线性模型等进行油气勘探、钻井工程、开发与生产和油气智能管理^[19]（表1）。

表1　机器学习方法在油气田勘探开发过程中的应用列表

如表1 所示，油气领域早期使用机器学习模型，如线性模型、决策树等，自身就具有可解释性，但其结构简单，难以表征复杂的非线性关系^[54]。随着统计学习、机器学习的不断发展，各类复杂模型（如DNN、集成学习等）因其强大的表征能力，在油气领域得到了广泛应用。作为一个高投入、高风险的领域，油气田开发涉及复杂的端到端任务，而神经网络的“黑盒”机制致使开发人员无法利用机器学习方法实现对深埋地下的油藏系统进行直接测试以及创建油田开发系统可能失败的完整场景，也无法枚举出所有可能出现的计算或逻辑上的不可行预测结果。因此，基于机器学习的油气田开发需要足够完善的可解释性^[55-57]。

1.2 　油气领域中的可解释机器学习

从2018 年开始陆续出现关于油气人工智能的可解释性研究^[58-62]。2018 年，Guevara 等^[58]提出将油气勘探先验知识和专家经验相结合，建立可解释的机器学习实现工程决策。2019 年，Saikia 等^[59]指出随着油气藏储层复杂性的增加，机器学习方法如线性模型、决策树等的可解释性变得困难，进而提出要从局部可解释的角度实现实时解释。同年，Rastogi 等^[60]利用全局可解释（SHAP）、局部可解释（LIME）等方法发现在油气领域模型准确性和模型可解释性之间存在反向关系，即模型越可解释，模型准确率就可能越低。2020 年，Wang 等^[61]从稀疏性和约束性可解释的神经网络角度出发，验证其在油藏工程注水井和生产井中的作用。2021 年，Liu 等^[62]针对非常规油藏产量预测，提出基于物理先验知识和机器学习模型建立“灰盒”模型，给予模型部分可解释性。2022 年，肖立志^[63]提出人工智能在油气田勘探开发过程的应用时，模型的可解释性应与领域知识密切相关，应该在领域范围解决，即通过结合机理模型与机器学习，为模型提供可解释性。同年，盛茂等^[64]认为油气田勘探开发过程模型决策判断必须满足可靠性和透明性。

在油气领域，可解释方法主要分为两类：本质可解释方法（in-model）和事后可解释方法（post-model）^[65-66]。

1）本质可解释方法主要指模型具有本质可解释特性，比如模型本身存在的稀疏性、单调性、因果性或者模型的外在约束条件和模型权重参数使得模型具有可解释性，主要方法包括线性模型、逻辑回归模型、广义线性模型、广义加性模型、决策树、决策规则、规则拟合、朴素贝叶斯、因果推断和反事实推断等^[67]。

2）事后可解释方法主要指建立模型之后，对模型输入和输出进行可解释性分析，主要方法包括部分依赖图（PDP）、累积局部效应（ALE）、独立条件期望（ICE）、全局代理模型、特征交互（Feature Interaction）、特征重要性（Functional Importance）、SHAP 以及LIME 等^[67]。

机器学习方法作为智能油气田的研究重点，已经在油气田勘探开发的各个环节实现了落地。在学术型以及工业级油气人工智能应用场景实践中，需要模型做出高可靠、足够透明的决策判断，而机器学习模型难以规模化部署的原因之一是缺乏决策透明度和结果可解释性^[64]，可解释机器学习方法将是下一代智能油气田的研究热点和重点。

2 　可解释机器学习在油气领域的研究进展

从事后可解释机器学习方法和本质可解释机器学习方法介绍油气田勘探开发过程中的可解释机器学习研究现状。

2.1 　事后可解释机器学习在油气领域中的应用

油气田勘探开发过程中，事后可解释机器学习方法主要指利用全局可解释、局部可解释性和部分依赖图等可量化指标对训练后的机器学习模型进行可解释性分析。

2.1.1 　SHAP

SHAP 的主要思想是合作博弈中个体的边缘收益，通过计算组合中包含某个特征的收益，减去该组合不包含该特征时的收益，即可得到其在模型和数据组合中的可解释性。马先林等^[68]针对利用SHAP 可解释方法分析机器学习模型在水平井产能预测上所具有的“黑盒”性质，增加模型的可信性和透明度。Gurina 等^[69]利用SHAP 分析钻井事故和异常情况“黑盒”预测机器学习模型，模型可解释性结果基本符合现场经验解释，提高了事故预测模型的信任级别。Tran 等^[70]基于钻井数据，利用SHAP 方法建立了对页岩段岩石分类的可解释机器学习工作流程。Kong 等^[71]及Li 等^[72]提出了利用马尔可夫链蒙特卡洛（MCMC）模拟估计最终可采储量，同时使用Shapley 值来解释训练模型中的特征敏感性。Chen 等^[73]利用神经网络，SHAP 和随机最大似然法（EnRML）建立可解释机器学习方法，进行单井特征可解释性分析。

2.1.2 　LIME

SHAP 的主要思想是利用可解释性模型（如线性模型，决策树）局部近似目标“黑盒”模型的预测，通过对输入进行轻微的扰动，探测“黑盒”模型的输出发生何种变化，根据这种变化给予模型可解释性。Alharbi 等^[74]利用LIME 解释油井异常检测生产数据和异常情况的相互关系，为每个实例做出的决策提供了局部可解释性，证明生产数据异常会显著导致“黑盒”模型歪曲决策结果。Song 等^[75]利用LIME 对基于卷积神经网络的岩体动应力状态监测和识别任务进行可解释性分析，确定影响岩体动应力状态的具体区域。Brantson 等^[76]利用LIME 分析卷积神经网络，在进行垂直管道中气液同时流动的流型识别时，流动图像和CNN 分类结果之间对应的可解释特征。

2.1.3 　其他事后可解释方法

Sheikhi 等^[77]针对机器学习方法在优化水力压裂方面的“黑盒”问题，考虑到油气数据的复杂性和不确定性，利用独立条件期望图和部分依赖图计算每个特征对预测的贡献来解释现有井是如何利用机器学习模型做出信息决策。

2.2 　本质可解释机器学习在油气领域中的应用

油气田勘探开发过程中，本质可解释机器学习方法主要指利用机理模型和因果推断等本质可解释方法进行机器学习模型可解释性分析。

2.2.1 　基于机理模型的本质可解释机器学习

在油气田勘探开发过程中，物理机理模型相结合的机器学习方法^[66]是一种本质可解释机器学习方法。Li 等^[78]将控制方程、边界和初始条件以及专家知识等油气/ 水相理论加入人工神经网络，使得模型具有可解释性。Chen 等^[79]将地质力学参数背后的物理机制作为先验信息加入LSTM 模型中，进行地质力学测井模拟，保证了模型的可解释性。Li 等^[80]利用物理机理模型约束，构建基于双向门控循环单元（BiGRU）和DNN 的组合神经网络用于多压裂井长期产量预测。Yan 等^[81]开发了一种基于物理模拟数据驱动的物理约束CNN 模型，用于解决三维异质多孔介质中的多相流问题。Yang 等^[82]针对数值模拟的局限性，提出结合机理模型和MLP 的物理约束数据驱动工作流模型，用于煤层气产量预测。Sarma 等^[83]基于ANN 和储层流体流动偏微分方程的组合提出了一种油藏模拟方向的“数据物理”方法，确保模型过程满足真实的油藏物理知识。2020 年，Klie 等^[84]提出物理仿真型的机器学习方法预测非常规油藏产量，并由包含关键性能因素的物理机理微分方程驱动，以解释模型。2020 年，Liu 等^[85]针对基于物理机理模型的方法在非常规油气藏中流体流动的物理特性还不完全清楚，以及机器学习方法需要大量结构化数据的弊端，提出一种结合人工神经网络和物理机理约束的可解释机器学习方法（PCML）用于产量预测。

2.2.2 　基于因果推断的本质可解释机器学习

因果推断主要指在一种现象已经发生的情况下，推出因果关系结论的过程，主要包括因果发现（Causal Discovery）和因果效应估计（Causal Effect Estimation）。因果发现旨在从复杂的数据中，挖掘出变量之间的因果关系，其本质是要找到用于描述变量间因果关系的网络结构。2023 年，Min 等^[86]从因果发现的角度出发，提出了一种本质可解释的机器学习方法，旨在分析煤层气井施工参数、地质参数和产量之间的因果关系，进而建立了因果机器学习方法，提升了机器学习在预测煤层气井产量时的泛化性能。Castro 等^[87]结合随机森林与油气田生产数据，从特征重要性的角度确定生产数据间的因果关系，并据此构建因果网络，实现了油气田生产中的时间序列因果关系估计与生产数据估计。同时，Conde 等^[88]从因果推断及影响因果的混杂因素角度出发，研究水平井水力压裂作业中当前微震事件与先前“时空近端”微震事件之间的因果关系，从而解释新微震事件可能发生的概率、大小和位置，揭示了无法使用相关性/ 关联方法量化的真正因果关系。

因果发现可以寻找出油气参数之间的因果关系，避免建立机理模型时所需的大量假设前提。油气田勘探开发数据的复杂性和异构性，使得因果发现和因果效应估计在油气田人工智能方向具有很大的发展潜力。

3 　可解释机器学习在油气领域的应用展望

2023 年国家自然科学基金委发布《关于组织申报可解释、可通用的下一代人工智能方法重大研究计划2023 年度项目的通知》，指出可解释、可通用的人工智能方法是国家人工智能发展的重大战略需求，通过规则与学习结合的方式，建立高精度、可解释、可通用且不依赖大量标注数据的人工智能新方法是人工智能发展的新方向。从油气田勘探开发过程中在可解释机器学习方法研究进展看，可解释机器学习研究尚处于起步阶段，需继续攻关相关科学问题，实现可信任油气人工智能在智慧油气田建设过程中的推广和规模化应用，需要攻关的问题包括人工智能方法所需的高质量数据样本构建和评价标准、可解释机器学习方法的可解释性和泛化能力之间的平衡、如何设计足够透明的、可信赖的可解释机器学习模型等。

3.1 　人工智能方法所需的高质量数据样本构建和评价标准

目前业界已形成了共识，油气人工智能的技术和方法是否可靠，数据数量和质量是关键。数据是否可靠，决定了基于数据所学习的模型输出结果是否可靠。油气田企业现已回归于数据库建设和数据治理等基础性工作。但是，针对油气工业中的机器学习，目前仍缺乏统一的数据质量评价标准和方法，油气田工作人员无法从专业角度为研究人员提供既满足机器学习自身要求，又满足现场设计约束的高质量样本。

针对高质量数据样本评价和构建问题，为了排除机器学习模型本身的优劣所导致的数据质量评价偏差，可利用罗生门集思想（在指定数据集下，满足优化或预测阈值的模型集合）、模拟拟合优良性标准和油气田约束规则进行数据集质量评价研究，以确定数据集在评价过程中的优劣程度，建立一套油气田勘探开发数据的质量评分系统，形成供机器学习使用的标准化数据集，主要包括以下几方面：

3.1.1 　基于罗生门集思想的数据集质量评价方法研究

针对油气田勘探开发数据，采用罗生门集中的不同机器学习模型对油气田勘探开发数据集进行训练、验证和测试，通过分析罗生门集中不同预测模型在油气田勘探开发指标预测数据集上的测试性能来评定数据集质量，形成油气田勘探开发数据集评价标准。

3.1.2 　基于模型拟合优良性标准的数据集质量评价方法研究

利用模型拟合优良性量化指标，包括赤池信息准则（AIC）和贝叶斯信息准则（BIC）等，计算机器学习模型在不同的模型复杂度下，模型在油气田勘探开发指标预测数据集上的拟合精度，基于AIC 和BIC 平均值评定数据集质量，形成油气田勘探开发数据集评价标准。

3.1.3 　基于约束规则的数据集质量评价方法研究

根据油气田勘探开发指标数据自身需要满足的约束规则，构建数据集定性评价指标，包括准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标等，从是否满足现场约束规则的角度构建数据集定性评价标准确定数据集本身应满足的现场规范要求，建立逻辑判断函数来检验数据集中的各项指标是否满足相应约束规则来评价数据质量，形成油气田开发数据集评价标准。

综合上述3 种数据集质量评价方法，建立可解释的评分系统。对数据集进行预处理，构建高质量的机器学习训练样本集。该数据集应该包含：单井静态地质信息、开发动态时序信息和空间相邻井（油气井、注水井、层位等）信息；区块静态地质信息、生产动态信息、注采井网整体信息和机理驱动的数模信息等。

3.2 　可解释机器学习方法的可解释性和泛化能力之间的平衡

已有文献证明了机器学习方法的模型准确性和模型可解释性之间存在冲突：模型越可解释，模型准确性越低^[62]。目前油气田勘探开发过程中，机器学习泛化能力的相关研究尚未从可解释的角度来解决此问题。因此，构建的可解释机器学习需保证模型可解释性的同时，提升模型泛化能力，这需要从机器学习和可解释方法的基础理论出发，进行详细分析和研究。

针对可解释性和泛化能力之间的平衡，考虑到油气田勘探开发数据样本的复杂性和多样性。例如，以水驱油的单井产量预测为例，其静态地层数据是独立信息构成的向量，生产动态信息是多组时序数据构成的矩阵，相邻注水井与目标井之间的动态响应则是含时滞的时间序列。因此，不能不作区分地直接把所有信息输入到固定框架的模型中进行训练，故有必要研究不同机器学习模型的泛化能力。

3.2.1 　机器学习模型的泛化能力分析

基于形成的高质量数据样本，分别建立以特征工程、正则化和集成学习思想为基础的开发指标预测机器学习模型，分析这3 种方法在提升机器学习模型泛化能力的数学原理。

首先，特征工程通过从油气田开发数据中提取新的数据特征（如地层压力系数，流体流动能力等），形成新的油气田开发数据样本，用以表征因素之间的混杂影响，进而提高开发指标预测模型的泛化能力。

其次，将油气田开发动态分析的先验知识，表达为机器学习模型损失函数中的正则化约束，建立新的损失函数，根据统计学习理论研究这类机器学习预测模型的泛化能力。

第三，集成学习通过联合多个简单学习模型，利用群体预测决策改进学习模型，形成新的单井和区块机器学习预测模型。根据多数满意陪审团定理，集成模型可以提高油气田开发方向机器学习预测模型的泛化能力。

3.2.2 　可解释方法的泛化能力提升原理研究

针对油气勘探开发中的多源异构数据，利用符号传递熵（STE）和条件互信息（CMI）^[89]等工具，分析模型无关和机理约束的可解释方法对模型泛化能力的影响。随后，将简单机器学习模型用不同方式进行集成或组装形成复合学习模型，通过对比符号传递熵和条件互信息的变化，来分析特征工程、正则化和集成学习等可解释机理对机器学习模型的泛化能力影响，进而分析可解释方法提升泛化能力的依据。

3.2.3 　最优可解释机器学习方法的评价及研究

油气人工智能领域中，线性回归、支持向量机、集成学习和神经网络等多种机器学习方法及其变形已广泛应用于油气田勘探开发过程。为了探索在满足模型可解释性和泛化性能基本前提下的最优机器模型组合，首先分别利用泛化性评价指标[ 拟合优度（R²）、平均绝对误差（MAE）、均方根误差（RMSE）] 等，和可解释性评价指标[ 特征相似性（FA）、特征对齐度（RA）、排序相似性（SA）、排序对齐度（SRA）] 等^[90]，给定机器学习模型的泛化能力和可解释能力，随后基于最优化思想和泛化能力—可解释性平衡原则，建立用于形成油气人工智能下最优可解释机器学习组合的最优化模型：

3.3 　如何设计足够透明、可信赖的可解释机器学习模型

针对如何建立适用于油气田勘探开发的可解释机器学习模型，可从基于模型无关思想的可解释方法、基于机理约束的可解释方法和基于因果推断的可解释方法角度出发，结合油气田开发数据特点和物理机理，建立能解释油气田开发问题的机器学习模型，如图1 所示。

图1 　3 种可解释机器学习构建流程示意图

3.3.1 　基于模型无关思想的可解释机器学习

可分别利用局部代理模型（LIME）和Shapley 加性解释（SHAP）模型无关可解释方法，如图1 所示，分析机器学习预测模型在开发指标预测时，给出输入输出之间的解释关系和解释结果，并纳入现场专家经验，研究解释关系、解释结果和可解释经验之间的异同点，对油气田开发指标预测中的机器学习方法在建模后的可解释性进行研究分析，给出建模后的可解释性。

如图2 所示，本文以煤层气井产气量为输出目标，含气饱和度、含气量和储层压力等因素为输入参数，结合SHAP 可解释方法进行全局可解释性分析。含气饱和度和含气量与产气量呈现正向关系，储层压力和产气量呈现负向关系。同时，含气饱和度、含气量和携砂液量等对产气量的影响程度是逐步降低的。因此，由图2 所呈现的SHAP 可解释结果符合现场专家经验，故SHAP 与机器学习模型可构建具有模型无关思想的可解释机器学习。

图2 　油气目标下的油气参数SHAP 值分布图

如图3 所示，本文以煤层气是否为高产井为油气输出目标，含气饱和度、含气量和储层压力等因素为油气输入参数，结合LIME 可解释方法进行局部可解释性分析，其中，绿色标注的参数解释为低产参数，而红色标注的参数解释为高产参数。因此，由图3 所呈现的LIME可解释结果符合现场专家经验，故LIME 与结合机器学习模型也可构建具有模型无关思想的可解释机器学习。

图3 　油气目标下的油气参数LIME 分布图

SHAP、LIME 等事后可解释方法可以在决策完成后给予模型间接的解释即建模后的可解释性，但无法提供建模前和建模中的可解释性，限制了其进一步应用。同时，此类本质可解释方法一般是结合神经网络进行可解释预测，而神经网络本身就是“黑盒”模型，自身带有不可解释性。

3.3.2 　基于机理约束的可解释机器学习

结合油气藏工程和采油工程等相关专业知识，有针对性地基于现有油气田开发数据建立机理模型，同时结合机器学习模型，可以建立基于机理约束的可解释方法。基于机理约束的可解释机器学习方法可以在保证模型泛化能力的前提下，从机理模型的角度获取油气田开发数据与生产数据之间的直接解释关系即建模前的可解释性，具体体现为经由油气田开发数据之间的数学运算关系可以直接计算获得生产数据。在油藏数值模拟理论基础上，原油在地下的流动机理可通过油气藏渗流力学中的各种物理模型进行表征，其对应的偏微分方程（组），可以利用差分法、有限元法等数值算法转化为线性方程组（Ax_i= y_i, i = 1, 2, …, N₁）。同时，基于机理约束和正则化思想，可将线性化后的机理模型转为机理约束条件（Ax_j= y_j, j = 1, 2, …, N₂），实现机理对机器学习过程的约束。根据优化理论中的罚函数方法，机理约束下的机器学习优化问题如下：

如式（2）所示，根据基于机理约束的机器学习模型泛化性能，检验实时变化的机理约束在建模过程中对模型参数和模型结果的影响，获取建模中的可解释性。基于机理约束的可解释机器学习实现了机理驱动与数据驱动的融合，提供了建模前和建模中的可解释性。但是，目前虽然已有一些专家在油气领域开展了机理约束的机器学习研究，但相关研究较少且没有系统地对基于机理约束模型的可解释方法进行讨论。

3.3.3 　基于因果推断的可解释机器学习

传统油气人工智能主要基于油气田开发数据和生产数据之间的相关性及其强弱程度建立机器学习模型，此类机器学习模型在油气领域具有低泛化性能和不可解释等特点。针对上述问题，利用因果推断中的因果发现方法挖掘油气田开发数据中潜在的因果关系，并基于因果推断中的因果效应估计方法计算因果关系强弱程度，如下式：

式中CATE 表示因果关系强弱程度；T₀,T₁分别表示选择具有因果关系的变量变化前和变化后的值。

进而根据因果关系及其强弱程度建立基于因果推断的可解释机器学习，相比于相关性（如a—b 表示a 和b 相关），因果性具有具体的指向性关系即建模前的可解释性，此决策规则决定了经由油气田开发数据计算获得油气田生产数据的过程具有因果关系即建模中的可解释性，而因果关系是可以被人理解且接受的。基于因果推断的可解释机器学习实现了因果关系与数据驱动的融合，提供了建模前和建模中的可解释性。

基于中国山西某煤层气藏的408 口煤层气压裂施工井数据，根据改进的迭代因果发现方法（IICD）构建的因果关系如图4 所示^[86]。其中，地质因素（绿色圆标注）之间存在相互的因果关系，工程因素（蓝色圆标注）之间存在相互的因果关系，同时工程因素通过其中的前置液量和地质因素中的破裂压力产生相互的因果关系，进而实现地质因素和工程因素之间的相互因果关系，并且地质因素直接影响产气量（地质因素是决定产气量的决定性因素，而工程因素是决定产气量的次要因素），工程因素间接地通过地质因素影响产量。上述因果关系结果与实际煤层气开发的物理机制情况一致。同时，本文根据图4 建立基于因果推断的可解释机器学习进行验证，结果如表2 所示，本文方法即因果类机器学习方法（因果线性回归、因果支持向量机、因果多层感知机、因果BP 神经网络、因果决策树、因果随机森林、因果XGBoost）具有更好的测试性能即更佳的泛化性能。

图4 　油气参数和油气目标间的因果关系图

注：a→b 表示a 为因，b 为果；a b 表示a 和b 之间存在未知因果因素c 使得a 为因，b 为果；a↔b 表示a 和b 互为因果关系；a b 表示a 和b 之间存在未知因果因素c 使得a 和b 互为因果关系；若a 和b 没有任何箭头存在，表示二者没有因果关系；a 和b 可为任意参数。

表2 　因果类机器学习和相关性机器学习论证结果列表

4 　结论

1）油气田行业从业人员已经意识到机器学习模型可解释性在油气田人工智能领域的必要性和重要性，但当前可解释机器学习方法主要集中于使用SHAP 和LIME 等事后可解释方法进行影响因素重要性排序。

2）本文在现有油气人工智能机器学习理论的基础上，围绕包括如何构建油气田人工智能方法所需的高质量数据样本、如何平衡机器学习方法的可解释性和泛化性能以及如何设计足够透明的、可信赖的可解释机器学习模型等问题，结合油气田机理知识和物理模型，以事后可解释和本质可解释共2 类可解释方法为研究基础，开展油气田人工智能领域的可解释机器学习理论和方法研究，并整合油气田勘探开发过程各个领域的数据，形成规范的、透明的、适用于机器学习和可解释机器学习的数据样本库。

3）基于因果推断的可解释机器学习方法在煤层气产能预测问题上，既能保证机器学习模型的可解释性，还展现了更佳的预测泛化性能，所得结果可推广到油气田行业各个领域，有助于形成具有行业针对性的可解释机器学习方法和理论体系，为人工智能在油气田领域的广泛落地提供理论和技术支撑。

参考文献请点击下方“阅读原文”查看

编　辑　韩　建

论文原载于《天然气工业》2024年第9期

基金项目：四川省科技创新苗子工程项目“基于可解释机器学习的油气田开发指标预测方法研究”（编号：2022034）、成都市国际合作项目“基于深度学习的孔隙网络渗流模拟理论和技术探讨”（编号：2020-GH02-00023-HZ）。