本文版权归天然气工业杂志社所有
未经允许,不得转载
祝兆鹏, 朱林, 宋先知, 等. 机理约束下钻井机械钻速智能预测泛化方法[J]. 天然气工业, 2024, 44(9): 179-189.
ZHU Zhaopeng, ZHU Lin, SONG Xianzhi, et al. A generalization method of intelligent ROP prediction under mechanism constraints[J].Natural Gas Industry, 2024, 44(9): 179-189.
作者简介:祝兆鹏,1993 年生,副教授,博士;主要从事井筒多相流理论、智能钻井基础理论与工具装备等领域的研究工作。地址:(102249)北京市昌平区府学路18 号。ORCID: 0009-0006-0936-0282。
E-mail: zhuzp@cup.edu.cn
通信作者:宋先知,1982 年生,教授;主要从事油气井流体力学与工程、智能钻完井理论与技术等方面的研究工作。地址:(102249)北京市昌平区府学路18 号。
E-mail: songxz@cup.edu.cn
祝兆鹏1,2 朱 林1 宋先知1 李永钊3
张仕民1,2 柯迪丽娅·帕力哈提4
张诚恺1 王超尘1
1. 中国石油大学(北京)
2. 中国石油大学(北京)高端油气装备智能设计与
制造研究中心
3. 中国石油长城钻探工程公司工程技术研究院
4. 中国石油新疆油田公司工程技术研究院
摘要:钻井机械钻速的准确预测可辅助油气井钻井前科学配置资源,对制订更加合理的钻井作业方案以及钻井提效、降本增效具有重要现实意义。智能化预测钻井机械钻速已成为行业研究热点,为解决常规智能模型在不同井间迁移能力较差的问题,在对综合录井数据进行降噪、补全等预处理的基础上,利用钻井专业知识构造约束条件,引入了域对抗神经网络(DANN),建立了机械钻速模型在不同井间的迁移机制,结合滑动窗口、增量更新与实时录井数据,形成了机械钻速模型随井下工况的实时更新方法。研究结果表明:①数据层约束和网络层约束均可提高智能模型的精度与稳定性,且双机理约束下的BP 模型相比于普通BP 模型预测精度明显提高;②基于域对抗神经网络的机械钻速预测模型可有效地将邻井(源域)数据知识迁移到测试井(目标域);③基于增量学习算法建立的双滑动窗口数据更新机制,使模型实时适应地下钻进环境变化,预测精度和泛化能力进一步提升;④机理约束、迁移训练与实时更新对模型泛化性能的强化作用具有叠加效应,新井机械钻速预测平均相对误差降低至20.2%。结论认为,建立的机械钻速预测模型及迁移方法相较于传统钻速预测模型,具有更好的迁移性和更高的准确度,减少了迁移过程中重复训练时间,为机械钻速智能预测提供了新的思路和方向。
关键词:机械钻速;机理约束;域对抗神经网络;迁移学习;增量更新;模型泛化
0 引言
我国大部分非常规天然气及深层页岩气储层可钻性差、研磨性强,且钻遇地层岩石软硬交互,破岩过程复杂,提速优化困难,给现场钻井施工带来了严峻的挑战[1]。机械钻速的准确预测可辅助钻前科学配置资源,制定更加合理的钻井作业方案,对钻井提效、降本具有重要意义[2]。
早期机械钻速预测研究主要集中在物理模型上。1965 年,Bingham[3] 通过大量实验数据分析建立了仅使用转速、钻头压力和钻头直径3 个参数预测钻速的机理模型,可适用任何钻头,是目前较为经典的钻速预测机理模型;Bourgoyne 和Young[4] 使用多元回归分析方法建立杨格模式钻速方程,该方程考虑了地层可钻性系数、钻头牙齿磨损量以及牙齿磨损系数等,是目前应用最广泛的机理模型;Walker 等[5] 通过考虑岩石的内摩擦角、内聚力、岩石孔隙度和岩石抗压强度等因素回归出钻速方程,为破岩过程准确表征和智能方法的融合应用奠定了理论基础[6-8]。
大数据和机器学习的发展为进一步提高钻速预测精度提供了新的解决办法[9-10]。景宁等[11] 提出了一种基于层次分析—神经网络(AHP-BP)联合建模方法,具有较强的迭代收敛能力,同时也具有较好的训练效果;赵颖等[12] 基于极限学习机(SVR)建立了海上钻井机械钻速预测模型;Han 等[13] 考虑到了钻井过程的时序性,运用长短期记忆神经网络(LSTM)串联BP 模型,建立了钻速预测模型,结果优于BP 神经网络模型;许明泽等[14] 建立了KNN + SVR + RF 的集成学习钻速预测模型,结果表明, 合理的集成学习方法能够融合各个模型的多样性且具有较高精度;宋先知等[15] 基于现场实时获取的录井数据,利用支持向量机回归建立了钻速预测模型, 该模型稳定性优于其他模型;Liu 等[16] 为了解决超深井钻井钻速预测难的问题,建立结合钻进机理的LSTM-FNN 的模型,结果表明该模型对于超深井具有良好的稳定性;Zhang 等[17] 考虑到地层属性和钻头磨损对钻速的影响,利用基于注意力机制的GRU-FCNN 混合网络建立了钻速实时预测模型,该模型具有较好的预测精度和鲁棒性;杨莉等[18] 为满足各参数之间存在的相互联系和制约的辩证关系,提出了一种基于模糊神经网络的机械钻速预测模型,该模型可学习提取钻井可控参数之间复杂的耦合关系并具备良好的预测能力。
现有数据驱动的模型在预测精度方面得到了显著提升,但受到数据空间限制较为明显,各类模型往往仅在特定的井段和区块具有良好的预测能力,而不同区块和井段之间的迁移泛化性能难以保证[19-20], 限制了其在现场的应用与推广。因此,如何提升模型的迁移性能成为研究的关键。
本文提出了机理约束和模型迁移更新一体化的机械钻速预测方法。模型训练层面,根据破岩机理构建了模型数据和模型架构层面的双重约束;模型优化层面,引入域对抗神经网络(DANN),制订了机械钻速模型在不同井间的迁移机制;模型运行层面, 结合滑动窗口、增量更新与实时录井数据,形成了机械钻速模型的实时更新方法,实现了钻速模型在不同井段之间的动态迁移。以国内某区块3 口井为例, 建立的机械钻速预测模型及迁移方法相较于传统钻速预测模型,具有更好的迁移性和更高的准确度,减少迁移过程中重复训练时间,为机械钻速预测提供了新的思路。
1 适用于钻速预测的数据预处理方法
数据样本来源为渤海油田渤中区块3 口定向井的真实钻井数据,包括录井数据、钻头记录等,参数种类39 种,共12 368 条数据。数据类型包含数字和字符串,数据按井深索引,采样间隔为1 m。由于数据来源于不同的数据源,数据的采集和存储过程可能会产生错误、缺失、重复等问题。为了控制数据质量, 采用数据异常值处理及降噪、归一化处理等方式消除数据噪声对模型稳定性的影响,支撑模型建立高质量数据。
1.1 数据异常值处理及降噪
本文采用孤立森林算法[21] 进行数据的异常检测和删除,该算法是一种无监督学习算法,其核心观点是“异常值为少数,且与正常值差异明显”,孤立森林算法采用随机特征选择和随机特征分割的方法, 通过递归分区对数据集进行处理。与数据集中的“正常”点相比,异常值在树结构中通常会被较早地隔离出来,即隔离时经历的随机分区路径更短(路径长度表示从根节点到某个点所经过的边的数量),以此来筛选异常值。
由于钻井的复杂性,现场采集到的数据会存在大量噪声,所以在去除异常数据后,使用SG(Savitzky- Golay) 滤波算法[22] 对数据进行降噪处理。SG 滤波算法是一种基于曲线局部特征的多项式拟合方法,其应用最小二乘法确定加权系数进行移动窗口加权平均:
该算法的优点是具有较高的滤波效果和较好的稳定性,可以有效去除信号中的噪声,同时保留数据的主要特征和趋势。
处理后的数据如图1 所示,经SG 滤波算法处理后,重构的数据能够较好地保留局部特征。在数据分析和建模中,统计量通常是数据预处理和特征工程的重要基础,是评估数据质量的关键指标之一。表1 列出了部分数据处理前后的统计指标。
1.2 归一化处理
数据处理最后至关重要的一步就是数据的归一化。模型输入的参数数量级不同,会使模型过度关注数量级大的参数,进而影响模型精度。因此本文采用了min-max 标准化,使得特征变量都映射到(0,1) 区间,进而避免模型训练受到输入参数的数量级影响。
1.3 模型输入特征优选
虽然机器学习可以处理大量的数据,但是当数据集中的参数种类过多时,通过剔除不相关的变量可以简化模型、降低过拟合的风险,减少模型对训练数据中的噪声或不相关信息的依赖,同时提升模型精度并缩短训练时间。为了达到这个目的,本文通过钻井工程机理与相关性分析进行参数优选。
影响钻头机械钻速的可控因素主要分为施工参数、钻头参数、地质参数、钻井液参数[23]。施工参数主要有钻压、转速、立管压力等,钻头参数包括钻头类型、钻头结构、切削齿数量[24] ;地质参数包括地质分层、自然伽马测井、补偿密度测井等,这些参数通过影响钻头[25] 和地层岩石的相互作用[26-27] 过程来改变机械钻速。钻井液参数有钻井液种类、密度、黏度、流变参数等[28],钻井液性能和流变参数通过影响循环压力损耗和井底清洁度等来间接影响机械钻速。
本文利用距离相关系数[29] 进行相关性分析,以便深入挖掘各参数与目标变量之间的线性和非线性相关性,同时确保计算量不会过大。
2 机理约束下在线迁移学习的机械钻速预测建模
本文研究思路如图2 所示,基于钻、测、录数据的存储特点形成一套适用于钻速预测建模的数据处理流程和方法。以高质量数据为基础,首先通过对钻井机理的分析和数据挖掘,将其融入机械钻速预测模型中。再利用迁移学习算法将已有的数据和知识迁移到新井或不同地质区域中,提高钻速预测智能模型的泛化能力和适应性。最后,将基于迁移学习的钻速预测模型训练过程与滑动窗口法相结合, 实现模型的实时更新,进一步提高模型的迁移效果和预测精度。
2.1 知识约束下的钻速智能预测模型
专业知识与智能模型的结合旨在利用行业专家的知识和经验,辅助智能模型对特定任务进行建模和预测。其背景源于在某些领域中,优质数据往往是稀缺和昂贵的,而行业专家具有对数据的深刻理解和经验[30],因此将两者结合可以提高模型的预测效果[31-33]。本文在数据层与网络层对机械钻速预测模型进行约束,如图3 所示,通过构造数据新特征与添加机理惩罚项E,以提升模型稳定性和泛化能力。
数据层约束是指通过对专业知识的归纳找到与研究问题贴合的物理公式或者现象帮助优选模型的输入和构造新的特征方法[34-36]。本文主要考虑了钻井专业中较为成熟的机理方程[4] 来指导机械钻速预测模型数据的优选和构造。
修正杨格钻速:
网络层约束是指根据对问题的理解和经验,设计合适的神经网络结构,包括选择合适的激活函数、优化器、正则化方法等,以提高模型的性能。
正常钻进过程中(不发生粘滑振动、钻井复杂等异常工况),钻速与钻压和转速呈正相关关系,即钻速关于钻压和转速的偏导大于0[37-38]。常规回归问题的神经网络通常采用均方误差(Mean Squared Error,MSE)作为损失函数,如式(7)所示,即预测值与实际值差值平方和的均值。本文将“钻速关于钻压和转速的偏导大于0”这一物理关系加入到损失函数中作为惩罚项,每次训练结束分别计算钻速对钻压和转速的偏导,当偏导大于0 说明模型符合物理约束关系,惩罚项为0 ;反之,偏导小于0 则不符合物理约束关系,惩罚项大于0。损失函数增大迫使模型在下一次训练时满足物理约束关系。构造的损失函数:
2.2 基于域对抗神经网络的钻速预测迁移模型
域对抗神经网络[39](Domain-Adversarial Neural Network, DANN)是一种常见的领域迁移学习算法。迁移学习的核心思想是通过学习已知数据的特征空间和分布概率,来解决目标任务中少量标签数据的问题[40-41]。DANN 的主要思想是利用对抗的思想迫使特征提取器生成域分类器无法分辨数据来源的虚拟特征,以此实现不同分布数据之间的知识迁移,其网络结构如图4 所示。
DANN 回归模型由特征提取器、回归器和域分类器3 部分组成。特征提取器用于从输入数据中提取有用的特征,回归器接收特征用于预测任务,而域分类器则用来判断特征的来源域,从而帮助模型进行域适应。在域自适应任务中,源域和目标域之间可能存在分布差异,这会导致训练在源域上得到的模型在目标域上性能下降。域分类器的引入是为了缓解这个问题,通过对输入数据的特征进行域分类,模型可以学习到源域和目标域之间的差异,并将其作为一种衡量标准来指导特征提取器的学习过程。DANN 损失函数如式(10)所示:
DANN 的损失函数由钻速预测误差与域分类误差两部分组成。钻速模型预测误差用于衡量模型性能,使用真实钻速和网络预测钻速之间的差值来计算。域分类误差则是一个对抗性损失函数,用于鼓励神经网络学习到与域无关的特征表示。其通过训练一个二分类器来判断输入的数据是来自源域(训练井)还是目标域(测试井),并且让神经网络学习到二分类器无法分辨的特征表示。通过调节反向传播损失的权重,可以控制域分类器对特征提取器的影响程度。
本文采用DANN 迁移学习算法构建机械钻速智能预测迁移模型,流程如下:
1)数据准备:将两口井的数据作为源域数据, 一口井的数据作为目标域数据,将数据集按照一定的比例分成训练集和测试集,如图5 所示。
2)构建回归DANN 模型:特征提取器的目标是最大化预测准确率,领域分类器的目标是最小化领域之间的差异,从而使特征提取器提取的特征能够在不同领域中具有良好的泛化性能,回归器为特征提取器提取的特征进行任务预测。
3)训练模型:首先将源域数据输入特征提取器, 提取出特征表示。然后,将特征表示输入领域分类器, 判断数据来自于源域还是目标域。最后,将特征表示输入回归器,预测出钻速。
4)模型测试:将目标域数据输入特征提取器, 提取出特征表示,然后将特征表示输入回归器输出钻速。最后,将预测结果与实际结果进行比较,评估模型的性能。
2.3 基于增量学习的钻速预测模型自更新方法
增量学习算法[42](Incremental Learning)是一种能够在不需要全部数据的情况下,仅通过少量的新数据进行模型的更新和训练的技术。增量学习可以在模型的基础上不断累加新的数据和知识,实现模型的实时更新和优化。
为了实现钻井过程中的实时数据流更新,提出了一种双滑动窗口设计方法,通过滑动窗口法让迁移学习训练的目标域与源域数据随着数据流逐渐更新。如图6 所示,邻井滑动窗口用于采集钻进过程中钻头位置上下500 m 范围内井段的工程数据,以作为迁移学习的源域数据。而钻井滑动窗口则用于采集新钻进的100 m 数据,作为目标域数据。此外,由于钻头位置上300 m 到100 m 的数据与未来钻进产生的工程数据分布相似,因此也可以将其作为源域数据进行采集,随着源域和目标域的滑动更新,模型也进行重新训练。
3 实验分析
3.1 专业知识约束对比实验
本文在传统BP 神经网络的基础上分别考虑从数据层和网络层对模型进行专业约束,构建钻速预测智能模型,并建立了随机森林、XGBoost 等模型进行对比实验。实验以邻井全井段数据为训练数据,测试井全井段数据为测试数据。为了更好地评估模型在整个数据集上的性能,减少随机性的影响,笔者对比了多次交叉验证的平均结果。
对比结果如表3 所示,BP 模型的多层结构、非线性激活函数及反向传播机制使其能够处理回归任务中的复杂模式,其在预测效果上也优于其他如XGBoost、随机森林等模型,BP 模型相对于随机森林和XGBoost 在均方误差(MSE)、平均绝对误差(MAE)、决定系数(R2)和平均绝对百分比误差(MAPE)4 项评价指标均最优,这说明BP 在预测精度和目标变量拟合方面都具有更优秀的性能。但如图7 所示,随着井段深度的增加,模型在1 200 m后的预测效果越来越差,这是由于较浅的地层通常具有更相似的地质性质,例如岩性、岩层结构等,随着深度的增加,地质条件可能变得更加复杂和不均匀, 这也迫使现场采用不同的钻具组合,导致纯数据驱动模型没有表现出很好的预测效果。
根据对比结果,选取BP 模型作为基础模型,分别对模型的数据层与网络层进行专业知识约束,约束后的模型预测结果如图8 所示。在数据层约束下, 模型预测准确率得到显著提高,在网络层约束下,模型预测曲线更加平滑,模型抗干扰性更强。根据表4 可以看出数据层与网络层双约束下的BP 模型准确性最高,相对于普通无约束BP 模型,其MAPE 降低了20.8%。
综上所述,将专业知识与神经网络相结合,构造知识约束下的神经网络钻速智能预测模型,可以提高预测的准确性和可靠性。
3.2 机理约束下迁移学习模型对比实验
为了证明迁移预测模型在钻速预测数据上的优越性,选取邻井全井段数据与测试井上20% 井段的数据作为训练数据,测试井下80% 井段数据作为测试数据,其中邻井数据作为迁移学习的源域数据,测试井数据作为目标域数据,利用不同数据训练BP 模型与DANN 模型。
由表5 可知,当BP 模型仅使用目标域训练数据或仅使用源域训练数据建模时,模型在目标域的预测效果较差,在机理约束下MAPE 最好仅达到33.0%。当同时使用源域和目标域训练模型时,由于目标域仅占所有标注数据的1/11,使得BP 模型训练侧重于源域数据,模型在2 100 m 到3 100 m 的预测曲线与真实曲线发生明显的偏移,而且模型预测效果相比于只使用源域数据训练的模型没有明显提升。而DANN 模型预测结果远远优于BP 模型,机理约束下模型MAPE 达到29.6%,说明源域数据与目标域数据输入DANN 模型的特征提取器得到了分布相似的虚拟特征,实现了邻井(源域)数据与测试井(目标域) 数据之间的知识迁移(图9)。
综上所述,使用了迁移算法的迁移学习模型效果在新数据集上的表现远好于常规神经网络算法, 且在迁移学习算法上添加物理约束对模型的优化效果具有叠加性,可以在一定程度上提高模型的精度。在图9-d 中可以发现机理约束下的DANN 模型大约在1 100 ~ 1 600 m 的井段预测效果较好,这得益于此井段数据与目标域井段的数据分布相似。但在钻井过程中,地质条件、钻具组合都是会随时变化的,即使同一口井,不同井段数据分布也会有所不同,这些都会限制离线模型在现场的应用,如在1 600 ~ 2 100 m 的井段可能是由于地质环境突变和钻头破岩工况变化使预测曲线与真实曲线发生较大偏移。
3.3 基于增量学习的钻速预测模型对比实验
基于上文提出的自更新机制建立机理约束下的DANN 在线钻速预测模型,模型在测试井上滑动预测下一根立柱(30 m)的钻速,对比离线模型与在线模型的钻速预测效果。
为了消除单次实验带来的误差,本文选择了不同的初始随机种子进行了多次计算实验,并将多次实验的模型相关精度指标取平均值,结果如表6 所示。结果表明:基于增量学习的DANN 钻速预测模型相较于原DANN 模型MAPE 降低31.8%,R2 提高16.9%,相比普通BP 模型其MAPE 降低了43.3%。如图10 所示,引入增量学习机制后,DANN 模型在1 200 ~ 2 000 m 的钻速预测效果得到了提升,这是由于模型每30 m 就会根据最新数据训练、校正模型, 让模型适应地层、工具等的变化。
综上所述,在迁移模型的基础上使用数据增量更新的方法可以进一步提高模型的精度与泛化能力, 可以让模型实时适应不同井段下各个参数与机械钻速的关系,使智能模型更符合实际应用场景。
4 结论
1)数据层约束和网络层约束均可提高智能模型的精度与稳定性,且两种机理约束对模型的优化效果具有叠加性,双机理约束下的BP 模型相比于普通BP 模型精度明显提高(MAPE 降低了20.8%)。
2)基于域对抗神经网络的机械钻速预测模型可有效地将邻井(源域)数据知识迁移到测试井(目标域)数据上,其预测结果MAPE 为29.6%,远低于其他非迁移学习模型。
3)基于增量学习算法设计了双滑动窗口数据更新机制,以一根立柱(30 m)的长度为步长更新算法的源域和目标域数据,使模型实时适应地下钻进环境变化,实验结果表明,机理约束下在线迁移学习模型的MAPE 为20.2%,模型的精度和泛化能力进一步提升。
4)机理约束、迁移模型与增量更新机制对机械钻速预测模型的预测效果具有叠加性,文中提出的模型预测效果远远优于BP、XGBoost、随机森林等传统模型,相比普通BP 模型,其MAPE 降低43.3%。
编 辑 王 斌
论文原载于《天然气工业》2024年第9期
基金项目:国家重点研发计划项目“复杂油气智能钻井理论与方法”(编号:2019YFA0708300)、国家自然科学基金委员会杰出青年科学基金项目“油气井流体力学与工程”(编号:52125401),中国石油科技创新基金项目“油气钻井破岩智能监测与优化调控技术”(编号:2022DQ02-0308)。
排版、校对:张 敏
审核:罗 强 黄 东
点击阅读原文,链接到《天然气工业》官网