本文版权归天然气工业杂志社所有
未经允许,不得转载
汤清源, 杜宇成, 叶胜, 等. 基于局部特征匹配的井下管柱图像智能拼接融合技术[J]. 天然气工业, 2024, 44(9): 190-198.
TANG Qingyuan, DU Yucheng, YE Sheng, et al. Intelligent image mosaic and fusion technology of downhole pipe string based on local feature matching[J]. Natural Gas Industry, 2024, 44(9): 190-198.
作者简介:汤清源,1979 年生,高级工程师,硕士研究生导师;主要从事油田杠杆无损检查技术研究及设备开发工作。地址:(434001)湖北省荆州市沙市区豉湖路12 号。ORCID: 0009-0007-5772-4084。
E-mail: tangqy@cnpc.com.cn
通信作者:叶胜,1998 年生,工程师;主要从事人工智能与图像处理研究工作。地址:(430048)湖北省武汉市东西湖区环湖中路36 号。ORCID: 0009-0003-8538-4217。
E-mail: yesheng19982023@163.com
汤清源1 杜宇成1 叶 胜2 房 伟3
梁建龙1 袁 翔1 刘浩浩1
1. 中石油江汉机械研究所有限公司
2. 武汉轻工大学电气与电子工程学院
3. 中国石油川庆钻探工程有限公司井下作业公司
摘要:井下电视成像测井可以直观地监测井下管柱是否异常,但采集的井下管柱图像存在纹理低、光照不足、背景重复等问题,传统的尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等算法很难稳定地检测出高质量的特征点,导致图像拼接融合鲁棒性差。为此,基于局部特征匹配的思路,先利用反向像素映射算法将管柱图像展开成平面图,并对径向误差进行精确修正,再利用卷积神经网络提取局部特征,利用注意力机制在粗略层面上建立像素级匹配,最后引入最佳拼接线和平滑函数来消除拼接误差,实现了井下管柱大尺度图像的智能拼接融合。研究结果表明:①基于局部特征匹配的井下管柱图像智能拼接融合技术,通过图像预处理、特征匹配和图像融合,解决了井下管柱图像拼接融合的稳定性问题;②图像智能融合质量的平滑权重因子(k)为0.05 时融合效果最佳,k 值越小融合图像拼接缝越明显,k 值过大则容易在重叠区域产生重影;③通过计算待拼接图像的最佳拼接线来消除角度倾斜带来的误差,达到了稳定智能拼接融合的目的;④与SIFT 算法相比,该算法能检测出的特征点数量平均增加了74.6%,平均智能匹配正确率由83.9% 增加到了98.8%。结论认为,该算法检测到的特征点数量和正确率都得到了明显提升,智能融合图像的结构相似性、峰值信噪比和均方误差等指标均优于传统算法,为解决井下管柱探测难题提供了新思路和技术手段。
关键词:井下管柱图像;局部特征匹配;特征点;智能图像拼接;图像融合;图像预处理;卷积神经网络;结构相似性
0 引言
在油气开采过程中,井下管柱在各种外力和环境因素作用下,容易出现管壁破损、变形、结垢、腐蚀等异常情况,需要采用井下电视等测井技术去探测和评估井下管壁状况,以便及时采取应对措施[1-4]。因此,开发一种井下管柱图像拼接融合技术,将井下视频图像拼接融合成大尺度的二维平面图像,对提高井下复杂问题的理解能力具有十分重要的意义[5-6]。
图像拼接融合技术在资源遥感、气象预报、医学成像、自动驾驶等领域有着非常广泛的应用,一直是计算机视觉领域的研究热点之一[7-13]。例如王红尧等[14] 使用简易旋转与快速定向算法提取特征点实现了矿井多视角图像拼接。Lowe[15] 及Sharma 等[16] 使用AKAZE (Accelerated KAZE)算法检测特征点,能最大程度减少拼接缝的存在。还有一些使用角点检测算法、尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等算法实现图像拼接的报道[17-22]。这些算法严重依赖于特征点的检测质量和数量,然而井下管柱图像背景主要是光滑的金属管壁,且存在图像暗淡,颜色、纹理等特征严重不足,这导致传统算法很难找到高质量的特征点,图像拼接融合极不稳定[21-25]。
近年来,基于卷积神经网络(Convolutional Neural Networks,CNN)的深度学习技术,因其优秀的特征提取和表达能力,在图像拼接融合领域也得到了越来越多的应用[26-31]。Hejazifar 等[32-35] 使用CNN 来对图像进行特征提取,通过寻找更密集的匹配像素点来弥补算法的稳定性。Nie 等[36] 及Li 等[37] 利用深度同源模块实现了任意视角的拼接,但由于缺乏真正意义上的深度图像拼接数据集,导致深度学习网络训练不足,在实际应用场景中的效果难以令人满意。Tchinda 等[38] 及Nguyen 等[39] 利用半监督或无监督学习的局部特征匹配方法,并通过图形神经网络学习匹配,但由于关注范围只限于检测到的兴趣点,导致算法稳定性较差。Sun 等[40-43] 提出了一种无检测器的基于变换器的局部特征匹配算法(Local Feature Matching with Transformers,LoFTR), 改变了以往算法依次进行特征检测、描述和匹配的策略, 获得了稳定的拼接效果。但该方法目前仅用于日常场景的平面图像拼接,尚未见到在井下管柱图像拼接场景中的成功应用。
笔者在参考文献[40] 的基础上对算法进行改进, 提出了一种基于局部特征匹配的井下管柱图像拼接融合技术。首先充分利用LoFTR 算法在低纹理图像上的优异性能,并利用注意力机制在粗略特征图上建立像素级的密集匹配;然后在精细特征上完善区域级匹配,并引入最佳拼接线来消除误差的累积。该技术解决了井下管柱图像拼接融合的稳定性问题, 在井下管柱探测领域具有十分良好的应用前景。
1 拼接融合方法
1.1 总体流程
井下管柱图像拼接融合技术的处理流程如图1 所示,主要分为图像预处理、特征匹配和图像融合3 个阶段。在图像预处理阶段,首先根据图像传感器行进速率对原始视频进行取帧,再通过像素映射将管道图像进行切向展开,使圆柱图转换为平面图,并进行径向拉伸以修正误差,便于后续拼接。在特征匹配阶段,以两幅待拼接图像为输入,利用卷积神经网络模块,提取图像的多层特征,先在粗略特征图上进行像素级的密集匹配,再以此为参考在精细特征图上进行区域级的特征点筛选与匹配。在图像融合阶段,首先根据特征点匹配结果得出最佳拼接线, 计算重叠区域并获取像素的全局坐标,依次在各颜色通道图像进行拼接融合;然后将多个单通道图像融合形成展开图像;最后将融合形成的展开图像和前面预处理过的图像逐一拼接,得到大尺度的井下管柱平面图像。
1.2 图像预处理
在获取原始视频后,首先要根据图像传感器行进速率等间隔地取帧,从视频中获取待拼接图像;然后根据管道图像的特点,使用圆环模板截取每帧图像的感兴趣区域(Region of Interest, ROI);再利用像素映射将图像进行切向展开;最后利用径向校正技术对图像进行径向拉伸处理。
像素映射示意图如图2 所示,待拼接井下管柱图像的ROI 是圆环形,而展开图像是矩形。图中r 和R 分别表示圆环图像的内外圆半径,点A1 和B1 分别为圆环图像内环和外环上的展开起点,点A、B、P 分别对应圆环上的点A1、B1、P1 的对应点,ρ 为P1 点所在圆环的半径,θ 为P1 点对应的方位角,O' 表示圆环图像圆心坐标。
设展开后矩形上的任意一点P(x,y) 对应着圆环图上的点P1(xc,yc),展开矩形图像和圆环图像的像素坐标映射关系为:
通过对展开图像与圆环图像进行像素坐标的映射,即可得到切向展开的平面图像。
由于成像存在远近与大小问题,同样的井下管柱面积,在远离图像传感器的地方(成像靠近内圆环),成像在传感器上的像素点个数较少,导致井下管柱图像在y 方向(径向)存在明显的畸变,靠近圆心端被压缩,远离圆心端被拉伸。同时展开图像的大小受圆环半径影响,与实际管柱图像相比,图像纵横比存在偏差。这些误差如果得不到修正,同一目标在两张图像中的大小和形状将存在很大差别,最终导致拼接失败。
利用径向校正技术可以有效修正这种展开误差, 即通过多项式拟合的方式,在畸变图像与校正图像之间构建像素映射模型,通过重新排布像素的位置, 使展开图像中的棋盘格按照正常比例显示,同时修正沿y 方向上图像被压缩的问题。
设展开后畸变图像中的某像素点坐标为P1(x1,y1), 畸变修正后的像素点坐标为P2(x2,y2),两点的坐标对应关系为:
1.3 特征匹配
笔者采用了一种局部图像特征匹配方法来搜寻待匹配图像中同时存在的同一物体实例。其配准过程可以分为4 步:①局部特征提取,利用多层卷积神经网络强大的图像特征提取能力,获取待匹配图像的粗略层次和精细层次局部特征;②局部特征变换,将粗略层次的图像特征利用注意力机制进行处理,计算特征之间的相关性,获取特征点之间的置信度矩阵;③粗略匹配,根据特征点之间的置信度, 在粗略层次图像特征上进行像素级的密集匹配;④精细匹配,以粗略匹配获取的特征点为参考,结合第一步获取的精细层次图像特征,对匹配到的特征点进行筛选,并在高分辨率图像特征上进行对准,获取精确的匹配特征点。
局部特征提取的网络结构如图3 所示,其采用了一种残差网络加特征金字塔的形式。首先将待匹配图像输入到卷积模块中,该卷积模块由2 个基础残差网络结构组成,获取到大小为640×480 的特征图C1。再自底向上经过3 个同样由残差网络结构组成的卷积模块,每经过一阶段的卷积模块操作,特征图的高度和宽度减半,得到大小分别为320×240、160×120、80×60 的特征图C2、C3、C4。选取C2、C3、C4 3 个层次的特征图输入到特征金字塔网络结构中,中间横向连接,添加1×1 卷积层对左侧特征进行通道数调整,并对低分辨率的特征图进行上采样操作后,与具有相同尺寸的下一层按对应特征相加, 融合高层语义信息和低层位置信息,以加强图像特征信息。再采用3×3 卷积层进行处理,消除上采样带来的混叠效应,最终得到了大小为80×60 的粗略层次特征图P4 和大小为320×240 的精细层次特征图P2。低分辨率的P4 将输入到局部特征变换模块中进行特征变换,再建立粗略匹配,而高分辨率的P2 将直接用于进行精细匹配。
为稳定地实现粗略层次匹配,须使用注意力机制网络结构进行特征变换,将两幅待匹配图像中相似的特征点凸显出来。待匹配图像A 和B 的P4 特征图展开成4 800×1 的特征向量fA 和fB,输入到多头注意力层网络结构中。对于每个多头注意力层,首先对特征向量fA 和fB 分别进行自注意力计算,得出自身特征点之间的关系,再进行交叉注意力计算,得出相互特征点之间的关系。对于图像A 和B,两张图像特征点的注意力机制计算式如下:
通过多头注意力层获得每个特征点之间的相互关系后,根据计算结果在通道维度进行归一化处理, 再与图像A 的特征向量fA 相加,得到两幅低分辨率特征图的匹配代价矩阵,作为粗略匹配的输入。
在粗略匹配阶段,首先根据局部特征变换输出的代价矩阵,通过乘积的方式计算所有像素点的代价矩阵S,再计算所有像素点的置信度矩阵PC :
根据置信度矩阵PC,将低于阈值的匹配点进行过滤,再通过互近邻算法过滤掉一些异常匹配对,就得到了粗略匹配预测结果。
在精细匹配阶段,以粗略匹配获得的特征点为参考点,将其映射到精细特征图中,生成一系列5×5 的区域,将这些区域再利用注意力机制计算彼此相关性。如图4 所示,P1(i1,j1)、P2(i2,j2) 分别为粗略匹配获得的待匹配图像A、B 中的某个特征点, FA、FB 分别表示P1、P2 在精细特征图映射的区域。再利用式(4)计算FA 区域中心点的特征与FB 区域中所有点特征的置信度矩阵,得出FA 在FB 中的亚像素精度的匹配点位置,获取最佳匹配特征点。
1.4 拼接融合
在拼接融合阶段,首先根据所有特征点置信度和位置关系,计算出最佳拼接线。然后根据最佳拼接线和待处理图片的尺寸参数,计算两张图像的重叠区域,获取重叠区域的像素在两张图像中的坐标; 然后在RG B三通道上的重 叠区域内 依次遍历每个像素,根据选取的平滑函数和加权平滑系数将两张图片融合在一起;最后将3 个单通道加权融合图像 输出。
由于井下管柱图像在展开过程中存在一定误差, 导致每张展开图像的视 角存在微小的差别。如果直接利用特征匹配模块对找到的所有特征点进行融合,容易造成两张待拼接图像以一定的角度进行拼接,而角度误差一旦累积到一定程度,就会导致拼接失败。针对此问题,本研究将所有搜寻到的特征点置信度均值作为阈值,计算阈值之上的特征点匹配位置关系,计算出两张图的横向和纵向最佳拼接线,具体计算式为:
2 实验结果与分析
2.1 图像预处理结果
为获取用于径向校正的最佳拟合系数a、b、c,验证图像预处理技术的有效性,本研究采用普通PVC 管道模拟井下管柱,利用井下专用的图像传感器采集了模拟管道视频进行算法验证。
图5 为模拟视频经预处理后得到的结果图,根据传感器行进速率,将取帧频率设置为5 帧/s。图5-a 是从视频中取帧得到的原始图像,图中整体背景呈灰白色,一些规则图形分布在井壁四周,整体上图像光照条件较差,管壁上规则图形与普通平面图特征差别很大。图中蓝色圆环模板由附近的接箍信息确定, 用于截取管壁中的ROI。图5-b 是经视角调整后截取的ROI 区域,因为井下图像传感器一般为鱼眼镜头, 太近和太远的像素都存在明显的畸变,因此只对ROI 部分进行展开处理,这样在减小展开误差的同时节省了计算资源。图5-c 是利用坐标映射关系将圆环展开后的结果图,虽然主要目标图形没有丢失,但与真实情况还存在很大差异,径向方向存在明显的失真。这主要是由摄像机成像远近问题带来的误差,该误差会导致同一物体实例在不同帧图像中差别很大, 必须加以修正,否则将极大地影响后续的拼接融合。图5-d 是利用径向校正方法进行误差修正后的结果图,与图5-c 相比,失真程度明显减轻,这充分说明了本研究的图像预处理技术的有效性。
2.2 特征匹配结果
为了验证本文算法特征匹配的效果,笔者在模拟井下管柱和真实井下管柱两种情况下进行了特征点匹配实验,并与目前主流算法中最有效的SIFT 算法进行了比较。特征匹配结果如图6 所示。可以看出, 在真实井下管柱视频中,由于光照不足,视频相对模糊,两种算法找到的匹配特征点都大大减小,但本文算法找到的特征点个数明显多于SIFT 算法,且匹配线之间基本平行。这是因为SIFT 主要是对纹理特征和角点等全局特征进行匹配,而管道图像纹理特征低,几乎没有角点,导致在真实井下管柱场景下效果不理想。
两种算法的特征点匹配统计结果如表1 所示。与SIFT 算法相比,本文算法找到的平均总匹配特征点的个数由24.8 个增加到43.3 个,增长了74.6% ;平均正确匹配特征点个数由20.8 增加到42.8,增长了105.8% ;平均匹配正确率由83.9% 增加到了98.8%。特征点数量和正确率都明显高于SIFT 算法,这充分验证了本文算法的有效性。
2.3 图像融合结果
为了获得最佳的融合效果,还需要对影响图像融合质量的平滑权重因子(k)进行优化,图7 展示了不同k 值时图像融合效果,通过对比可以发现k 为0.05 时融合效果最佳。k 值越小,图像边界线越明显, 容易导致融合图像产生明显拼接缝;过大的k 值则容易在重叠区域产生重影,导致融合图像中出现鬼影现象。
传统拼接融合算法都是针对日常平面场景设计, 为了获得最佳拼接融合效果,会根据视角以一定的角度对待拼接图像进行拼接。而在井下管柱场景下, 待拼接图像是由管道图像平面展开而来,本身存在展开误差,再引入角度误差,极易导致拼接融合失败。本文算法通过计算待拼接图像的最佳拼接线来消除角度倾斜带来的误差,在新的图像上映射非重叠区域,融合重叠区域,达到稳定拼接融合的目的。经过大量实验表明,对真实井下管柱图像,SIFT 算法仅能处理2 张图像,LoFTR 算法能处理3 张图像, 但拼接融合效果存在明显误差,而本文算法可以处理10 张以上图像,且拼接融合效果稳定。
2.4 大尺度拼接融合效果
为了更好地评估本文算法的有效性,笔者在肉眼主观评估的基础上,还使用了结构相似性( Structural Simliarity,SSIM)、峰值信噪比(Peak Signal-Noise Ratio,PSNR)和均方误差(Mean Squared Error,MSE) 等指标来评价拼接融合算法的性能,并与其他算法进行了比较。SSIM 是一种由亮度、对比度和结构等参数组成的评价指标,是一种能反映人类视觉特征的客观指标,值越大,说明拼接融合过程中损失的信息越少;PSNR 和MSE 是衡量图像像素误差程度的两个重要指标,反映了图像拼接融合质量,二者通常结合起来评价,一般PSNR 越大,MSE 越小,拼接融合质量越好。本文算法与LoFTR、SIFT、AKAZE 和ORB 算法的对比结果如表2 所示,可以看出本文算法的SSIM、PSNR 和MSE 等指标都明显优于其他算法,这说明本文算法对图像细节的保存最完好,能更好地满足井下管柱场景下的图像拼接融合需求。
图8 为在油井管柱诊断现场采集的大尺度拼接效果图,由时长为12 s 的视频拼接融合而成,整个管壁长度约为1 m。从图中可以清晰地看到管壁中的6 个孔洞,管壁纹理融合较好,几乎不存在色调和视觉偏差问题,能更直观地呈现井下状况,有利于井下异常的定量测量及后续处理。
3 结论与建议
1)针对井下管柱图像低纹理特征、光照不足、背景重复等特点,本文提出了一种基于局部特征匹配的井下管柱图像拼接融合技术,按照图像预处理、特征匹配和图像融合3 个阶段实现了大尺度图像拼接融合。
2)在图像拼接阶段,利用卷积神经网络提取图像局部特征,再利用注意力机制先后在粗略和精细层次上进行像素级和区域级匹配,稳定获取高质量特征点。
3)在图像融合阶段,以最佳拼接线来配准待拼接图像的重叠区域,消除拼接误差,利用平滑函数在各颜色通道进行融合,输出高质量二维平面图像。
4)与传统SIFT 算法相比,本文算法能找到更多、质量更佳的特征点,检测出的特征点数量平均增加了74.6%,正确匹配特征点数量平均增加了105.8%, 平均匹配正确率由83.9% 增加到了98.8%。
5)在井下诊断过程中,难免出现摄像头大幅转动或严重偏心等情况,导致图像拼接融合过程中易出现较大误差,而本文算法消除这些累积误差的方式还不够灵活,图像拼接融合帧数受到限制,需要进一步探索鲁棒性更强,能实时消除图像拼接误差的算法。
编 辑 王 斌
论文原载于《天然气工业》2024年第9期
基金项目:中国石油天然气集团有限公司科学研究与技术开发项目“直属院所基础研究和战略储备技术研究”(编号:2021DQ03-02)、中石油江汉机械研究所有限公司科学研究与技术开发项目“井下可视化定量分析系统研究”(编号:2022JJYSJ004)。
排版、校对:张 敏
审核:罗 强 黄 东
点击阅读原文,链接到《天然气工业》官网