【论文分享】Automation in Construction-基于超分辨率重构和分割网络的混凝土结构裂缝检测算法

文摘   2024-08-13 20:56   芬兰  
本文仅作为科研分享交流,版权归原文献作者所有,若感兴趣,欢迎点击底部“阅读原文”进行阅读


摘要:

      无人机采集民用基础设施微裂纹图像存在运动模糊和分辨率不足的问题,降低了微裂纹检测的精度。为此,提出了一种基于超分辨率重构和语义分割的微裂纹自动检测方法。将基于深度学习的SRR模型重建的超分辨率(SR)图像输入到所提出的语义分割网络中进行裂缝分割,并通过改进的中轴变换方法测量裂缝的长度和宽度。与低分辨率模糊图像相比,基于深度学习的SR图像的裂缝分割和特征量化精度得到了显著提高。分析了三个参数对实验结果的影响。与双三次测试集相比,当放大系数为4时,SR测试集的相交-上并集提高了17%。结果表明,该方法在混凝土裂缝检测中取得了较好的效果。


Introduction
基于计算机视觉(CV)的结构损伤检测与诊断技术在公路、桥梁、铁路和隧道等民用基础设施的监测中受到了广泛关注[1]结构裂缝信息是评估混凝土结构安全性和耐久性的重要依据,对于准确检测裂缝具有重要意义[2]。基于CV和无人机的裂纹检测技术由于成本低、操作简单、非接触、观测数据解释直观等优点,在实际工程中得到了广泛应用[3,4]。随着从结构中采集的数据量和复杂性的不断增加,传统的数字图像处理(DIP)算法,包括阈值分割[5]、边缘检测[6]、小波变换[7]等,可能会过度或不正确地提取特征,使得后续的数据处理和分析耗时、繁琐,甚至不准确[8]。因此,对采集到的图像数据进行准确有效的处理和分析已成为结构健康监测与检测的前沿和研究热点。
随着深度学习的蓬勃发展,卷积神经网络(cnn)可以在不需要先验知识的监督学习过程中自动获取图像的特征。与传统DIP技术提取的特征相比,CNN过程学习到的特征能够更准确、鲁棒地表征图像的纹理特征[9]。基于cnn的裂纹自动检测与评估的实验研究有很多[10],主要包括两个方面:(1)绘制裂纹区域的边界框[11,12],(2)通过语义分割在像素级对裂纹进行分割[13,14]。Cha等人从基于区域的深度CNN的角度出发,首先引入了基于滑动窗口的深度CNN结构进行裂纹检测[15],随后又引入了更快的区域卷积神经网络(faster RCNN)来提高裂纹检测模型的性能[16],在受控条件下采集用于模型训练的高质量裂纹图像。因此,训练好的模型很难测试从其他复杂场景捕捉到的新图像 [17]为了克服这一缺点,我们使用包含复杂背景信息的各种裂纹图像对CNN模型进行训练[11,18],并研究噪声[19]和光照条件[20]对分割精度的影响。实际上,裂缝通常呈现为不同角度和方向的黑色细带。基于区域建议的目标检测算法可以很好地检测出裂纹,但不能提供关于裂纹方向和尺寸的准确信息。因此,提出了一些用于像素级混凝土结构表面裂缝识别的语义分割框架,包括全卷积网络(FCN)[21,22]、u形网络(U-Net)[23]、分割网络(SegNet)[24]及其各种变体[25]
尽管上述许多基于深度学习的技术都可以成功地用于检测裂缝,但仍有一些关键的技术问题亟待解决[26]。实际上,基于cv的裂纹检测模型的性能在很大程度上取决于在不同条件下采集的裂纹图像的质量[27]。无人机是采集混凝土结构表面图像的一种常用且高效的方法[28]。然而,在图像采集过程中,无人机会产生振动,出于安全考虑,无人机不能太靠近目标结构[29],这可能导致采集到的图像出现运动模糊,分辨率不足。这些问题可能会导致图像信息的丢失,增加了检测裂纹的难度,导致大量薄裂纹未被检测出来[27,30]。提高图像质量的传统图像处理技术有很多,包括非锐化掩膜滤波、中值滤波和直方图均衡化[26]。然而,这些技术是基于图像的现有像素点来提高图像质量,而不是通过提高图像分辨率来提高图像质量,这对裂纹检测模型的性能贡献不大[31]。超分辨率重建是一种解决图像运动模糊和分辨率不足问题的新技术[32],它可以基于三种算法,包括插值算法、重建算法和机器学习算法[33]。这些SRR算法都有其局限性。基于插值的算法简单地对像素点进行操作,由于丢失了太多的细节,容易使图像模糊。基于重建的算法克服了基于插值算法在引入先验知识方面的困难,但对于纹理丰富的图像重建效果不佳。与其他两种算法相比,传统的基于机器学习的算法可以获得更准确的结果,但重建耗时且模型优化难度大[34]
大量研究结果表明,基于深度学习的SRR可以解决上述基于无人机和CV的结构裂缝自动检测中的技术障碍[35]。超分辨率卷积神经网络(SRCNN)是第一个针对SRR提出的深度学习网络[36]。随后,为了提高SRR的性能,人们开发了一系列基于深度学习的SRR网络,包括超分辨率生成对抗网络(SRGAN)[37]、增强型深度超分辨率网络(EDSR)[38]、剩余信道注意网络(RCAN)[39]和超分辨率反馈网络(SRFBN)[40]等。这些基于深度学习的SRR技术已经成功应用于各个领域,包括医学成像[41,42]、物体检测[43]和人脸识别[44]。然而,这些研究中重建的目标物体的长宽比相对较小,而裂缝结构的长宽比较大,这对通过SRR网络处理裂缝图像提出了不同的挑战。很少有研究使用这些技术来提高裂纹检测的性能[26,32,45,46]。Bae等人将提出的SrcNet模型重建的SR图像与低分辨率(LR)图像进行了比较,结果表明,图像SR可以有效提高检测的召回率,但检测准确率明显下降[26]。Sathya等人得出SRR可以显著提高裂缝分类精度的结论,但对裂缝分割精度的影响程度没有探讨[32]。Kondo等[45]和Kim等[46]得出结论:对于LR裂纹图像,使用SRR可以显著提高裂纹分割精度,但未考虑SRR对裂纹特征量化的影响。虽然上述工作展示了SRR的一般框架,但各种SRR网络和放大因子对裂缝重建的影响尚未得到充分研究。
本研究的目的是提出一种基于深度学习和语义分割网络的方法来提高模糊图像中细裂纹的检测精度。首先,构建基于深度学习的SRR训练数据集,并利用该数据集对基于不同深度学习算法的SRR网络进行训练;通过峰值信噪比(PSNR)和结构相似度(SSIM)初步评价了从训练网络中获得的重构裂纹图像的质量。其次,利用原始的高分辨率(HR)裂缝数据集对提出的语义分割网络CDU-Net进行训练,并将训练后的模型用于识别不同测试集(即原始的HR测试集、双三次插值重构的测试集和基于深度学习SRR模型的测试集)的裂缝,并对识别结果进行比较分析。第三,提取裂缝分割图骨架,根据改进的内侧轴变换(MAT)算法对裂缝长度和宽度等特征进行量化;最后,讨论了不同SRR训练数据集对重构效果的影响,将所提出的CDU-Net分割结果与FCN和U-Net进行了比较,并分析了不同放大倍数重构的裂缝图像的分割精度。
本文的内容组织如下。第2节描述了该方法的流程图,包括SRR的过程、CDU-Net的结构以及基于改进MAT方法的裂纹特征量化。在第3节中,介绍了实现细节和数据集准备,然后介绍了使用不同SRR算法的实验结果,并通过多个指标对结果进行了比较评估。在第4节中讨论了三个关键参数对结果的影响,然后在第5节中得出结论。
Proposed methodology
所提出的方法流程图如图1所示。第一步,使用基于深度学习的SRR模型将由模糊或LR图像组成的裂纹图像重构为HR图像。该模型从训练数据集中学习到LR和HR图像之间的非线性映射函数,然后基于学习到的映射函数重构LR图像对应的新HR图像。第二步,通过训练好的裂纹分割模型对重构的裂纹图像进行像素级分割,在裂纹区域内标记每个像素。第三步,根据改进的MAT方法从像素级分割结果中对裂纹特征进行量化。细节在2.1到2.3节中说明。

2.1. 超分辨率重建

近年来,人们提出了各种用于图像SRR的深度学习网络[33]。如图1左侧所示,为了训练SRR模型,需要构造一个训练集,其中LR图像通过图像退化模型从一系列相应的HR图像中进行下采样。然后,通过选择合适的深度网络构建SRR模型,并基于上述数据集不断优化最优超参数(如损失函数、学习率等)和网络参数,获得特征。最后,将新的LR图像输入到训练好的SSR模型中,并对输出的SR图像的质量进行评估。 下文将描述研究中使用的基于深度学习的 SRR 网络,介绍训练细节,并介绍常用的 SRR 图像质量评估指标。

Fig1. 方法流程图

2.1.1. 网络体系结构

学者们基于不同的网络设计策略提出了许多改进的SRR模型,包括线性网络[36]、残差学习网络[47]、密集连接网络[48]、递归学习网络[33]和生成对抗网络[49]。线性网络,包括SRCNN[36]、快速超分辨率卷积神经网络(FSRCNN)和高效亚像素卷积网络(ESPCN),结构更简单,但不能利用图像特征的全部信息重建新图像。残差学习网络,包括超分辨率残差网络(SRResNet)、EDSR[38]、残差密集网络(RDN)[50]和增强残差网络(ERN),可以避免深度神经网络的梯度退化问题,并且收敛速度快。基于密集连接策略设计的密集连接网络(即超分辨率密集网络(SRDenseNet)、RDN和深度反向投影网络(DBPN)[51])可以有效地解决梯度消失问题,减小模型尺寸,而不会因特征的重用性而降低模型性能。递归学习策略也被引入到一些算法中(例如  一些算法(如 SRFBN、深度递归卷积网络(DRCN)、深度递归残差网络(DRRN)等)中引入了递归学习策略,以改进模型[35]生成式对抗网络(GANs)[49],包括SRGAN[37]、增强型超分辨率生成式对抗网络(ESRGAN)[52]和超分辨率特征识别(SRFeat),也可用于训练SRR模型以获得高质量的图像。在本研究中,选取基于每种网络策略设计的5个代表性网络来获得SRR模型,这些网络的架构如图2所示,其中Conv表示卷积层,Deconv表示反卷积层。

Fig 2. SRR网络架构的示意图

EDSR是在SRResNet的基础上发展而来的,去掉了残留块(ResBlock)的批归一化(BN)层,采用L1损失函数对网络进行优化。在没有BN层的情况下,EDSR可以在训练过程中节省约40%的内存使用,因此可以在相同的计算资源下堆叠更多的网络层并提取更多的特征,从而获得更好的性能。RDN中的残差密集块(residual dense block, RDB)兼具残差学习和密集连接的优点,将每一层的输入和输出特征融合重用,可以为图像重建提供更多线索。DBPN的创新之处在于提出的上下投影模块(即Up Pro和Down Pro),它可以通过一系列紧密连接的上下采样层来学习LR和HR图像之间的反馈误差。DBPN结合不同分辨率、不同深度的特征进行图像重建,使得网络能够获得更多的信息,有助于提升重建性能。SRFBN是通过使用递归学习的反馈块来设计的,其中高层信息以自上而下的方式流经反馈块(FB块),以更多的上下文信息来纠正低层特征。ESRGAN由SRGAN经过两步修饰而成。第一步是在残差密集块(RRDB)中引入残差,通过去除BN层并使用残差缩放来改进生成器结构。第二步是使用相对论平均GAN来确定一幅图像是否比另一幅更真实,从而提高鉴别器的性能。

2.1.2. 网络训练

在训练阶段,需要根据每个输入LR图像与对应的HR图像之间的损失计算来更新模型参数。基于cnn模型的网络参数采用L1损失函数优化,损失函数采用Adam优化算法最小化。基于gan模型的网络参数通过感知损失和对抗损失进行优化,可以有效提高重建图像的真实感[52]。在实验中,最大epoch数设置为100,batch size设置为16,初始学习率设置为0.0001。采用学习率衰减策略对网络进行训练,降低学习率,每隔20个epoch学习率降低2倍。
2.1.3. 评价指标
本研究采用PSNR和SSIM来评价重建效果[33]。如Eq.(1)所示的PSNR是衡量两幅图像之间相似度的指标,PSNR越大表示两幅图像之间的相似度越高。SSIM是一种评价图像质量的标准,它综合考虑图像的亮度、对比度和结构来评价两幅图像的相似性。如果生成的映像与原始映像相同,则SSIM=1。PSNR和SSIM的计算公式如下:
式(1)中,W、H、C分别表示图像的宽度、长度和通道号;X为SR图像;Y为原始图像。在式(2)中,μx和μy分别表示图像X和图像Y的平均值;σx和σy分别表示图像X和图像Y的方差;σxy表示图像X和图像y的协方差,其中K1和K2为常数,避免分母为零.

2.2. 裂缝分割

2.2.1. 网络体系结构
经典的U-Net虽然提高了裂缝分割的精度,但网络中频繁的池化操作导致特征图分辨率较低,导致部分图像特征丢失,导致微裂缝检测缺失[53]。为了克服这一缺点,从三个方面对U-Net体系结构进行了改进。第一个方面是将经典U-Net编解码模块中的卷积块替换为能够捕获裂纹图像多尺度特征的递归残差卷积(RRC)块。二是增加一种新的密集亚属性卷积(dense atrous convolution, DAC)模块来捕获更深层的语义特征,从而保留更多的空间信息,提高裂纹分割的性能。第三个方面是采用交叉熵损失和骰子系数损失相结合的损失函数来解决裂纹分割网络训练阶段像素样本不平衡的问题。在经典U-Net基础上改进的用于裂缝分割的上下文编码网络(CDU-Net)的新架构如图3所示。该网络由特征编码器模块、DAC模块和特征解码器模块组成[54]
编码器模块的作用是从图像中提取上下文信息和语义特征。在经典的U-Net体系结构中,每个块都有一个最大池化层和两个卷积层。为了从裂缝图像中提取更详细的信息,改善各种背景下对低对比度区域(如细裂纹)的分割,引入预训练的Resnet34代替传统的块,并加入快捷机制,避免随着神经网络的加深而梯度消失,加快网络的收敛速度。此外,为了提高网络的泛化能力,通过在卷积层之前增加BN层和整流线性单元(ReLU)激活函数,对原始U-Net中的残差块进行优化。改进后的残差块可以用更少的模型参数加深网络,获得更抽象的裂纹图像特征,加快训练过程。
为了利用裂缝图像的多尺度特征映射,在特征编码器模块和特征解码器模块之间增加DAC模块,以获得高级语义特征[54]图3中间所示,DAC模块在同一特征图上执行四次属性卷积操作,可以在不牺牲特征图分辨率的情况下增加特征图的接受域。每个分支从上到下的接受野分别为3、5、7、9。DAC模块通过结合不同亚特卷积和不同亚特速率来学习不同尺度的裂纹信息。
Fig3. CDU-Net架构示意图
特征解码器模块的功能是将前几个模块提取的高级语义特征恢复到HR图像特征中。常用的特征解码器操作包括反卷积和上采样[54]。本研究提出的特征解码器模块由五个卷积块组成,每个卷积块包含一个上采样层、一个2×2转置卷积(Trans Conv)层和一个1×1卷积层的递归残差卷积块。转置卷积层可以使用自适应映射来恢复具有更详细信息的特征。为了解决最大池化和卷积运算导致的局部信息丢失和特征图分辨率降低的问题,采用跳接的方式将编码和解码过程中获得的裂缝特征融合在一起。

2.2.2. 训练参数

裂缝图像的语义分割是一个二值分类问题[55],二值交叉熵(binary cross-entropy, BCE)损失函数是一种常用的损失函数:
其中n为图像像素总数,yi为第i个像素的标号值,PI为第i个像素的预测概率。由于检测图像中裂纹像素的比例很低,BCE损失函数不能很好地学习和识别裂纹,并且倾向于将裂纹作为背景信息处理。与BCE损失函数相比,骰子系数损失函数可以解决正、负样本不平衡的问题,如式(4)[23]所示。
其中,yi和pi的含义与式(3)中相同,ε为常数。设置ε的原因是,当yi和pi太小时,梯度会变化很大,会使训练变得更加不稳定和困难。BCE损失和骰子系数损失的结合可以有效地处理正负样本不平衡的问题,使模型训练过程更加稳定。组合损失函数计算如下[54]:
式中LTotal为损失总额;LBCE为BCE损失;lice为骰子损耗系数;λ1和λ2分别为平衡BCE损耗和dice系数损耗的加权因子。采用Adam优化算法加快模型训练的收敛速度。mini-batch size、初始学习率、衰减系数和训练epoch分别设置为4、0.001、0.9~0.999和200。

2.2.3. 评价指标

裂缝语义分割可以提供裂缝区域的坐标和强度等像素级信息。采用四种常用的评价指标,包括精密度、召回率、f1评分和交叉-超联合(Intersection-over-Union, IoU)来评价所得结果的准确性[55]。评价指标定义为:
其中TP是被正确检测为裂缝的真实裂缝的像素数,FP是被误认为裂缝的非裂缝的像素数,FN是被误认为非裂缝的真实裂缝的像素数。需要注意的是,本文计算了前景(裂缝)的借据。由于裂纹图像中90%以上的像素是背景,前景所占比例很小,计算背景的IoU并不能准确反映裂纹检测的效果。

2.3. 像素级裂纹特征的定量评价

获取结构裂缝的尺寸对于准确评估结构的状态和确定维修计划具有重要意义[21]。形态学运算通常用于提取裂纹的形态特征和降低噪声。通过改进的中轴变换算法可以提取裂纹骨架信息。根据获得的骨架信息,可以得到裂缝的形态特征(即长度、宽度和面积)[56]
由于裂纹形状不规则,提取的裂纹骨架不是一条简单的直线[21]。然而,基于自适应分割,每个裂缝可以划分为一系列的弯曲段,每个弯曲段的长度可以计算为两个端点之间的欧几里得距离[57]。因此,将所有段的长度累加即可得到整个裂纹曲线的总长度,定义如式(10)。
式中n为裂缝段数,(xi1, yi1)和(xi2, yi2)分别为裂缝第i段的起点和终点。
从提取的骨架信息中可得到骨架上各点到边界点的最小距离ld,由式(11)可计算出裂缝的最大宽度。根据分割结果,由裂纹像素点个数得出裂纹面积,并利用式(12)计算平均宽度。
为了更好地评价预测的准确性和SRR对裂纹图像的影响,采用预测与真实值之间的绝对误差和相对错误率来评价算法的性能。绝对误差(AE)计算公式为:
相对错误率(RER)的公式为:
其中Sp为预测值,Sg为真实值。
Experimental results
3.1. 数据集和实验设置
3.1.1. 数据集
在本研究中,用于训练SRR模型的数据集由两类图像组成,DIV2K数据集(自然场景)[58]和裂缝数据集(主要是混凝土结构)。DIV2K数据集由1000张自然场景图像组成,分辨率为1920×1080像素。从DIV2K数据集中提取1000张分辨率为480×480像素、纹理清晰、边缘清晰的子图像。裂缝数据集由1000张分辨率为480×480像素的混凝土结构表面裂缝图像组成。为了增强SRR模型的表示和生成能力,我们对训练集进行了以下扩充操作:(1)水平和垂直翻转图像,(2)旋转图像180度,(3)按0.6、0.7、0.8和0.9的比例缩放图像。增强后,训练集中的图像数量增加了30倍,得到HR图像集。LR图像数据集是在HR图像数据集上进行图像退化得到的[59,60],图像退化模型可以表示为:
式中g为LR图像,f为HR图像,h为均匀线性运动模下的点扩散函数,⊗表示卷积运算,↓为下采样运算,s为放大因子,bicubic为插值算法,η为加性高斯白噪声。
为了增加训练集的多样性,提高训练效率,从LR图像中随机裁剪出一组大小为lsub × lsub像素的子图像,相应位置的HR图像也被裁剪成大小为slsub × slsub的子图像。将这些LR和HR子图像配对作为训练样本。
用于裂缝语义分割的数据集命名为Crack776[21]。本研究将Crack776数据集定义为HR裂纹数据集,将图像分辨率均匀调整为320×320像素。将HR破解数据集分为训练集、验证集和测试集,百分比分别为70%、10%和20%。HR图像中裂纹宽度的平均值为4~8像素,降采样因子设置为4,以确保LR图像中裂纹整体结构的充分信息,同时模拟实际中最不利的情况。根据Eq.(15)中描述的退化模型,将HR裂纹数据集的测试集(HR测试集)按4倍降采样,得到分辨率为80×80的LR测试集。所有SR测试集都是使用不同的SRR模型从LR测试集生成的。为了突出基于SRR深度学习模型的裂纹图像重建效果,在相同图像尺寸下对结果进行比较,采用双三次方法对LR测试集进行插值,得到与SR测试集大小相同的双三次测试集。

3.1.2. 实验装置

利用SRR重构裂纹图像的主要目的是获得更好的SR图像。采用相同的方法比较了EDSR、RDN、DBPN、ESRGAN和SRFBN 5种SRR模型对裂缝重建的影响。首先,使用相同的训练数据集对5个不同的SRR网络进行良好的训练,然后使用训练好的模型对LR测试集中的新裂缝图像进行SR重建,并使用PSNR和SSIM对重建图像的质量进行评价。其次,利用原始HR裂缝数据集的训练集和验证集对所提出的语义分割网络进行训练,并使用训练好的分割模型对HR、Bicubic和SR测试集进行语义分割。用精密度、查全率、f1分和IoU对语义分割结果进行评价。第三,对所考虑的所有测试集分割结果的裂缝特征进行量化,并根据裂缝的长度、最大宽度和平均宽度对不同测试集的重构效果和分割精度进行评价。
3.2. 裂纹图像的SRR
将SRR训练数据集输入EDSR、RDN、DBPN、ESRGAN和SRFBN进行训练,并使用LR测试集评估相应训练模型的性能。当损失达到最小值并收敛到一个常数时,模型实现收敛。图4为五种网络在训练过程中PSNR和SSIM的收敛曲线。从图4可以看出,随着历元的增加,PSNR和SSIM的趋势相似,当历元达到40时,各模型趋于收敛。表1给出了六种方法重建图像的PSNR和SSIM对比及所需参数。从表1图4可以看出,基于深度学习的所有SRR方法的PSNR和SSIM都大于双立方方法。PSNR和SSIM值越大,图像重建效果越好。从表1也可以看出,基于cnn的SRR方法的PSNR和SSIM明显大于基于gan的SRR方法。基于cnn的SRR方法与基于gan的SRR方法的主要区别在于损失函数,其中基于gan的SRR方法使用感知损失来更好地重建高频细节,而基于cnn的SRR方法使用L1损失。与这些算法相比,SRFBN重构效果最好,且需要的参数最少。
Tab 1. 不同方法在LR测试集上的度量

Fig 4. PSNR和SSIM随历元数的增加而变化

图5为HR原始图像及不同方法重构图像。从图5可以看出,双三次方法重建的线条纹理与真实HR图像完全偏离,而基于深度学习的方法重建的图像边缘和纹理细节更清晰,更接近原始图像。此外,基于cnn和gan的重建图像比双三次方法的重建图像更清晰。值得注意的是,基于 CNN 的图像的高频细节仍然不足,密集的纹理看起来非常平滑,而基于 GAN 的图像生成的纹理虽然看起来更逼真,但与参考图像仍有很大差异。
 

Fig 5. 比较六种方法重建图像的视觉效果

3.3. 重构裂纹图像的语义分割
利用所提出的CDU-Net对重构的裂纹图像质量进行了评价。采用HR裂缝数据集中的训练集和验证集对CDU-Net进行训练。在训练过程中,验证集的训练损失和IoU随epoch数的增加的变化如图6所示。由图6可以看出,训练损失在开始时急剧下降,然后逐渐稳定在1左右,验证集的IoU在开始时急剧增加,最后收敛到0.74左右。

Fig 6. 训练损失(Train_Loss)和验证集(Val_IoU)的IoU随epoch数的增加而变化。

为了验证无向卷积在改善感受野和学习多尺度特征方面的有效性,我们对三个不同网络的分割性能进行了实验。对三种不同网络的分割性能进行了实验。N1为研究中使用的带有DAC模块的网络,N2为DAC模块中所有膨胀率均为1的网络,N3为不带DAC模块的网络。除了DAC模块的设置不同外,所有三种网络具有相同的参数。用相同的训练参数对三个网络进行训练,并在HR测试集上对训练模型进行测试。分割结果如表2所示,从中可以看出,N1模型的分割效果最好,N3模型的分割效果最差。结果表明,虽然输入特征图的大小很小,但DAC模块使网络能够从不同的接受域中提取特征,从而增加了网络的宽度,丰富了网络的信息,提高了网络的性能。

Tab2. 不同网络的分割结果

采用裂纹分割评价指标对双三次方法和基于深度学习的5种SRR方法重构的所有测试集的分割结果进行评价。表3给出了不同算法得到的HR测试集、双三次测试集和SR测试集的分割结果。从表3可以看出,HR测试集的准确率最高(84.51%),召回率最高(85.22%),F1-score最高(84.86%),IoU最高(73.57%)。值得注意的是,Yang等人[21]提出的FCN使用了相同的数据集,其实现的准确率、召回率和f1得分分别为82%、79%和80%,均低于所提出的CDU-Net。双立方测试集获得最差的结果,并且所有指标比人力资源测试集获得的结果至少少15%。SR测试集的四个指标的值非常接近,也比双三次测试集的值大得多。与双立方测试集的结果相比,SR测试集的F1-评分和IoU平均分别提高了13%和17%。
Tab 3. 不同算法重构测试集分割结果评价指标

为了直观地展示不同算法重构的裂缝图像之间的差异,图7显示了不同算法重构的部分裂缝的分割结果,其中也包含了原始标签进行对比。从图7中可以看出,本文提出的分割网络在HR测试集中可以实现更精确的分割,检测到的裂缝在整体结构和细节上与原始标签匹配最好。双三次方法重建的薄裂缝很难被检测到,并且识别出的裂缝明显比地面真值标签宽。相比之下,SR测试集可以很好地检测到大多数薄裂纹,并且某些薄裂纹的分割精度远高于HR测试集。这可能是因为HR测试集中一些细裂纹的边缘是模糊的,而在SRR算法中实现了边缘锐化。不同SR测试集的检测结果在分割精度上基本一致,且明显优于双三次测试集。

Fig 7. 对不同测试集的分割结果进行定性比较

3.4. 裂纹特征定量分析结果

在裂纹检测实践中,通常需要裂纹的长度和宽度信息。因此,根据2.3节的方法计算不同重构数据集的像素级分割结果。
对每个测试集的分割结果和地面真值标签进行骨架提取操作。不同基于深度学习的SRR算法重构的测试集语义分割结果相差不大。因此,我们选择两种具有代表性的语义分割结果(即SRFBN、ESRGAN)进行比较。图8显示了HR测试集的骨架提取结果、所选两种方法重构的测试集、双三次插值得到的测试集以及真实标签,其中L、MW和AW分别代表裂缝的长度、最大宽度和平均宽度。从图8中可以看出,HR测试集的裂缝骨架与真实骨架一致,证明了所提出的分割网络和骨架提取算法的有效性。由于双三次测试集分割结果较差,从双三次测试集提取的骨架与真实骨架相差较大,预测的裂缝宽度均明显大于真实值。SR测试集得到的裂纹骨架与HR测试集得到的裂纹骨架匹配良好,说明基于深度学习的SRR算法在重构方面表现良好。

Fig 8. 部分测试集的骨架提取结果。

图9为裂纹特征量化误差直方图,反映了预测结果与标签真实值的差异。由图9可以看出,在HR测试集分割结果中,裂缝长度、最大宽度和平均宽度的ae分别为33.3像素、2.2像素和1.0像素,裂缝长度、最大宽度和平均宽度的RERs分别约为6%、10%和7%。从图9可以看出,双立方测试集的分割结果非常差。双三次测试集的裂纹长度、最大宽度和平均宽度ae分别为96.1、3.8和2.0像素,三个特征的RERs分别约为13%、19%和24%。每个SR测试集的分割结果误差相似,与双立方测试集相比,所有SR测试集的裂缝长度、最大宽度和平均宽度的平均ae分别减少了59.1、1.7和0.9个像素。

Fig 9. 所有测试集的裂纹特征量化误差直方图

Discussion
由于不同SRR算法对结果的影响几乎相同,因此仅选择SRFBN来证明所提方法的鲁棒性。主要从三个方面进行了研究:(1)研究了训练集对重构效果和语义分割结果的影响;(2)比较了所提网络与常用语义分割网络的性能;(3)研究了图像重构中使用的放大因子对裂缝语义分割精度的影响。

4.1. 训练集对SRR的影响

采用由不同场景采集的图像组成的数据集进行模型训练是获得高质量的超分辨率重构裂纹图像的关键[32]。特别是,包含更多具有不同纹理和几何特征的真实图像的数据集将有助于提高局部裂缝的重建精度[61]。为了研究不同数据集对裂缝图像SRR的影响,分别使用3个训练集进行SRFBN的训练,包括只包含自然场景图像(DIV2K)的数据集A、只包含混凝土结构裂缝图像的数据集B和同时包含自然场景图像和混凝土裂缝图像的数据集C。三个数据集的图像数量相同,其中数据集C中自然场景图像与混凝土裂缝图像的比例为1:1。分别用三个数据集训练SRFBN后,将LR测试集输入到三个数据集训练的相应SRFBN模型中,得到三个SR测试集。选择CDU-Net在像素级对三个SR测试集进行评估,不同指标评估的重建和分割结果如表4所示。由表4可以看出,重构后的裂纹图像质量受到训练集中图像类型的影响,数据集C的重构效果最好。 从表4中还可以看出,数据集A比数据集B取得了更好的结果,因为前者是从包含丰富纹理特征的各种真实场景中收集的。虽然数据集B与测试集相似,但数据集B中只有裂纹区域包含较少的明显纹理特征和边缘信息,因此重建效果较差。数据集C既包含与测试集相同类型的裂纹图像,又包含具有更丰富纹理信息的自然场景图像,这使得网络的学习与裂纹更相关,从而使训练模型的重建效果最好。

Tab4. 用不同的指标评价重构和分割结果

4.2. 采用语义分割网络对SSR的影响

为了研究语义分割网络对结果的影响,利用HR裂缝数据集的训练集和验证集对FCN-8s、FCN-16s、FCN-32s、U-Net、UNet-resnet18和UNet-resnet34等6个网络进行训练,并分别在HR测试集、双三次测试集和SR测试集上进行测试。图10显示了6个网络在HR裂缝数据集上训练时,验证集上的训练损失和IoU随epoch数增加的变化情况。

Fig 10. 验证集上的训练损失和IoU随迭代次数的增加而变化

七个网络在三个测试集上的分割结果如表5所示。由表5可以看出,本研究提出的网络在三个测试集上的表现是所有网络中最好的,并且所有网络在HR测试集上的IoU都是最大的,在双三次测试集上的IoU是最小的。从表5还可以看出,三种U-Net网络在三个测试集上获得的IoU都大于三种FCN网络,并且随着网络深度的增加,三种U-Net网络在三个测试集上获得的IoU都更大。三种FCN网络中的8s、16s和32s表示下采样因子,随着乘法器的增加,FCN网络在HR和SR测试集上的IoU较小,在双三次测试集上的IoU较大。具体而言,该网络在各测试集上的IoU最高,其中HR测试集的IoU为73.57%,比经典U-Net的IoU高出3.9%。图11为6种网络在HR、Bicubic和SR测试集上的分割结果,其中本文提出的网络对裂缝的分割效果最好。

Tab 5. 不同网络在不同测试集上的分割结果

Fig 11. 不同网络在HR、Bicubic和SR测试集上的分割结果

4.3. SRR放大系数的影响

从以往的研究中可以看出,放大倍数对SR图像的重建效果影响很大[40]。SRR放大因子是将LR图像大小增加到HR图像大小的上采样因子。上采样操作也在图2所示的网络结构中进行了说明。要将SRR技术应用于工程领域,必须找到一个最优的放大系数。因此,对相同的LR图像进行SRR,并研究不同放大倍数下重构图像的裂缝分割性能。
实验步骤介绍如下。将Crack776数据集中分辨率为320×320的图像定义为HR裂缝数据集,将HR裂缝数据集划分为训练集、验证集和测试集,比例分别为70%、10%和20%。根据式(15)中描述的退化模型,对HR裂纹测试集的图像进行4倍降采样,得到分辨率为80×80的图像,记为x1-LR测试集。使用x1-LR测试集表示在现实场景中收集的LR模糊数据集,并在其上进行基于深度学习的SRR。选择SRFBN作为SRR网络,放大倍数分别设置为2、3、4、5。用于训练SRR-x2模型的HR数据集为3.1.1节中提到的HR数据集,LR数据集根据Eq.(15)中描述的退化模型从HR数据集上进行2倍的下采样。将HR数据集和因子为2的LR数据集输入SRFBN,训练SRR-2模型。将x1-LR测试集(LR裂缝数据集)输入到SRR-2模型中,得到x2-SR测试集(160×160)。x3-SR 测试集(240×240)、x4-SR测试集(320×320)和x5-SR测试集(400×400)的生成过程与此类似、 和x5-SR测试集(400×400)的生成过程与x2-SR测试集类似,都是用相应的放大系数重建的。将HR裂缝数据集中的训练集和验证集输入CDU-Net,训练出最优的分割模型,然后将该模型用于分割由不同因子重构的裂缝图像组成的测试集。
采用不同放大倍数的SRR算法重构的裂纹图像的分割效果可以用精确召回率(Precision-Recall, P-R)曲线表示。图12为不同裂纹测试集分割结果的P-R曲线,其中x(m)-SR表示SR测试集上放大因子m的分割结果,x1-LR表示x1-LR测试集上的分割结果,其中F1表示评价指标F1-score。图13为不同放大倍数下重构裂纹图像的分割结果,图14为分割结果(即F1-score, IoU)随SRR放大倍数的变化情况。由图14可以看出,随着放大倍数的增大,重构图像的f1分数和IoU先是急剧增加,然后趋于稳定。正如预期的那样,随着放大系数的增大,重建图像的分割图与地面真值标签之间的差异变小,但重建图像所需的时间变长。因此,采用4的放大系数可以很好地平衡分割精度和计算效率。

Fig 12. 不同放大倍数重构的裂纹图像分割结果的P-R曲线

Fig 13. 不同放大倍数下SR测试集图像的分割结果

Fig 14. 分割结果随SRR放大倍数的变化

Conclusion
针对无人机在基础设施裂缝检测中图像采集过程中出现的运动模糊和分辨率不足的问题,提出了一种基于深度学习SRR和语义分割的微裂缝自动检测方法。首先,采用基于深度学习的SRR技术对LR图像进行重构。然后,提出了一种新的像素级裂缝分割网络(CDU-Net),用于重构裂缝图像的分割。最后,采用改进的中轴变换算法对裂纹的长度和宽度进行量化。
对不同SR数据集的分割结果以及分割图中裂纹特征的量化进行了详细的研究。结果表明,从视觉观察和各种评价指标的角度来看,目前主流的SRR深度学习算法对裂纹图像的重建结果相似。SRFBN重构效果最好,需要的参数最少。基于cnn和gan的重建方法在重建图像的清晰度方面都优于双立方方法。利用基于深度学习的SRR方法获得的SR图像的裂缝分割和特征量化的精度远远优于低分辨率模糊图像(即双三次方法获得的图像),与HR图像几乎相同。本文提出的CDU-Net在原始HR测试集上达到了最高的准确率(84.51%)、召回率(85.22%)、f1分数(84.86%)和IoU(73.57%),显著优于其他网络。SRFBN测试集的f1得分和IoU分别达到82.76%和70.59%,比Bicubic测试集分别提高了13%和17%。与Bicubic 测试集相比,SRFBN 测试集获得的裂纹长度、最大宽度和平均宽度的 AEs 减少了59.1个像素。分别减少了59.1像素、1.7像素和0.9像素、 1.7像素和0.9像素。对比研究表明,本研究提出的方法在检测混凝土裂缝方面具有更好的性能,尤其是在检测薄层混凝土裂缝方面。混凝土裂缝,尤其是细裂缝。
讨论了不同SRR训练数据集对重建效果的影响。结果表明,结合自然场景图像和裂纹图像的训练集效果最好。将所提出的裂缝分割网络CDU-Net与FCN和U-Net进行了比较,结果表明所提出的裂缝分割网络比经典的FCN和U-Net具有更好的裂缝检测效果。最后,分析了不同放大倍数下裂纹图像的分割精度。SR测试集的分割精度随着放大倍数的增大而增大,然后趋于稳定。因此,在实践中采用适当放大系数的SRR来提高微裂纹检测的像素级分割精度是非常有意义的。采用4倍的放大系数可以很好地平衡分割精度和计算效率。
然而,本文提出的裂纹检测方法仍然需要两个独立的阶段,可能无法满足实时裂纹检测的需求。在未来的研究中,我们将研究一种结合超分辨率重建和语义分割的优化网络。此外,本研究使用的退化模型仅包含固定数量的基本退化方法,而现实生活中的退化过程是多样化的,通常包含多个退化因素,如成像系统、模糊类型、压缩方法等,这导致了复杂的退化仿真。为了处理更实际的退化,将经典退化模型进一步扩展为高阶退化模型或修改为包含更多样化的模糊核。







董董的生态科研日记
感谢关注!记录一些我的“闯关日记”,分享有关生态林学等文献,以及数据和软件的教程,希望大家都能够在这里有所收获,一起打怪升级!