【论文荐读】一种用于表面缺陷实时检测的高效靶向设计方法

文摘   2024-10-25 07:00   江苏  


标题:An efficient targeted design for real-time defect detection of surface defects

期刊:Optics and Lasers in Engineering, 178 (2024): 108174.
作者Wenqi Cui , Kechen Song , Xiujian Jia , Hongshu Chen, Yu Zhang , Yunhui Yan , Wenying Jiang

单位:School of Mechanical Engineering and Automation, Northeastern University; Key Laboratory of Vibration and Control of Aero-Propulsion Systems, Ministry of Education of China.

1、研究背景:

本文的研究背景在于实际工业应用中,深度学习模型的推理速度直接影响到工业生产的效率。因此,在日益增长的生产效率需求下,实现表面缺陷实时检测的轻量化方法是一项重要的任务。然而,现有的大多数像素级检测方法要么采用巨大的计算开销来学习丰富的特征,导致推理速度慢;要么在应用于不同的工业表面缺陷场景时性能下降。

为了解决这些问题,本文提出了一种高效的针对表面缺陷实时检测的设计(Efficient Targeted Design, ETD),它包括两个分支:一个高效的特征增强分支,通过全局聚合模块(GAM)和跨尺度引导模块(CGM)逐步增强缺陷特征;以及一个轻量级边缘后验分支,用于隐式地指导网络捕捉更详细的信息。

此外,由于大多数缺陷检测模型是为特定的工业环境设计的,因此在不同环境中性能可能会下降。探索具有高泛化性能的模型将大大减少工业缺陷检测的复杂性。因此,本文特别设计了一个轻量级模型以降低模型结构复杂度,提高模型的推理速度,并增强模型的通用性。该模型旨在平衡精度与速度,并结合高精度与高速度架构的优势,构建一个兼顾准确性和速度的框架。同时,该模型还针对工业表面图像的一些通用特性进行了优化,如缺陷图像对比度低、缺陷尺寸变化大以及缺陷区域与非缺陷区域纹理相似等挑战。

2、论文创新点:
本文提出了一种高效的针对性设计(Efficient Targeted Design, ETD),用于实现实时表面缺陷检测。本文的主要贡献可以归纳为以下几点:

①全面关注工业场景下显著性检测的精度与效率平衡问题,并且在四个表面缺陷数据集上取得了超越其他领先显著性检测方法的表现。此外,本文提出的方法还实现了平均实时速度,其中ETD-L版本达到了180 FPS,而ETD-S版本更是达到了275 FPS。

②提出了一种高效的特征增强分支,该分支利用不同阶段特征的逐步融合策略和特征增强操作策略,旨在综合应对缺陷分割中遇到的诸如多尺度、低对比度、背景干扰以及对实时响应的需求等挑战。

③设计了一个轻量级的边缘后验分支(EPB),该分支通过隐式地指导网络提取缺陷纹理信息,有效地减少了网络参数量并提高了推断速度。

④进一步在实际工业表面缺陷检测任务中评估了ETD模型的性能,并在一个真实的工业场景中构建了一个带钢表面缺陷数据库。结果表明,ETD能够在工业智能范式下满足实时检测和高质量检测的要求。

通过以上贡献,本文为工业表面缺陷检测领域提供了新的解决方案,并展示了其在实际工业应用中的潜力。     

3、研究方法:

1)ETD模型的示意图如下图所示:

图1  ETD模型的示意图

ETDEfficient Targeted Design)的设计流程主要围绕着如何在不增加额外计算成本的情况下,实现更高的检测精度,并且满足工业场景下的实时检测需求。以下是ETD设计的详细流程:

模型动机与框架设计:首先,考虑到工业缺陷图像的特点,实时性是一个至关重要的因素。为了在不增加网络模型推理过程中的计算成本的情况下,实现更准确的结果,在模型训练阶段引入更多的计算负担,以获得更有效的训练权重。此外,还引入了一些无参数的操作,比如池化、乘法、加法操作和有效的激活函数,以减少网络的参数量。基于以上考虑,研究者采用了图像增强策略、有针对性的网络架构设计以及高效的损失函数来实现这一目标。

图像增强与输入:在输入工业缺陷图像之前,研究者添加了图像增强策略,如随机翻转和颜色抖动,以获得更健壮的图像数据。然后,这些经过增强的工业缺陷图像被输入到高效的特征增强分支中。

特征增强分支:在此分支中,构建了全局聚合模块(GAM)来加强缺陷特征间的相关性,防止由于网络深度而导致的小缺陷丢失。采用了特征融合策略来提取多层次的特征,然后通过跨尺度引导模块(CGM)来逐步增强缺陷特征和图像对比度。

边缘后验分支:为了更快的推理速度和更少的冗余信息,从特征增强分支中获得的缺陷特征被输入到轻量级边缘后验分支(EPB)。这一分支的设计目的是隐式地引导网络聚焦更多的边缘细节。此外,EPB的特征用于计算辅助损失以优化边界信息。

通过这样的设计,ETD模型旨在处理工业表面缺陷时,能够综合考虑准确性与速度之间的权衡,并且适应多种工业场景。该模型通过对工业图像一些独特的特性进行优化设计,如缺陷对比度低、缺陷尺寸多样以及背景干扰明显等问题,从而增强了模型对表面缺陷的识别能力。

2)全局聚合模块(GAM)的结构图如下图所示:
2  全局聚合模块(GAM)结构图
全局聚合模块(GAM)的设计目的是为了改善模型对于工业表面缺陷检测的性能,尤其是在处理低对比度、不同尺度以及背景干扰显著的缺陷图像时。以下是GAM的工作流程概述:

①输入特征映射:首先,GAM接收前一级网络输出的特征映射fe5作为输入,这些特征映射包含了从图像中提取出来的多尺度信息。
②非线性增强:接着,通过使用具有1×1内核大小的卷积层对输入特征进行处理,增强网络的非线性表达能力。1×1卷积可以改变输入的通道数量,同时保持空间维度不变。

③特征重排:然后,对经过卷积处理后的特征图进行重排,生成三个不同的特征矩阵:查询矩阵Q、键矩阵K和值矩阵V。

④注意力机制:通过计算查询矩阵Q与键矩阵K之间相似性的矩阵乘法,来确定特征间的关系,并利用这种关系生成新的特征矩阵。这一过程可以看作是一种自我注意机制,它能够突出那些与缺陷相关的特征,同时抑制无关背景信息的影响。

⑤生成全局特征:基于上述生成的新特征矩阵,结合值矩阵V,通过进一步的运算生成一个全局特征图fg5。这一步骤确保了模型能够捕获到特征间的全局依赖关系,从而增强了缺陷特征的表现力。

⑥特征校正与验证:使用全局特征图来校正和验证从特征增强分支输出的特征f_2^cgm,从而减少冗余信息并获得更全面的特征表示。

通过以上步骤,GAM不仅提升了模型对缺陷特征的识别能力,还减少了背景的干扰,使得模型在处理工业表面缺陷时表现得更为精准和高效。全局聚合模块的核心思想在于,通过全局上下文信息的整合,加强了特征间的相互作用,使模型能够更好地聚焦于缺陷区域。

3)跨尺度引导模块(CGM)的结构图如下图所示:

图3  跨尺度引导模块(CGM)结构图

跨尺度引导模块(Cross-scale Guide Module,简称CGM)是为了更有效地利用包含在不同尺度特征中的信息而设计的。其主要目标是在处理工业表面缺陷时,克服单尺度特征的局限性,通过融合不同层次的信息来增强模型的表示能力。以下是CGM工作流程的详细说明:

①统一分辨率:CGM首先将低层次特征(如fei)和高层次特征(fei+1fgamii=4)调整至相同的分辨率。这样做的目的是为了让不同层级的特征能够在相同的空间维度上进行比较和融合。

②特征融合:接下来,低层次特征与高层次特征进行融合,生成初步融合特征foi。这个过程允许模块从多个角度捕捉缺陷信息,提高对缺陷的检测能力。

③全局上下文信息提取:为了获取全局上下文信息,CGM对初步融合特征执行全局平均池化操作,然后通过1×1卷积层进一步处理,并使用双线性插值上采样回原始尺寸。此外,还采用膨胀卷积(rate=4)并行地处理初步融合特征,以扩大感受野。

④权重图生成:将上述两种方法得到的特征与原始特征相加后,应用sigmoid激活函数,生成带有丰富信息的权重图W_i。这个权重图有助于提升深层特征的表示能力。

⑤特征增强:通过这种方式生成的权重图,可以用来指导后续的特征学习,使模型更加关注于缺陷边界等重要细节,从而提高检测精度。

总结来说,CGM通过将不同尺度的特征进行融合,并从中提取全局上下文信息,生成用于指导特征学习的权重图,以此增强模型对工业表面缺陷的检测能力。该模块简化了计算负担,促进了信息的快速有效流动,有助于在不增加过多参数的情况下提升模型的表示力。

4)边缘后验分支(Edge Posterior Branch)的结构图如下图所示:
图4  边缘后验分支(EPB)结构图

轻量级边缘后验分支(EPB)的设计目的是为了在不增加太多计算负担的前提下,有效地利用编码器最后一层的细节信息,以提高模型在缺陷检测中的表现,特别是对于边缘信息的捕捉。EPB通过减少冗余参数和优化边缘信息,来提升模型的推理速度。主要包含以下两个模块:

1.验证模块(VM):

①提取浅层特征:VM从一个较浅的网络层提取特征。由于浅层网络层的特征通常含有较多的冗余信息,因此需要一种合理的方法来优化这些特征。

②优化特征:VM采用一种轻量级的结构来优化提取的特征,这种方法尽量减少了计算复杂度。

③特征融合:优化后的特征与来自特征增强分支的特征进行融合,以进一步提升对缺陷边缘的捕捉能力。

2.尺度交互模块(SIM):

①信息协调:SIM的设计是为了在不同尺度之间进行信息协调,以便于捕捉到不同大小的缺陷边缘。

②信息流优化:为了减少计算负担,SIM开发了一种简单的方法来促进信息的快速传递。该方法通过全局平均池化、1x1卷积和双线性上采样来捕捉全局上下文信息。

③增大感受野:为了获取更大的感受野,SIM还增加了膨胀卷积(空洞卷积)的使用。这样可以覆盖更多的范围,从而捕捉到更大范围内的特征。

④特征加权:将上述得到的特征与原始特征相加,并应用激活函数来生成一个带有丰富信息的权重图。

⑤特征校准与融合:使用生成的权重图来校准不同尺度的特征,并将它们再次融合,得到具有更清晰轮廓边界的特征图。

通过上述流程,EPB在减少网络参数的同时,通过轻量级的验证模块和尺度交互模块来优化特征,提升边缘信息的质量,从而在保证精度的同时,加快了模型的推理速度。这种方法尤其适合工业场景中的实时缺陷检测任务,因为它们通常需要在保证检测质量的前提下尽可能快地做出判断

实验方案

本文的实验方案旨在验证所提出的ETD(Efficient Targeted Design)模型在工业表面缺陷检测中的有效性。实验主要集中在四个工业数据集上,包括ESDIs-SOD、Crack500、NRSD-MN以及DAGM。这些数据集涵盖了不同类型表面缺陷,具备不同的规模、复杂程度以及背景干扰。

其中ESDIs-SOD数据集:包含900张图片,涉及三种类型的钢带表面缺陷。Crack500数据集:由2709张图像构成,包含道路裂缝检测数据,具有砾石、树叶、斑马线等干扰。NRSD-MN数据集:包含3216张图像,其中涉及轨道表面的氧化和腐蚀现象。DAGM数据集:包括2000张图片,涵盖10种不同的表面缺陷类型。

在实验过程中,使用随机梯度下降(SGD)优化器进行训练,并采用指数衰减的学习率策略。初始学习率分别为0.0015(ETD-M模型)和0.001(ETD-S/L模型)。批量大小依据模型的不同设定为32、8或6。所有实验均在配备10GB显存的NVIDIA GeForce RTX 3080 GPU的Ubuntu 20.04系统下进行。

实验采用了一系列标准评估指标,包括结构相似性(Sα)、平均绝对误差(MAE)、最大误差(Eξ)、加权F度量(F_wβ)、精度-召回率曲线(PR曲线)以及帧速率(FPS)等。这些指标共同评估了模型的检测性能和实时处理能力。

表1 本文所用到的数据集

实验结论
ETD模型,包括ETD-L、ETD-M和ETD-S,在四个工业表面缺陷数据集(ESDIs-SOD、Crack500、NRSD-MN、DAGM)上的表现显著优于竞争对手。ETD-L在几乎所有评估指标上都取得了最佳成绩,特别是在鲁棒性和效率方面表现尤为突出。ETD-M则在准确性和速度之间提供了最佳平衡,使其成为重视成本效益的现实工业应用中的理想选择。ETD-S与其它轻量级模型相比,在推理速度和准确性方面均有提升,优于诸如CorrNet和EDN-Lite等先进轻量级方法。

ETD-L和ETD-M模型产生的显著性图与真实标签更接近。在检测小缺陷或低对比度缺陷时,大多数其他模型面临困难,而ETD模型(尤其是ETD-L和ETD-M)在处理尺度变化和背景干扰方面更为有效。这表明ETD模型在处理不同类型和大小的缺陷时具有较好的适应性和鲁棒性。ETD模型通过其特征增强分支和轻量级边缘后验分支的设计,能够更好地捕捉到缺陷的边界信息,从而提高检测的准确性。

ETD-S是最高效的模型,具有最低的计算成本和最快的推理速度。ETD-M也显示出具有竞争力的速度,这归功于其高效的网络设计。ETD模型在更低的复杂度下实现了更好的性能,使其成为理想的实时工业缺陷检测工具。这意味着ETD模型能够在保证检测精度的同时,大幅减少计算资源的消耗。通过轻量化的设计,ETD-S在保证检测精度的同时,显著降低了计算复杂度,使得其在实际应用中更具可行性。

消融研究表明,特征增强分支显著提升了ETD-S模型的性能。特征增强分支通过逐步融合不同阶段的特征以及采用特征增强操作策略,能够综合解决缺陷分割中的各种挑战,如不同尺度、低对比度和背景干扰等。边缘后验分支在不牺牲推理速度的情况下增强了缺陷边界的预测。此外,不同组件(如GAM和CGM模块)积极地促进了网络的性能和效率。这些研究证实了ETD模型中各个模块的有效性及其对整体性能的贡献。

ETD模型已在实际钢铁厂环境中进行了测试,展示了其在工业缺陷检测系统中满足实时需求的能力,兼具高准确性和速度。特别是轻量级的ETD-S和ETD-M版本,在工业缺陷检测中脱颖而出,提供高效率和卓越的准确性,优于其他最先进的方法。这证明了ETD模型在实际工业环境中的可行性和可靠性,特别是在需要快速响应的实时场景下。

表2  四个工业表面缺陷数据集上的定量结果

图5  四个缺陷数据集Precision-Recall(PR)曲线和F-measure曲线

6  四个工业数据集上的可视化结果
表3  13个代表性模型实时性能

表4  消融实验结果

图7  表面缺陷ETD方法的目视检查结果

4、结论:

本文提出了一种高效的针对性设计(Efficient Targeted Design,ETD)用于工业生产过程中表面缺陷的实时检测。该设计的核心是在保证检测精度的同时,极大地提升了检测的速度,使得它可以适用于对效率有较高要求的工业自动化生产线上。ETD由两个主要部分组成:一是高效的特征增强分支,它包含了全局聚合模块(Global Aggregation Module, GAM)和跨尺度引导模块(Cross-Scale Guide Module, CGM),这两个模块共同作用于逐步强化缺陷特征;二是边缘后验分支(Edge Posterior Branch),该分支在训练阶段帮助网络更好地捕捉边缘细节,而在推理阶段则被移除以提高模型的速度。

在实验方面,该研究使用了四个与表面缺陷检测相关的数据集,分别是ESDIs-SOD、Crack500、NRSD-MN和DAGM。其中,ESDIs-SOD是一个新创建的用于钢材表面缺陷显著性检测的数据集,包含3600张用于训练和1200张用于测试的图像,每张图像尺寸为200×200像素。Crack500数据集用于路面裂缝检测,包含1896张训练图像和1124张测试图像,分辨率640×360像素。NRSD-MN针对重型轨道表面缺陷检测,包含2086张训练图像和1130张测试图像,每张图像大小为600×600像素。DAGM数据集则涵盖了工业纹理中的10种缺陷类型,分别用于训练和测试的图像数量为1046张和1054张,分辨率为512×512像素。

为了验证ETD的有效性,作者将ETD与十三种代表性的检测方法进行了比较,这些方法包括CSEP-Net、ICON、SCRN、C2FNet、CPD、EDRNet、EDN、VST、MINet、GCPANet、BBRF、DAC-Net、EDN-Lite和CorrNet。比较结果显示,ETD在多种评价指标上均表现出色,包括结构相似度(S-measure)、平均绝对误差(MAE)、最大E-测度(max E-measure)、加权F-测度(weighted F-measure)、精确率-召回率曲线(Precision-Recall curve)和帧率(FPS)。

在损失函数的设计上,ETD采用了包含显著性损失和后验损失的新颖组合。显著性损失通过混合损失结合深度监督的方式,监督每个解码器层的输出,而后验损失则引导网络在训练阶段关注边缘细节。最终的总损失函数由显著性损失和后验损失共同构成。

总之,ETD提供了一个轻量级、高效的解决方案,适用于需要快速响应的工业自动化环境中,同时在多个基准数据集上的实验证明了其在表面缺陷检测领域的有效性。

智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章