标题:An efficient targeted design for real-time defect detection of surface defects
单位:School of Mechanical Engineering and Automation, Northeastern University; Key Laboratory of Vibration and Control of Aero-Propulsion Systems, Ministry of Education of China.
1、研究背景:
3、研究方法:
1)ETD模型的示意图如下图所示:
ETD(Efficient Targeted Design)的设计流程主要围绕着如何在不增加额外计算成本的情况下,实现更高的检测精度,并且满足工业场景下的实时检测需求。以下是ETD设计的详细流程:
模型动机与框架设计:首先,考虑到工业缺陷图像的特点,实时性是一个至关重要的因素。为了在不增加网络模型推理过程中的计算成本的情况下,实现更准确的结果,在模型训练阶段引入更多的计算负担,以获得更有效的训练权重。此外,还引入了一些无参数的操作,比如池化、乘法、加法操作和有效的激活函数,以减少网络的参数量。基于以上考虑,研究者采用了图像增强策略、有针对性的网络架构设计以及高效的损失函数来实现这一目标。
通过这样的设计,ETD模型旨在处理工业表面缺陷时,能够综合考虑准确性与速度之间的权衡,并且适应多种工业场景。该模型通过对工业图像一些独特的特性进行优化设计,如缺陷对比度低、缺陷尺寸多样以及背景干扰明显等问题,从而增强了模型对表面缺陷的识别能力。
通过以上步骤,GAM不仅提升了模型对缺陷特征的识别能力,还减少了背景的干扰,使得模型在处理工业表面缺陷时表现得更为精准和高效。全局聚合模块的核心思想在于,通过全局上下文信息的整合,加强了特征间的相互作用,使模型能够更好地聚焦于缺陷区域。
图3 跨尺度引导模块(CGM)结构图
跨尺度引导模块(Cross-scale Guide Module,简称CGM)是为了更有效地利用包含在不同尺度特征中的信息而设计的。其主要目标是在处理工业表面缺陷时,克服单尺度特征的局限性,通过融合不同层次的信息来增强模型的表示能力。以下是CGM工作流程的详细说明:
①统一分辨率:CGM首先将低层次特征(如fei)和高层次特征(fei+1或fgami当i=4时)调整至相同的分辨率。这样做的目的是为了让不同层级的特征能够在相同的空间维度上进行比较和融合。
②特征融合:接下来,低层次特征与高层次特征进行融合,生成初步融合特征foi。这个过程允许模块从多个角度捕捉缺陷信息,提高对缺陷的检测能力。
③全局上下文信息提取:为了获取全局上下文信息,CGM对初步融合特征执行全局平均池化操作,然后通过1×1卷积层进一步处理,并使用双线性插值上采样回原始尺寸。此外,还采用膨胀卷积(rate=4)并行地处理初步融合特征,以扩大感受野。
④权重图生成:将上述两种方法得到的特征与原始特征相加后,应用sigmoid激活函数,生成带有丰富信息的权重图W_i。这个权重图有助于提升深层特征的表示能力。
⑤特征增强:通过这种方式生成的权重图,可以用来指导后续的特征学习,使模型更加关注于缺陷边界等重要细节,从而提高检测精度。
轻量级边缘后验分支(EPB)的设计目的是为了在不增加太多计算负担的前提下,有效地利用编码器最后一层的细节信息,以提高模型在缺陷检测中的表现,特别是对于边缘信息的捕捉。EPB通过减少冗余参数和优化边缘信息,来提升模型的推理速度。主要包含以下两个模块:
1.验证模块(VM):
①提取浅层特征:VM从一个较浅的网络层提取特征。由于浅层网络层的特征通常含有较多的冗余信息,因此需要一种合理的方法来优化这些特征。
②优化特征:VM采用一种轻量级的结构来优化提取的特征,这种方法尽量减少了计算复杂度。
③特征融合:优化后的特征与来自特征增强分支的特征进行融合,以进一步提升对缺陷边缘的捕捉能力。
2.尺度交互模块(SIM):
①信息协调:SIM的设计是为了在不同尺度之间进行信息协调,以便于捕捉到不同大小的缺陷边缘。
②信息流优化:为了减少计算负担,SIM开发了一种简单的方法来促进信息的快速传递。该方法通过全局平均池化、1x1卷积和双线性上采样来捕捉全局上下文信息。
③增大感受野:为了获取更大的感受野,SIM还增加了膨胀卷积(空洞卷积)的使用。这样可以覆盖更多的范围,从而捕捉到更大范围内的特征。
④特征加权:将上述得到的特征与原始特征相加,并应用激活函数来生成一个带有丰富信息的权重图。
⑤特征校准与融合:使用生成的权重图来校准不同尺度的特征,并将它们再次融合,得到具有更清晰轮廓边界的特征图。
通过上述流程,EPB在减少网络参数的同时,通过轻量级的验证模块和尺度交互模块来优化特征,提升边缘信息的质量,从而在保证精度的同时,加快了模型的推理速度。这种方法尤其适合工业场景中的实时缺陷检测任务,因为它们通常需要在保证检测质量的前提下尽可能快地做出判断。
本文的实验方案旨在验证所提出的ETD(Efficient Targeted Design)模型在工业表面缺陷检测中的有效性。实验主要集中在四个工业数据集上,包括ESDIs-SOD、Crack500、NRSD-MN以及DAGM。这些数据集涵盖了不同类型表面缺陷,具备不同的规模、复杂程度以及背景干扰。
其中ESDIs-SOD数据集:包含900张图片,涉及三种类型的钢带表面缺陷。Crack500数据集:由2709张图像构成,包含道路裂缝检测数据,具有砾石、树叶、斑马线等干扰。NRSD-MN数据集:包含3216张图像,其中涉及轨道表面的氧化和腐蚀现象。DAGM数据集:包括2000张图片,涵盖10种不同的表面缺陷类型。
在实验过程中,使用随机梯度下降(SGD)优化器进行训练,并采用指数衰减的学习率策略。初始学习率分别为0.0015(ETD-M模型)和0.001(ETD-S/L模型)。批量大小依据模型的不同设定为32、8或6。所有实验均在配备10GB显存的NVIDIA GeForce RTX 3080 GPU的Ubuntu 20.04系统下进行。
实验采用了一系列标准评估指标,包括结构相似性(Sα)、平均绝对误差(MAE)、最大误差(Eξ)、加权F度量(F_wβ)、精度-召回率曲线(PR曲线)以及帧速率(FPS)等。这些指标共同评估了模型的检测性能和实时处理能力。
ETD模型已在实际钢铁厂环境中进行了测试,展示了其在工业缺陷检测系统中满足实时需求的能力,兼具高准确性和速度。特别是轻量级的ETD-S和ETD-M版本,在工业缺陷检测中脱颖而出,提供高效率和卓越的准确性,优于其他最先进的方法。这证明了ETD模型在实际工业环境中的可行性和可靠性,特别是在需要快速响应的实时场景下。
表4 消融实验结果
图7 表面缺陷ETD方法的目视检查结果
本文提出了一种高效的针对性设计(Efficient Targeted Design,ETD)用于工业生产过程中表面缺陷的实时检测。该设计的核心是在保证检测精度的同时,极大地提升了检测的速度,使得它可以适用于对效率有较高要求的工业自动化生产线上。ETD由两个主要部分组成:一是高效的特征增强分支,它包含了全局聚合模块(Global Aggregation Module, GAM)和跨尺度引导模块(Cross-Scale Guide Module, CGM),这两个模块共同作用于逐步强化缺陷特征;二是边缘后验分支(Edge Posterior Branch),该分支在训练阶段帮助网络更好地捕捉边缘细节,而在推理阶段则被移除以提高模型的速度。
在实验方面,该研究使用了四个与表面缺陷检测相关的数据集,分别是ESDIs-SOD、Crack500、NRSD-MN和DAGM。其中,ESDIs-SOD是一个新创建的用于钢材表面缺陷显著性检测的数据集,包含3600张用于训练和1200张用于测试的图像,每张图像尺寸为200×200像素。Crack500数据集用于路面裂缝检测,包含1896张训练图像和1124张测试图像,分辨率640×360像素。NRSD-MN针对重型轨道表面缺陷检测,包含2086张训练图像和1130张测试图像,每张图像大小为600×600像素。DAGM数据集则涵盖了工业纹理中的10种缺陷类型,分别用于训练和测试的图像数量为1046张和1054张,分辨率为512×512像素。
为了验证ETD的有效性,作者将ETD与十三种代表性的检测方法进行了比较,这些方法包括CSEP-Net、ICON、SCRN、C2FNet、CPD、EDRNet、EDN、VST、MINet、GCPANet、BBRF、DAC-Net、EDN-Lite和CorrNet。比较结果显示,ETD在多种评价指标上均表现出色,包括结构相似度(S-measure)、平均绝对误差(MAE)、最大E-测度(max E-measure)、加权F-测度(weighted F-measure)、精确率-召回率曲线(Precision-Recall curve)和帧率(FPS)。
在损失函数的设计上,ETD采用了包含显著性损失和后验损失的新颖组合。显著性损失通过混合损失结合深度监督的方式,监督每个解码器层的输出,而后验损失则引导网络在训练阶段关注边缘细节。最终的总损失函数由显著性损失和后验损失共同构成。
总之,ETD提供了一个轻量级、高效的解决方案,适用于需要快速响应的工业自动化环境中,同时在多个基准数据集上的实验证明了其在表面缺陷检测领域的有效性。