【论文荐读】MLDFR:一种用于异常检测和定位的受损图像多级特征恢复方法

文摘   科技   2024-03-22 09:26   江苏  


标题:MLDFR: A Multilevel Features Restoration Method Based on Damaged Images for Anomaly Detection and Localization

来源:IEEE Transactions on Industrial Informatics 20.2 (2024): 2477-2486.
作者:Yinghui Guo , Meng Jiang , Qianhong Huang , Yang Cheng , and Jun Gong
单位:Northeastern University; Shenyang University of Chemical Technology; Heilongjiang University

1、研究背景:

异常检测(AD)和异常定位(AL)是工业智能制造的重要组成部分,广泛应用于许多领域。这是具有挑战性的,因为异常类型复杂多样,而且在实际生产中很难获得异常样本。一种常见的方法是无监督学习,旨在学习正常样本的分布,并将其作为识别异常的标准。

在最近的发展中,深度神经网络以更强大的表现学习性能显著地推进了这项任务。在图像空间中,一种直观有效的方法是重建测试样本的正常图像,并利用恢复前后的差异来检测和定位异常。然而,这种像素级图像重建容易受到噪声干扰,导致检测的鲁棒性较差。使用预训练的网络在特征空间中构建特征表示是一种有效的检测方法。然而,存储特征然后检索“正常模板”会产生显著的存储开销,并且对特征的概率分布进行建模会限制模板多样性

2、论文创新点:

1、MLDFR能够恢复与测试样本最相似的正常特征,并利用恢复前后的差异来实现ADAL;

2、介绍了一种利用在ImageNet上预训练的CNN和transformer的并行特征提取器,它可以聚合样本的低维纹理和高维语义信息;

3、提出了一种特征恢复模块,该模块可以充分捕捉长距离依赖关系,并提高特征恢复能力

3、研究方法:

本文提出了一种基于损伤图像的多级特征恢复方法(MLDFR),用于异常检测和定位。MLDFR试图恢复测试样本的正常特征。具体为,破坏训练样本以生成相应的样本,然后利用卷积神经网络和在ImageNet上预训练的transformer来设计并行特征提取器,以完全表示样本的多级特征。此外,本文充分考虑了长距离局部特征之间的依赖性,并设计了一个特征恢复模块,如图1所示。

图1 MLDFR的体系结构

叠加噪声、属性消除、拼图恢复和剪切粘贴是构建异常样本的常用方法。与上述方法不同的是,MLDFR不模拟实际缺陷,只任意、不规则地损坏图像。本文认为,受损样本可以保留部分图像结构,这有利于特征恢复。五种不同的破坏模式如图2所示。

2 随机损伤可视化图

特征提取与融合如图3所示,由于CNN可以提取低水平信息的局部描述符,而ViT具有更宽的感受野,可以提取全局表示和结构信息。由预训练的CNN网络提取的浅层在AD任务中显示出良好的结果,因此本文选择预训练的ResNet18的前三个块中的最后一层的输出来表示低级别信息的局部描述。我们选择预训练的CaiT的深层输出来表示正常样本的高级特征,而选择浅层输出来表示受损样本的高级特性。本文发现CaiT的浅层输出有利于特征恢复。

图3 特征融合模块的结构

特征重建模块基于ViT结构进行设计,因为它具有出色的上下文表示能力。同时参考了CaiT提出的“LayerScale”结构,即在每个残差块的输出中添加了一个可学习的对角矩阵,这有助于提高训练的动态性,并可以训练更深、更大容量的变压器。此外,还在结构中添加一个与多级特征大小相同的位置编码层来形成特征恢复模块,整体结构如图4所示。本文的主要目标损失是特征恢复前后每个通道的平均均方误差(MSE)和整体的余弦相似度。
图4 特征重建模块的结构

论文的实验部分将提出的MLDFR模型在标准数据集MVTec(2019)、BTAD(2021)和MPDD(2021)上进行异常检测评估,评价指标采用图像级和像素级AUROC、PRO。

在对比实验中首先在MVTec上将MLDFR与基于图像相似性的方法和基于特征相似性的方法进行了定量比较,结果如图5所示,可以看出MLDFR实现了最先进的图像水平检测(AUROC 99.4%)和AL(AUROC98.6%,PRO 95.7%)评分。图6、图7分别表示MLDFR在BTAD(2021)和MPDD(2021)数据集上实现的最先进的图像级检测和定位性能。

图5  MLDFR与基于图像相似性和基于特征相似性的方法的定量比较结果

图6  MLDFR等七种方法在MPDD数据集上的定性比较

图7  MLDFR在BTAD数据集上与先前方法的定性比较

为了更好地理解恢复前后特征的判别能力,本文利用t分布随机邻域嵌入(t-SNE)对MVTec数据集样本恢复前后的特征进行可视化,并将其显示在图8中。如图所示,正常特征恢复前后没有显著变化,但异常特征被映射到恢复后的正常特征区域,与之前有显著差异。实验证明,特征恢复模块对正常特征具有可靠的表示能力,保证了MLDFR在各种情况下都具有良好的AD性能。

图9列出了MLDFR与以往工作在推理时间(秒)、内存使用量(MB)方面的比较结果。相比之下,本文结构显著减少了内存使用。在整体性能上,推理时间相对优秀。

最后,通过消融实验,验证了特征提取模块、图像损坏策略、特征重建模块和损失函数以及相关参数对MLDFR的性能影响。图10列出了仅使用CaiT或ResNet18模型和其他主干时选择的不同层输出的结果。可以得出结论:当仅使用CaiT作为特征提取器时,选择正常样本的深层输出和异常样本的浅层输出会产生更好的结果。图11、图12显示了使用不同损伤图像方法和不同损伤参数的定性比较,可见“高斯滤波器、掩模和白色”的平均结果比其他方法要好,适当程度的破坏尤为重要。根据结果,损伤方块的边长设置为输入尺寸的约1/24,损伤方块数量设置为约180,测试结果更好。

图8 测试样本在前后重建的特征的t-SNE可视化

实验运行结果图如下图9所示。基于边界的基线方法通过直线移动来快速行进走廊以增加覆盖区域,而不转向门或房间。而MRMR方法快速转向到达门并进入房间,并且能使机器人没有冗余的情况下唯一地访问每个房间:

图9 推理时间(秒)、内存使用(MB)和性能(AD-AUROC/AL-AUROC)方面的比较

图10 仅使用CaiT或ResNet18模型和其他主干时选择的不同层输出的结果

图11 不同损伤参数的定性比较

图12 不同损伤图像方法的定性比较

图13显示了不同结构的特征恢复模型的定量比较。将对角矩阵引入多层感知(MLP)层,可以大大提高性能,尤其是在结构复杂的数据类型中。同时,大大减少了训练周期。可以充分验证,该对角矩阵有效地聚合了不同通道的重要特征信息,有助于特征恢复。图14中在添加余弦相似性之后,性能显著提高。但如果将使两个分量的比值近似相同的λ设置得太大,则不利于AD和定位。

图13 不同结构的特征恢复模型的定量比较

图14 在损失函数中添加余弦相似性前后的定量比较

4、结论:

在这项工作中,本文将图像恢复的概念引入到特征空间中,并提出了一种新的ADAL范式。大量实验表明,在这种范式下,只使用简单的损伤方法训练特征恢复模块,就可以获得最新的性能。

近乎完美的图像级检测性能使其成为工业AD应用的可能。这一框架的局限性体现在两个方面。首先,它会增加保留所有提取特征的计算成本,因此可以进一步研究筛选重要特征,以减少推理时间和存储空间。其次,并没有明确的图像损伤方法对所有类型的检测都是最好的。在未来的工作中,可以在指定的数据集上进一步研究自适应损伤方法,以提高AD的性能



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章