标题:MLDFR: A Multilevel Features Restoration Method Based on Damaged Images for Anomaly Detection and Localization
1、研究背景:
在最近的发展中,深度神经网络以更强大的表现学习性能显著地推进了这项任务。在图像空间中,一种直观有效的方法是重建测试样本的正常图像,并利用恢复前后的差异来检测和定位异常。然而,这种像素级图像重建容易受到噪声干扰,导致检测的鲁棒性较差。使用预训练的网络在特征空间中构建特征表示是一种有效的检测方法。然而,存储特征然后检索“正常模板”会产生显著的存储开销,并且对特征的概率分布进行建模会限制模板多样性。
1、MLDFR能够恢复与测试样本最相似的正常特征,并利用恢复前后的差异来实现AD和AL;
2、介绍了一种利用在ImageNet上预训练的CNN和transformer的并行特征提取器,它可以聚合样本的低维纹理和高维语义信息;
3、提出了一种特征恢复模块,该模块可以充分捕捉长距离依赖关系,并提高特征恢复能力。
3、研究方法:
叠加噪声、属性消除、拼图恢复和剪切粘贴是构建异常样本的常用方法。与上述方法不同的是,MLDFR不模拟实际缺陷,只任意、不规则地损坏图像。本文认为,受损样本可以保留部分图像结构,这有利于特征恢复。五种不同的破坏模式如图2所示。
图2 随机损伤可视化图
特征提取与融合如图3所示,由于CNN可以提取低水平信息的局部描述符,而ViT具有更宽的感受野,可以提取全局表示和结构信息。由预训练的CNN网络提取的浅层在AD任务中显示出良好的结果,因此本文选择预训练的ResNet18的前三个块中的最后一层的输出来表示低级别信息的局部描述。我们选择预训练的CaiT的深层输出来表示正常样本的高级特征,而选择浅层输出来表示受损样本的高级特性。本文发现CaiT的浅层输出有利于特征恢复。
论文的实验部分将提出的MLDFR模型在标准数据集MVTec(2019)、BTAD(2021)和MPDD(2021)上进行异常检测评估,评价指标采用图像级和像素级AUROC、PRO。
在对比实验中首先在MVTec上将MLDFR与基于图像相似性的方法和基于特征相似性的方法进行了定量比较,结果如图5所示,可以看出MLDFR实现了最先进的图像水平检测(AUROC 99.4%)和AL(AUROC98.6%,PRO 95.7%)评分。图6、图7分别表示MLDFR在BTAD(2021)和MPDD(2021)数据集上实现的最先进的图像级检测和定位性能。
图6 MLDFR等七种方法在MPDD数据集上的定性比较
为了更好地理解恢复前后特征的判别能力,本文利用t分布随机邻域嵌入(t-SNE)对MVTec数据集样本恢复前后的特征进行可视化,并将其显示在图8中。如图所示,正常特征恢复前后没有显著变化,但异常特征被映射到恢复后的正常特征区域,与之前有显著差异。实验证明,特征恢复模块对正常特征具有可靠的表示能力,保证了MLDFR在各种情况下都具有良好的AD性能。
图9列出了MLDFR与以往工作在推理时间(秒)、内存使用量(MB)方面的比较结果。相比之下,本文结构显著减少了内存使用。在整体性能上,推理时间相对优秀。
最后,通过消融实验,验证了特征提取模块、图像损坏策略、特征重建模块和损失函数以及相关参数对MLDFR的性能影响。图10列出了仅使用CaiT或ResNet18模型和其他主干时选择的不同层输出的结果。可以得出结论:当仅使用CaiT作为特征提取器时,选择正常样本的深层输出和异常样本的浅层输出会产生更好的结果。图11、图12显示了使用不同损伤图像方法和不同损伤参数的定性比较,可见“高斯滤波器、掩模和白色”的平均结果比其他方法要好,适当程度的破坏尤为重要。根据结果,损伤方块的边长设置为输入尺寸的约1/24,损伤方块数量设置为约180,测试结果更好。
图9 推理时间(秒)、内存使用(MB)和性能(AD-AUROC/AL-AUROC)方面的比较
图10 仅使用CaiT或ResNet18模型和其他主干时选择的不同层输出的结果
图11 不同损伤参数的定性比较
图13显示了不同结构的特征恢复模型的定量比较。将对角矩阵引入多层感知(MLP)层,可以大大提高性能,尤其是在结构复杂的数据类型中。同时,大大减少了训练周期。可以充分验证,该对角矩阵有效地聚合了不同通道的重要特征信息,有助于特征恢复。图14中在添加余弦相似性之后,性能显著提高。但如果将使两个分量的比值近似相同的λ设置得太大,则不利于AD和定位。
图13 不同结构的特征恢复模型的定量比较
4、结论:
近乎完美的图像级检测性能使其成为工业AD应用的可能。这一框架的局限性体现在两个方面。首先,它会增加保留所有提取特征的计算成本,因此可以进一步研究筛选重要特征,以减少推理时间和存储空间。其次,并没有明确的图像损伤方法对所有类型的检测都是最好的。在未来的工作中,可以在指定的数据集上进一步研究自适应损伤方法,以提高AD的性能。