课题组硕士研究生成果发表在工业人工智能领域一区TOP期刊Computers in Industry
文摘
科技
2024-09-28 07:01
江苏
课题组硕士研究生韩辉的研究成果发表在了工业人工智能领域一区TOP期刊Computers in Industry,论文题目“TDAD: Self-Supervised Industrial
Anomaly Detection with a Two-Stage Diffusion Model”,主要研究工业制造场景下多样化产品的异常检测方法,针对异常类型的复杂性和数据注释的高成本问题,提出了一种基于两阶段扩散模型的自监督学习框架TDAD。论文主要创新点是提出了一个基于两阶段扩散模型的自监督学习框架TDAD,用于图像异常检测和定位任务。TDAD包括异常合成、图像重建和缺陷分割三个模块,以端到端的方式进行判别性训练,目的是提高异常的像素级分割精度并降低误检率。通过从正常样本中合成异常,设计基于扩散模型的重建网络,并结合多尺度语义特征融合模块进行缺陷分割。整体框架如图1所示。
由于仅使用正常样本进行模型训练无法获得异常的先验信息,因此本文采用在线合成伪异常的方法进行端到端训练。异常合成的总体流程如图2所示。区域掩膜N主要以两种方式生成,一是叠加二值化Perlin噪声图产生多个缺陷区域;二是叠加连续大面积不规则异常区域,产生多尺度异常区域。本文将DTD数据集与正常样本本身特征相结合,通过图像增强生成异常纹理。
图2 异常合成策略整体流程
本文的图像重建网络由两阶段扩散模型构成,其结构如图1所示,涉及两个扩散过程。首先,模型引入潜在扩散模型,异常图像通过预训练的VQVAE编码器编码到特征空间,得到特征。随后,它经过一阶段的低噪声、高采样步长无条件扩散过程和二阶段的高噪声、高采样步长条件指导扩散过程,得到重建的正常特征。该特征由VQVAE解码器解码以产生高质量重建图像,整体流程见算法1。一阶段过程保留了原始样本的主要语义特征,同时消除了缺陷特征,二阶段过程则是对图像细节部分进行增强,提高重建质量,如图3所示。缺陷分割网络采用类似U-Net的结构(如图4所示),编码器和解码器采用跳跃连接提供必要的语义信息。然而,直接通过跳跃连接中的级联融合编码器和解码器特征映射会导致语义歧义,因为语义存在显著差异。为了解决这个问题,本文在跳跃连接之间引入了多尺度语义特征融合(MSF)模块,如图5所示。图4 缺陷分割网络的结构图5 多尺度语义特征融合(MSF)模块的结构在图像重建过程中,TDAD使用预训练的VQVAE压缩图像,解码阶段的卷积网络可能引入噪声导致误检。为此,本文将特征级异常分数()集成到分割网络中,以细化像素级异常分数()。由编码特征和重建特征的欧几里得范数计算得到并通过平滑模块(图6)进行平滑处理,最终经过高斯滤波获得。为评估提出的TDAD模型,本文在实验部分使用了两个基准数据集:MVTec AD和VisA。实验采用三种衡量指标:图像级AUROC、像素级AUROC和PRO。
在对比实验中,本文在MVTec AD和VisA数据集上将TDAD分别与经典和最先进(SOTA)方法进行了比较,并得出定量和定性结果(表1、表2,图7、图8)。从图表中可以看出,本文的方法在异常检测和定位中均达到了最佳的测试性能。
图7 MVTecAD数据集不同类别的异常定位结果可视化
图8 VisA数据集不同类别的异常定位结果可视化
在工业领域,运算速度与检测准确率同样重要。为了评估工业检测中模型运行效率,比较了不同方法对单幅图像的推理速度,结果如表3所示。相较于先前基于DDPM和DDIM的异常检测扩散模型,TDAD在计算速度上表现出显著的提升。总体而言,TDAD的运行效率足以满足大多数工业产线的生产需求。
表3 各种模型在MVTec的单张图像推理时间和检测精度
为了评估提出的TDAD的必要性,本文对异常合成方法、两阶段扩散模型的步骤、缺陷分割模型的构成模块和异常得分的像素数选择进行了消融实验。本文将异常合成方法与DRAEM和CutPaste网络中使用的方法进行了定量比较,结果如图9所示,这表明合成异常的多样性和真实性增强了模型从训练集推广到未知异常的能力,从而提高了检测准确性。图9 不同异常合成方法在MVTec上的检测效果
为分析重建网络中两个扩散阶段和中间特征融合模块的效果,本文通过控制变量分别从检测效果和图像质量的角度评估每个模块的重要性,结果见表4。图10直观的显示出,经过模型重建后,异常样本基本被调整到与正常样本的特征分布范围接近,而正常样本在重建后仍保留了原有的特征信息。图10 MVTec上典型图像重建的t-SNE可视化为了验证MSF模块结合平滑后的特征级异常分数对分割网络的精度提升效果,本文设置了如表5所示的定性分析,由数据可见,添加MSF模块有效提升了异常定位精度。从图11可见,平滑后的特征级异常分数对于难以准确重建的复杂纹理的异常分割能力提升尤为显著。表5 MVTec上的缺陷分割模型消融实验
实验结果表明,本文所提出的TDAD框架对工业应用具有重要的实际意义,特别是在提高生产线异常检测的效率和准确性方面。TDAD针对合成异常进行判别性训练,无需真实的缺陷样本。这种方法通过结合多样化的合成异常,增强了模型推广到未知异常的能力。两阶段扩散模型能够生成高质量的无异常重建图像,MSF模块与U-Net网络的结合增强了异常分割的能力。通过消除对真实缺陷样本的需求,TDAD减少了模型训练所需的时间和资源,这在缺陷样本稀缺或难以获得的工业生产环境中尤其有利。