课题组硕士研究生成果发表在工业人工智能领域TOP期刊IEEE TIM

文摘   科技   2024-11-14 07:04   江苏  


课题组硕士研究生韩辉的研究成果发表在了领域TOP期刊IEEE Transactions on Instrumentation and Measurement,论文题目“Transformer-Based Multiscale Reconstruction Network for Defect Detection of Infrared Images”主要研究工业灌装产线下铝箔封口红外图像的缺陷检测方法,针对缺陷样本稀缺、红外图像不均匀背景和噪声、缺陷尺寸跨度大等问题,本文提出了一种新型的基于Transformer的多尺度图像重建网络(TMIRN)。

论文主要创新点是提出了一个基于Transformer的无监督学习框架TMIRN,用于铝箔封口红外图像异常检测和定位任务。TMIRN由几个关键模块组成:多尺度Transformer特征提取(MTFE)模块、多尺度注意特征融合(MAFF)模块、多尺度Transformer重构模块、判别网络和异常评分模块。

该模型采用GAN结构,将CNN与Transformer架构结合以进行编码和解码,从而有效利用全局和局部语义信息。该方法使用上采样和卷积结构替代传统的反卷积,减少重建伪影。为实现多尺度下的精确缺陷定位,模型采用多尺度设计,将图像级和特征级的异常评分相结合,以减轻红外图像中常见的不均匀背景和噪声的影响。为进一步提升重构能力,本文引入混合跳跃连接和瓶颈结构,有效抑制异常特征的同时确保正常图像的准确重构。TMIRN的主要结构如图1所示。

图1 用于红外图像缺陷检测和定位的TMIRN主体框架

为准确识别多尺度封口缺陷,MTFE在CNN基础上集成了ViT结构,以增强模型对全局上下文和细粒度细节的提取(见图2)。MTFE的每一层由残差卷积模块和ViT模块组成,结合了卷积和Transformer架构的优势。残差卷积模块采用两个3×3卷积与一个1×1卷积的跳跃连接,捕捉详细的局部特征,并通过BatchNorm和LeakyReLU加速收敛、增强稳定性。受PVTv2启发,改进后的ViT结构(见图5)采用轻量级多头自注意(LMSA)机制和增强的前馈结构,有效降低了计算成本。

图2 MTFE的总体结构

图3 改进的ViT结构

由于来自MTFE的多尺度特征映射在空间特征、语义信息和大小方面存在显著差异,MAFF模块被用来执行这些复杂信息的跨尺度融合。为了增强特征表示能力,使模型在融合过程中集中于相关的通道信息,同时抑制不相关的特征通道,将ECA模块集成在特征融合模块中。该结构如图4所示。

图4 MAFF的整体结构

MTD的主要作用是解码从不同层获得的编码特征向量,生成三个不同尺度的重建图像,与原始输入图像的大小相匹配。为了增强模型的整体结构和重建复杂细节的能力,解码器的每一层都由ViT模块和基于CNN的上采样模块组合构成,具体结构如图5所示。上采样模块集成了双线性插值和CNN结构,不同于传统的反卷积网络,旨在有效地减少图像重建过程中产生的伪影。

图5 MTD的整体结构

判别网络与多尺度编码器具有相同的基本结构,如图1所示。它包括一个MTFE模块、一个MAFF模块和一个线性层。瓶颈结构通过使用卷积和平均池操作将特征转换为一维序列,并通过全连接自编码器压缩特征信息,旨在减少冗余性和抑制非典型特征。这一过程削弱了网络重构异常特征的重建能力。跳跃连接在编码器和解码器之间建立连接,保留特定的重构细节。

异常评分图S由图像级异常评分Si和特征级评分Sf组成,如图1所示。图像级多尺度异常评分Si计算公式如下所示:

由于不同特征块之间存在潜在的不连续,与异常相邻的正常特征块会在上采样过程因此得到更高的异常得分。为了缓解这一问题,本文采用平滑模块对特征级异常分数图进行降噪平滑的操作,得到最终的特征级评分Sf,平滑模块如图6所示。

图6 异常得分平滑模块

为了评估本文提出的TMIRN模型,我们在铝箔封口红外图像数据集上进行对比和消融实验。此外,我们还通过使用公开的MVTec AD数据集来验证所提出的方法的通用性。

本文所采用的铝箔封口红外图像数据集从真实的生产设置中获得,红外图像的获取原理如图7所示。在密封过程中,将铝箔衬垫嵌入瓶盖并旋紧后,电磁感应设备加热铝箔,使聚合物层粘附在容器开口处,蜡层使铝箔与纸浆板分离。密封后,铝箔导热至瓶盖表面,红外摄像机捕捉到连续的环形热成像图案。

图7 铝箔密封技术示意图

数据集的采集过程如图8所示。在线热成像仪通过光电信号连续捕获分辨率为384×288的红外图像。为提高检测效率,工业控制一体机在采集过程中直接实时提取图8所示的感兴趣区域。数据集包含400张训练图像和150张测试图像,测试图像涵盖无铝箔、瓶盖歪斜或松动、铝箔缺口或断裂及封口过热等缺陷,图9展示了具有代表性的图像。

8 数据采集过程
9 典型铝箔封口红外图像
在对比实验中,本文选取了八个经典和最先进(SOTA)方法进行异常检测与分割任务。采用三种衡量指标:图像级AUROC、像素级AUROC和PRO。每个模型都进行了5次训练并取平均结果,对比结果见表1和图10。由图表可见本文中提出的模型在铝箔封口红外图像数据集上具有显著的性能,优于其他8种基线方法。TMIRN在准确定位不同尺度和形状的缺陷的异常区域方面表现出优越的精度。

表1 在红外图像数据集上的异常检测和定位结果

图10 TMIRN和8种基线方法在红外图像数据集上的检测与定位效果图

为了验证所提出的TMIRN框架的各个模块的效果,本文针对跳跃连接的个数、多尺度输入和特征融合模块、MTFE中的特征提取模块、异常的分模块、软标签和梯度惩罚机制进行了一系列的消融实验。

不同跳跃连接数下模型的检测精度有着显著的变化。从图11、12可以看出,随着跳跃连接数量的增加,该模型对异常特征的重构能力有所提高,显著影响了图像异常分割的精度。相反,跳跃连接数量的减少阻碍了复杂图像细节的重建,从而导致了图像级检测精度的显著下降。

图11 跳跃连接的数量对模型性能的影响

图12 图像重建质量随跳跃连接数量的变化效果图

表2和图13展示了多尺度输入和多尺度特征融合模块(MAFF)对TMIRN模型有效性的影响。多尺度输入使模型能够关注不同尺度的特征,从而显著提升检测精度;MAFF模块则通过有效整合基础特征信息进一步提升性能,实现最优检测效果。这些结果证明了MAFF模块在处理多尺度特征、捕捉复杂特征以及提升模型在检测和定位任务中的表现方面的有效性。

表2 在不同尺度输入和特征融合条件下的缺陷检测和定位结果

图13 训练过程中不同尺度输入和特征融合的内容损失

为了验证MTFE中的特征提取模块的有效性,本文对残差卷积模块和ViT模块进行定量分析。如表3所示,残差卷积捕获了细粒度的细节特征,而ViT增强了全局上下文,它们的组合有效地提高了缺陷检测和定位。尽管运行时长略有增加,但准确性的提高证明了这种结合是合理的。

表3 不同特征提取模块的缺陷检测和定位结果

表4表明图像级异常分数和像素级异常分数的组合在准确性方面优于单独使用。直接从像素空间得到的图像级异常分数包含重建过程中产生的噪声,特征级异常得分往往丢失了细节。此外,平滑模块的加入优化了特征级异常得分的总体效果,如图14所示。

表4 不同异常评分方法的检测和定位结果

图14 不同方法的异常分数图

软标签可以防止判别网络快速收敛到临界水平,有效防止模式崩溃。然而,对抗损失的训练过程仍然不稳定,导致收敛具有挑战性。梯度惩罚使训练损失在短暂干扰后逐渐收敛,最终达到纳什均衡,如图15所示。

图15 不同方法的对抗性损失

最后,使用MVTec AD评估了所提出的TMIRN模型的异常检测和定位性能,验证其通用性,见图16和表5。

图16 TMIRN模型在MVTec AD数据集上的异常分数热图

表5 MVTec AD数据集上的异常检测与定位结果

实验结果表明,TMIRN在自有数据集上的检测和定位精度优越。在MVTec AD数据集上的验证显示了TMIRN的良好泛化能力,且其性能优于其他图像重建网络,突显了其在更广泛的工业异常检测领域中的潜在影响。TMIRN具备实时检测能力,检测速度达0.029秒/张,满足工业应用对实时性的关键需求。这一能力使TMIRN成为制造流程和质量控制等需要即时异常检测场景中的理想解决方案。

智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章