点击下方“深度学习爱好者”,选择加p"星标"或“置顶”
论文信息
题目:Infra-YOLO: Efficient Neural Network Structure with Model Compression for Real-Time Infrared Small Object Detection
Infra-YOLO:实时红外小目标检测的高效神经网络结构与模型压缩
作者:Zhonglin Chen, Anyu Geng, Jianan Jiang, Jiwu Lu, and Di Wu
论文创新点
- 构建了一个新的红外小目标数据集(InfraTiny):作者构建了一个包含3218张红外图像和总共20,893个边界框的新数据集,以促进红外小目标检测的研究。这个数据集中,有17,896个边界框小于32×32像素,占总数的约85.6%,为小目标检测提供了丰富的数据资源。
- 提出了多尺度注意力机制模块(MSAM):为了获得不同尺度的感知信息并有效缓解尺度变化问题,作者提出了MSAM。该模块通过获取不同感受野的特征信息,增强了网络对红外小目标的特征提取能力,并显著提高了模型的检测性能。
- 设计了特征融合增强金字塔模块(FFAFPM):FFAFPM旨在增强浅层和深层特征的融合,并丰富语义信息,优化了回归和分类任务的预测结果。这一模块通过高效融合不同卷积层的特征信息,提高了对红外小目标的检测精度。
摘要
尽管卷积神经网络在可见光目标检测方面取得了卓越成就,但在红外小目标检测方面仍存在许多挑战,原因包括低信噪比、不完整的目标结构和缺乏可靠的红外小目标数据集。为了解决红外小目标数据集的局限性,作者构建了一个新的数据集名为InfraTiny,并提出了一种多尺度注意力机制模块(MSAM)和特征融合增强金字塔模块(FFAFPM),并将其部署在嵌入式设备上。MSAM使网络能够通过获取不同的感受野来获得尺度感知信息,同时抑制背景噪声信息,增强特征提取能力。提出的FFAFPM能够丰富语义信息,并增强浅层特征与深层特征的融合,从而显著减少误报结果。通过将提出的方法集成到YOLO模型中,得到了名为Infra-YOLO的模型,提高了红外小目标检测性能。与yolov3相比,在InfraTiny数据集上mAP@0.5提高了2.7%;与yolov4相比提高了2.5%。作者还将提出的Infra-YOLO转移到无人机(UAV)上的嵌入式设备中进行实际应用场景测试,采用通道剪枝方法减少FLOPs,实现速度和准确性之间的权衡。即使Infra-YOLO的参数减少了88%,与yolov3相比,在mAP@0.5上仍然提高了0.7%,与yolov4相比提高了0.5%。实验结果表明,提出的MSAM和FFAFPM方法可以提高与以前基准方法相比的红外小目标检测性能。关键字
作者提出的方法
B. 网络架构
图3显示了我们的网络结构,称为InfraYOLO。Infra-YOLO基于yolov3构建,并根据红外小目标的应用场景进行自适应调整。Infra-YOLO属于单阶段检测器,其网络结构分为三部分:主干网络、颈部网络和头部网络。主干网络的功能是从图像中提取高级语义信息。attentionDarknet53用作主干网络。该结构基于Darknet53网络,由一系列ResUnit组成。attention-darknet53是通过在darknet53的ResUnit的快捷操作前添加注意力机制实现的。尽管注意力机制增加了主干网络参数和FLOPs,但它提高了网络对不同特征之间关系的建模能力。此外,MSAM的学习参数非常少,不会显著增加计算开销。颈部网络的功能是将具有丰富细节特征但缺乏高级语义信息的低级特征与具有高级语义信息但缺乏丰富位置信息的高级特征融合。在颈部阶段,使用FFAFPM增强特征融合能力,FFAFPM可以高效简单地从不同的卷积层融合特征信息,使网络更加关注红外小目标的丰富位置信息。头部网络用于分类和定位。yolo头部用作检测器头部。Infra-YOLO有三个预测分支,每个分支用于预测不同大小的物体。C. 多尺度注意力机制
由于红外图像的信噪比(SNR)低,目标信息模糊和轮廓不完整,会增加误报结果。因此,关键是增强目标的特征信息并抑制背景信息,以提高检测性能。目前,有很多工作使用注意力机制来解决这个问题,使网络能够专注于输入图像的关键特征信息并忽略噪声信息。然而,这些方法大多存在两个缺陷:计算开销高;缺乏获取多尺度关键特征的能力。为了提高红外小目标特征信息提取效率,设计了一个即插即用的多尺度注意力机制结构,称为MSAM,如图4所示。MSAM由两部分组成:通道注意力机制和空间注意力机制。通道注意力机制的主要功能是模拟不同输入特征之间的关系,而空间注意力机制的主要功能是使网络在训练期间关注输入特征图的丰富和有效特征信息。因此,为了使网络忽略背景噪声信息,空间注意力机制模块的设计是MSAM的关键部分。在空间注意力机制中(图4的上半部分),首先通过1×1的卷积操作降低特征图的维度以减少后续的计算开销,然后将特征图等量分成两个分支。每个分支执行两次扩张卷积。扩张卷积的主要功能是在不损失分辨率的情况下扩展接受域,并由于不同的扩张率而从不同的接受域获得多尺度信息。n×n的卷积与扩张率d具有相同的接受域,并且卷积具有核大小n + (n - 1)×(d - 1)。换句话说,扩张卷积在不增加参数和计算的情况下扩展了核大小。为了使注意力机制获得多尺度特征信息,空间注意力的两个分支的扩张率分别设置为1和4。通过连接两个分支完成特征融合操作,最后通过1×1的卷积层将连接后的特征图的通道数压缩为一个。MSAM的通道注意力机制部分(图4的下半部分)包括一维卷积和自适应平均池化。一维卷积可以在计算成本低于全连接层的情况下实现不同通道之间的信息交互,降低了通道注意力模块的复杂性。最后,将通道注意力模块和空间注意力模块的结果相乘,使用sigmoid函数将乘积结果压缩在0和1之间。通过这种方式,获得了最终的注意力机制信息。算法1显示了MSAM的伪代码。在MSAM的空间注意力机制部分,输入特征图的维度首先降低了16倍,然后特征图被等量分割。因此,输入特征图的通道数应该大于32。D. 特征融合增强特征金字塔模块
网络越深,越能拟合复杂的特征输入,但空间信息越丰富,损失也越严重。由于红外小目标所占像素较少,深层卷积网络可能会阻碍小目标检测的改进。特征融合增强特征金字塔模块(FFAFPM)旨在提高小目标的位置精度。FFAFPM增强了浅层和深层特征的融合,丰富了深层卷积中红外小目标的空间信息,生成了既具有高级语义信息又具有丰富空间信息的高级特征,并进一步拟合了红外小目标的特征。如图6所示,FFA使用三个不同扩张率的扩张卷积来获得不同接受域的语义信息,扩张率分别设置为1、2和3,然后使用1×1的卷积进行融合。FFA旨在丰富后续网络的语义信息。FFAFPM包括自底向上和自顶向下的特征融合路径。在自底向上的路径中,为了补偿由于网络深度导致的特征损失,FFAFPM从主干网络到输出添加了一个跨尺度连接。在整个颈部阶段,只有一个输入节点被切断以减少FLOPs。如图7所示,yolov3只包含自顶向下的特征融合路径。浅层的输出(i)是通过连接深层(i+1)和浅层(i)的特征图来获得的,计算如下:可以看出,yolo3的结构明显受到单向信息流的限制。随着网络的加深,特征信息的损失越来越严重。Infra-YOLO的浅层输出计算如下:其结构克服了单向信息流的限制,并强调了浅层特征的重要性。E. 通道剪枝
现代CNNs从深度和宽度上扩展网络。模型越深越宽,其表征能力越强,但计算负荷越重,这限制了模型在嵌入式设备上的部署。从深度的角度来看,已经有许多精心设计的轻量级网络来解决网络的高计算负荷问题。然而,为这些特定的“嵌入式任务”设计一个全新的轻量级网络
需要很长时间,并且新网络的泛化能力不足。从网络宽度的角度来看,许多结构化剪枝方法已经被提出来剪枝掉贡献率低的冗余结构,这加速了网络的推理。剪枝过程大致可以分为四个部分(图8)。首先是正常训练模型,其次是稀疏训练,通过诱导和更新权重使权重更稀疏。稀疏训练是根据剪枝原则进行的。第三是剪枝掉低于设定阈值的权重以压缩模型。最后是微调,即通过使用剪枝后的权重初始化剪枝后的模型,可以使剪枝后的模型进一步训练到最优状态。在这些四个步骤中,最后三个步骤是一个闭环过程,这个稀疏过程可以评估每个模型组件的重要性。本工作中采用的通道剪枝方法利用了批量归一化(Batch Normalize, BN)层,这是卷积网络的一个基本单元。BN将输入的分布转换为正态分布,加速了训练的收敛过程,并避免了梯度消失问题。BN的计算公式如下,其中公式(3)中的尺度因子γ是这个方法的核心。一些通道的尺度因子在经过一些周期的稀疏训练后趋于零,也就是说,它们对网络特征表达的贡献较小。算法2显示了Infra-YOLO的通道剪枝方法的伪代码。确定剪枝方案需要对Infra-YOLO的网络结构进行广泛的分析。由于MSAM的空间注意力机制部分的第一步是降低输入特征图的通道维度,如果MSAM之前的卷积层在通道级别被剪枝,MSAM的输出将从根本上改变。其次,如果Infra-YOLO的ResUnit的第二卷积层在通道级别被剪枝,同一级别的其他ResUnits也需要相应地改变以保持网络结构的完整性。设计了两种剪枝方案来分别解决上述两个问题,这两种剪枝方案的伪代码显示在算法3中。第一种方案表明所有卷积层都参与通道剪枝,除了FFA模块和一个MSAM之前的层。而第二种方案是在所有卷积层进行通道剪枝,除了FFA模块之前的层。每个ResUnit的第二卷积层剪枝的通道数由主干网络同一级别的全局阈值决定,因此最终剪枝的通道数由这些卷积层的并集决定。在第一种方案中,剪枝后的模型可以在微调过程中通过保持网络结构的完整性来继承原始模型的权重,而第二种方案则不能因为MSAM的输入变化导致内部卷积参数的变化而继承原始权重。剪枝后的模型可能会丢失重要的结构,一些模型权重可能在微调过程中被调整。为了使剪枝后的模型尽可能接近原始模型,它必须经历知识蒸馏。我们可以将教师网络(原始模型)蒸馏到学生网络(剪枝模型),从而提高剪枝模型的性能。知识蒸馏损失函数定义如下:其中( L_{cls} )是分类损失,( L_{box} )是回归损失,γ和β是超参数,用于平衡两个损失函数。其中M代表批次大小,( P_s, P_t )分别代表教师和学生的预测结果,p代表真实值。KLDiLoss用于分类损失,教师有界回归损失用于回归损失。实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~