学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
基于轻量级注意力的实时双路径物体检测网络
欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!
在计算机视觉领域中,物体检测是一项基本但又具有挑战性的任务。它的目的是识别输入图像中所包含的特定物体,并精确定位它们的边界框。近年来,基于卷积神经网络(CNN)的方法可大致分为两阶段检测器与单阶段检测器。两阶段检测器首先使用区域建议网络生成候选框,然后在下一阶段对其进行改进。由于其多阶段处理的特点,这类检测器的效率往往不高。相比之下,单阶段检测器直接在卷积特征图上预测物体类别并回归边界框,简化了整个检测流程,其推理速度往往快于两阶段检测器。尽管取得了显著进展,但绝大多数基于 CNN 的检测器都涉及数百甚至数千个卷积层和特征通道,这对于需要在线估计和实时预测的实际应用(如自动驾驶、机器人视觉和虚拟现实)来说,其模型大小和执行效率都是不可接受的。
为了适应现实世界的应用场景,大量用于实时物体检测的轻量级网络被提出。这些轻量级网络更倾向于直接继承单路径架构,在其骨干网中使用轻量级卷积。例如,MobileNet-SSD结合了MobileNet和SSD头。ThunerNet采用ShuffleNetV2作为骨干网,用5×5深度卷积取代了3×3深度卷积。Pelee采用了具有密集结构的轻量级骨干网,减少了SSD头的输出规模,从而节省了计算成本。Tiny-DSOD在骨干网和特征金字塔网络(FPN)中都引入了深度可分离卷积。Tiny-YOLO 系列则减少了卷积层的数量,或删除了颈部的多尺度输出。虽然这些先进高效的网络取得了令人印象深刻的检测结果,但它们存在以下局限性:
单路径架构采用持续的下采样策略(如池化和步长卷积),在实时物体检测的骨干网设计中占据主导地位。然而,这种网络架构会逐步舍弃物体细节信息,导致产生的高级特征不利于准确定位物体。虽然采用特征金字塔网络(FPN)融合不同尺度卷积特征可以缓解这一问题,但由浅到深地堆叠这些粗糙的卷积特征或者简单地对其求和,可能并不有利于物体检测。
由于网络容量有限,近期推出的轻量级检测器在视觉数据的表达能力方面偏弱。卷积核的高响应值有时会散布在杂乱的背景上(如树木和大海),而感兴趣物体的区域则较少地被激活。主要是由于轻量级卷机的感受野有限,在编码全局依赖性方面能力不足。有些网络倾向于使用大卷积核(如31×31)或自注意机制,但它们往往涉及巨大的计算成本和模型尺寸,不适合实时物体检测。因此,如何在较小的计算预算下提高轻量级物体检测的特征表达能力仍是一个亟待解决的问题。
针对这些不足,本文提出了一种双路径网络DPNet(Dual-Path Network),采用轻量级注意力方案进行实时物体检测。双路径架构能够并行提取高级语义特征和底层图像细节,从而提高检测的准确性和效率。
图 1 提出的DPNet的模型结构图
如图1所示,DPNet由三个部分组成:主干、颈部和检测头。与以往单路径结构的轻量级检测网络不同,DPNet采用并行路径结构,形成双分辨率主干网,以解决丢弃物体细节的问题。更具体地说,低分辨率路径(LRP)的分辨率会逐渐降低,其中的高级语义线索会被编码。相反,高分辨率路径(HRP)的分辨率保持不变,用于提取底层空间细节。这两种路径对于轻量级物体检测都很重要。考虑到两个子网络的互补性,本文构建了一个双向融合模块(Bi-FM),以加强两个路径之间的通信,促进不同分辨率特征之间的信息流动。虽然DPNet的骨干网结构看上去是对单路径结构的复制,但其计算复杂度和网络参数量并没有显著增加。
检测颈(也称为 FPN)是检测网络中用于聚合多尺度特征的基本组件。以往的方法采用简单的融合策略,忽略了不同分辨率特征之间的相互依赖关系。为了解决这一问题,本文在 DPNet 的颈部引入了轻量级交叉相关模块(LCCM),用于融合来自不同分辨率的卷积特征。LCCM 以双向方式工作:自上而下(LCCM-TD)和自下而上(LCCM-BU)。LCCM-TD 旨在提取高级语义特征以进行类别识别,而LCCM-BU则希望加强底层图像细节以进行物体定位。
检测头负责将特征映射到最终的预测结果。虽然一些检测网络采用轻量级骨干网,但采用的SSD检测头过于复杂,无法高效地进行预测。其它方法则设计了轻量级检测头,以减小模型大小。类似地,DPNet也采用了轻量级检测头以加快推理速度。DPNet没有使用3×3的深度可分离卷积,而采用了更大尺寸(如5×5)的卷积核。虽然这会略微增加模型的大小,但却有利于扩大感受野。
为了充分利用表达能力和计算效率,本文在ShuffleNetV2单元的基础上,引入一个轻量级自相关模块(LSCM)。该模块模仿自注意力机制,设计了一个基于注意力的通道重排计算单元(ASU)。为了更好地利用颈部不同分辨率的特征,LSCM进一步扩展为轻量级交叉相关模块(LCCM)。
全局上下文建模的任务是收集图像整体信息,一般通过全局池化来完成。尽管这类网络能生成代表整个图像的高层特征,但在元素交互的表达方面仍存在不足。另一种方法则致力于使用密集注意力图来捕捉全局上下文,其中每个元素的重要性由所有其他元素编码,但这又需要大量的计算资源。
作为ASU的核心单元,LSCM兼具计算效率和表达能力。LSCM的详细结构如图2(a)所示。它通过两种策略来节省计算成本:减少参与计算的元素数量和降低特征维度。LSCM被分解为两个步骤:注意力计算和特征再加权。第一步中,类似与自注意力机制,通过计算元素相似度生成注意力图。然而,LSCM更轻量且计算成本更低。在第二步中,LSCM 采用元素级加权机制进一步降低计算成本,让计算出的注意力图直接与扁平化特征相乘,避免了自注意力中广泛使用的复杂矩阵乘法。
为了充分利用颈部不同分辨率的特征,LSCM 进一步扩展为轻量级的交叉相关模块 (LCCM),使用它来融合多尺度特征。LCCM-TD和LCCM-BU的结构分别如图2(b)和(c)所示。LCCM-TD与LSCM结构相似,只是两个输入具有不同的分辨率。LCCM-TD和LCCM-BU的工作方式相似,但有一个不同点:LCCM-BU在计算空间注意力时,必须对加权后的高分辨率卷积特征进行下采样,以实现特征再加权操作,同时便于残差连接的端到端训练。
图 2 LSCM和LCCM的详细结构
为了评估所提出的DPNet,本文在三个具有挑战性的物体检测数据集(MS COCO、Pascal VOC 2007和ImageNet)上进行了详尽的实验,并综合比较了最近的实时检测网络。
表1展示了DPNet在MS COCO数据集上与选定的最先进实时检测器的定量比较结果,表明了DPNet在检测精度和执行效率方面达到最佳平衡。它在 MS COCO test-dev上实现了29.6%的AP,同时模型大小仅为2.5M,计算量1.04GFLOPs,帧率为164FPS。在检测AP、AP50和AP75方面,DPNet以较大优势超过了所有其它基线模型。同时,它的计算成本最低,需要的网络参数最少。为了进一步提高检测精度,DPNet还分别加载了ImageNet 1K和21K数据集上预训练的骨干网模型,AP分别提高了0.6%和1.7%。
表1还展示了与一些近似实时速度的高精度检测器的比较结果。虽然这些复杂的网络比DPNet具有更高的检测精度,但它们通常需要大量的GFLOPs和参数,因此不适合计算资源有限、存储记忆受限的实际应用。特别值得注意的是,DPNet甚至优于模型尺寸更大的YOLOV3[5]和TopFormer[59]。另一个同样采用双路径骨干网的探测器MobileFormer[31]在 AP 性能上比DPNet 高出2.9%,但其GFLOPs却比 DPNet 高出近 161 倍。
表 1 与高精度和实时物体检测器在检测精度和执行效率方面的比较
本文介绍了一种用于实时物体检测的双路径轻量级网络DPNet。其双路径骨干网能够提取高级语义,同时保持了底层图像细节。此外,两条并行路径通过特征交换加强了信息沟通,而不是独立运行。为了提高 DPNet 的表达能力,本文在主干网中设计了一个轻量级注意力模块(LSCM),以较小的计算开销捕捉全局交互。在颈部部分,将 LSCM 扩展为轻量级交叉相关模块(LCCM),用于研究不同分辨率的相邻尺度特征之间的相关依赖性。本文在三个流行的物体检测数据集(MS COCO、Pascal VOC 2007 和 ImageNet)上进行了评估,实验结果表明DPNet 在检测精度和执行效率方面达到了最先进的水平。
[1]N. Ma, X. Zhang, H.-T. Zheng, and J. Sun, “ShuffleNet V2: Practical guidelines for efficient CNN architecture design,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 116–131.
[2]R. J. Wang, X. Li, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” in Proc. Int. Conf. Neural Inf. Process. Syst., 2018, pp. 1967–1976.
[3]C.-Y. Wang, A. Bochkovskiy, and H. M. Liao, “Scaled-YOLOv4: Scaling cross stage partial network,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2021, pp. 13024–13033.
[4]S. Mehta and M. Rastegari, “MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer,” in Proc. ICLR, 2022, pp. 1–12.
[5]X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7794–7803.
[6]Y. Xiong et al., “MobileDets: Searching for object detection architectures for mobile accelerators,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2021, pp. 3825–3834.
[7]Y. Chen et al., “Mobile-Former: Bridging MobileNet and transformer,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2022, pp. 5260–5269.
[8]T. Y. Lin, P. Dollàr, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jul. 2017, pp. 2117–2125.
[9]W. Zhang et al., “TopFormer: Token pyramid transformer for mobile semantic segmentation,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2022, pp. 12083–12093.
[10]H. Zhang, W. Hu, and X. Wang, “ParC-Net: Position aware circular convolution with merits from ConvNets and transformer,” in Proc. Eur. Conf. Comput. Vis., 2022, pp. 613–630.