【速览】TNNLS 2024 | 基于轻量级注意力的实时双路径物体检测网络

学术 2024-11-02 17:40 北京

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于轻量级注意力的实时双路径物体检测网络

Quan Zhou

^1

，Huimin Shi

^{2}

,Weikang Xiang

^1

, Bin Kang

^1

, Longin Jan Latecki

^1

南京邮电大学，

^2

无锡埃索恩科技有限公司，

^3

美国天普大学

TNNLS 2024

图像图形领域高质量科技期刊分级目录：T2

撰稿人：杨阿芳

通讯作者：周全

推荐理事：林宙辰

原文标题：DPNet: Dual-Path Network for Real-Time Object Detection With Lightweight Attention

原文链接：https://ieeexplore.ieee.org/document/10480917

代码链接：https://github.com/huiminshii/dpnet

欢迎投稿中国图象图形学学会《速览》栏目，借助学会平台扩大影响力！请将Word文档发送至邮箱：csig-mv@foxmail.com，文章须还没有在其他媒体发布过和同时向其他媒体投稿，谢谢！

引言

在计算机视觉领域中，物体检测是一项基本但又具有挑战性的任务。它的目的是识别输入图像中所包含的特定物体，并精确定位它们的边界框。近年来，基于卷积神经网络（CNN）的方法可大致分为两阶段检测器与单阶段检测器。两阶段检测器首先使用区域建议网络生成候选框，然后在下一阶段对其进行改进。由于其多阶段处理的特点，这类检测器的效率往往不高。相比之下，单阶段检测器直接在卷积特征图上预测物体类别并回归边界框，简化了整个检测流程，其推理速度往往快于两阶段检测器。尽管取得了显著进展，但绝大多数基于 CNN 的检测器都涉及数百甚至数千个卷积层和特征通道，这对于需要在线估计和实时预测的实际应用（如自动驾驶、机器人视觉和虚拟现实）来说，其模型大小和执行效率都是不可接受的。

为了适应现实世界的应用场景，大量用于实时物体检测的轻量级网络被提出。这些轻量级网络更倾向于直接继承单路径架构，在其骨干网中使用轻量级卷积。例如，MobileNet-SSD结合了MobileNet和SSD头。ThunerNet采用ShuffleNetV2作为骨干网，用5×5深度卷积取代了3×3深度卷积。Pelee采用了具有密集结构的轻量级骨干网，减少了SSD头的输出规模，从而节省了计算成本。Tiny-DSOD在骨干网和特征金字塔网络（FPN）中都引入了深度可分离卷积。Tiny-YOLO 系列则减少了卷积层的数量，或删除了颈部的多尺度输出。虽然这些先进高效的网络取得了令人印象深刻的检测结果，但它们存在以下局限性：

单路径架构采用持续的下采样策略（如池化和步长卷积），在实时物体检测的骨干网设计中占据主导地位。然而，这种网络架构会逐步舍弃物体细节信息，导致产生的高级特征不利于准确定位物体。虽然采用特征金字塔网络（FPN）融合不同尺度卷积特征可以缓解这一问题，但由浅到深地堆叠这些粗糙的卷积特征或者简单地对其求和，可能并不有利于物体检测。

由于网络容量有限，近期推出的轻量级检测器在视觉数据的表达能力方面偏弱。卷积核的高响应值有时会散布在杂乱的背景上（如树木和大海），而感兴趣物体的区域则较少地被激活。主要是由于轻量级卷机的感受野有限，在编码全局依赖性方面能力不足。有些网络倾向于使用大卷积核（如31×31）或自注意机制，但它们往往涉及巨大的计算成本和模型尺寸，不适合实时物体检测。因此，如何在较小的计算预算下提高轻量级物体检测的特征表达能力仍是一个亟待解决的问题。

针对这些不足，本文提出了一种双路径网络DPNet（Dual-Path Network），采用轻量级注意力方案进行实时物体检测。双路径架构能够并行提取高级语义特征和底层图像细节，从而提高检测的准确性和效率。

双路径网络（DPNet）

图 1 提出的DPNet的模型结构图

如图1所示，DPNet由三个部分组成：主干、颈部和检测头。与以往单路径结构的轻量级检测网络不同，DPNet采用并行路径结构，形成双分辨率主干网，以解决丢弃物体细节的问题。更具体地说，低分辨率路径（LRP）的分辨率会逐渐降低，其中的高级语义线索会被编码。相反，高分辨率路径（HRP）的分辨率保持不变，用于提取底层空间细节。这两种路径对于轻量级物体检测都很重要。考虑到两个子网络的互补性，本文构建了一个双向融合模块（Bi-FM），以加强两个路径之间的通信，促进不同分辨率特征之间的信息流动。虽然DPNet的骨干网结构看上去是对单路径结构的复制，但其计算复杂度和网络参数量并没有显著增加。

检测颈（也称为 FPN）是检测网络中用于聚合多尺度特征的基本组件。以往的方法采用简单的融合策略，忽略了不同分辨率特征之间的相互依赖关系。为了解决这一问题，本文在 DPNet 的颈部引入了轻量级交叉相关模块（LCCM），用于融合来自不同分辨率的卷积特征。LCCM 以双向方式工作：自上而下（LCCM-TD）和自下而上（LCCM-BU）。LCCM-TD 旨在提取高级语义特征以进行类别识别，而LCCM-BU则希望加强底层图像细节以进行物体定位。

检测头负责将特征映射到最终的预测结果。虽然一些检测网络采用轻量级骨干网，但采用的SSD检测头过于复杂，无法高效地进行预测。其它方法则设计了轻量级检测头，以减小模型大小。类似地，DPNet也采用了轻量级检测头以加快推理速度。DPNet没有使用3×3的深度可分离卷积，而采用了更大尺寸（如5×5）的卷积核。虽然这会略微增加模型的大小，但却有利于扩大感受野。

为了充分利用表达能力和计算效率，本文在ShuffleNetV2单元的基础上，引入一个轻量级自相关模块（LSCM）。该模块模仿自注意力机制，设计了一个基于注意力的通道重排计算单元（ASU）。为了更好地利用颈部不同分辨率的特征，LSCM进一步扩展为轻量级交叉相关模块（LCCM）。

轻量级自相关模块（LSCM）和轻量级交叉相关模块（LCCM）

全局上下文建模的任务是收集图像整体信息，一般通过全局池化来完成。尽管这类网络能生成代表整个图像的高层特征，但在元素交互的表达方面仍存在不足。另一种方法则致力于使用密集注意力图来捕捉全局上下文，其中每个元素的重要性由所有其他元素编码，但这又需要大量的计算资源。

作为ASU的核心单元，LSCM兼具计算效率和表达能力。LSCM的详细结构如图2（a）所示。它通过两种策略来节省计算成本：减少参与计算的元素数量和降低特征维度。LSCM被分解为两个步骤：注意力计算和特征再加权。第一步中，类似与自注意力机制，通过计算元素相似度生成注意力图。然而，LSCM更轻量且计算成本更低。在第二步中，LSCM 采用元素级加权机制进一步降低计算成本，让计算出的注意力图直接与扁平化特征相乘，避免了自注意力中广泛使用的复杂矩阵乘法。

为了充分利用颈部不同分辨率的特征，LSCM 进一步扩展为轻量级的交叉相关模块 (LCCM)，使用它来融合多尺度特征。LCCM-TD和LCCM-BU的结构分别如图2（b）和（c）所示。LCCM-TD与LSCM结构相似，只是两个输入具有不同的分辨率。LCCM-TD和LCCM-BU的工作方式相似，但有一个不同点：LCCM-BU在计算空间注意力时，必须对加权后的高分辨率卷积特征进行下采样，以实现特征再加权操作，同时便于残差连接的端到端训练。

图 2 LSCM和LCCM的详细结构

实验

为了评估所提出的DPNet，本文在三个具有挑战性的物体检测数据集（MS COCO、Pascal VOC 2007和ImageNet）上进行了详尽的实验，并综合比较了最近的实时检测网络。

表1展示了DPNet在MS COCO数据集上与选定的最先进实时检测器的定量比较结果，表明了DPNet在检测精度和执行效率方面达到最佳平衡。它在 MS COCO test-dev上实现了29.6%的AP，同时模型大小仅为2.5M，计算量1.04GFLOPs，帧率为164FPS。在检测AP、AP50和AP75方面，DPNet以较大优势超过了所有其它基线模型。同时，它的计算成本最低，需要的网络参数最少。为了进一步提高检测精度，DPNet还分别加载了ImageNet 1K和21K数据集上预训练的骨干网模型，AP分别提高了0.6%和1.7%。

表1还展示了与一些近似实时速度的高精度检测器的比较结果。虽然这些复杂的网络比DPNet具有更高的检测精度，但它们通常需要大量的GFLOPs和参数，因此不适合计算资源有限、存储记忆受限的实际应用。特别值得注意的是，DPNet甚至优于模型尺寸更大的YOLOV3[5]和TopFormer[59]。另一个同样采用双路径骨干网的探测器MobileFormer[31]在 AP 性能上比DPNet 高出2.9%，但其GFLOPs却比 DPNet 高出近 161 倍。

表 1 与高精度和实时物体检测器在检测精度和执行效率方面的比较

总结

本文介绍了一种用于实时物体检测的双路径轻量级网络DPNet。其双路径骨干网能够提取高级语义，同时保持了底层图像细节。此外，两条并行路径通过特征交换加强了信息沟通，而不是独立运行。为了提高 DPNet 的表达能力，本文在主干网中设计了一个轻量级注意力模块（LSCM），以较小的计算开销捕捉全局交互。在颈部部分，将 LSCM 扩展为轻量级交叉相关模块（LCCM），用于研究不同分辨率的相邻尺度特征之间的相关依赖性。本文在三个流行的物体检测数据集（MS COCO、Pascal VOC 2007 和 ImageNet）上进行了评估，实验结果表明DPNet 在检测精度和执行效率方面达到了最先进的水平。

参考文献

[1]N. Ma, X. Zhang, H.-T. Zheng, and J. Sun, “ShuffleNet V2: Practical guidelines for efficient CNN architecture design,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 116–131.

[2]R. J. Wang, X. Li, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” in Proc. Int. Conf. Neural Inf. Process. Syst., 2018, pp. 1967–1976.

[3]C.-Y. Wang, A. Bochkovskiy, and H. M. Liao, “Scaled-YOLOv4: Scaling cross stage partial network,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2021, pp. 13024–13033.

[4]S. Mehta and M. Rastegari, “MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer,” in Proc. ICLR, 2022, pp. 1–12.

[5]X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7794–7803.

[6]Y. Xiong et al., “MobileDets: Searching for object detection architectures for mobile accelerators,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2021, pp. 3825–3834.

[7]Y. Chen et al., “Mobile-Former: Bridging MobileNet and transformer,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2022, pp. 5260–5269.

[8]T. Y. Lin, P. Dollàr, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jul. 2017, pp. 2117–2125.

[9]W. Zhang et al., “TopFormer: Token pyramid transformer for mobile semantic segmentation,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2022, pp. 12083–12093.

[10]H. Zhang, W. Hu, and X. Wang, “ParC-Net: Position aware circular convolution with merits from ConvNets and transformer,” in Proc. Eur. Conf. Comput. Vis., 2022, pp. 613–630.

图像图形领域高质量科技期刊分级目录

中国图象图形学学会科普活动、素材征集通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果评价的通知

2024年CSIG图像图形中国行承办方征集中

http://mp.weixin.qq.com/s?__biz=MzUxMDE4MzAzOA==&mid=2247805655&idx=1&sn=e723abcacb59710c289e8066a67a1ef0

中国图象图形学学会CSIG

发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息，促进该学科技术的发展和在国民经济各个领域的推广应用。

最新文章

【ChinaVR 2024】第二十四届中国虚拟现实大会顺利举办

【动态】第五期中国图象图形学学会理事荟活动成功举办

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【动态】第32期CSIG企业行—走进北京航天晨信科技有限责任公司成功举办

【直播预告】CSIG图像图形技术国际在线研讨会第13期将于11月22日举办

【CSIG青年科学家会议2024】大会论坛总览

【速览】NeurIPS 2024 | 长尾目标检测预训练：具有对偶重构的动态重平衡对比学习

【预告】可信联邦学习冬令营·武汉站将于11月18-19日举办

【Visual Intelligence】四川大学、南开大学、阿联酋MBZUAI等6所大学团队最新成果：视觉语言大模型性能评估

【动态】CSIG图像图形学科前沿讲习班--“AIGC+具身智能前沿技术及创新应用”成功举办

【预告】第二届CSIG情感智能大会将于12月6-8日举办

【学习时间】构建与新质生产力相适应的新型生产关系

【动态】通用人工智能青年科学家沙龙在京举办

【Visual Intelligence】南洋理工大学和复旦大学团队：PrimitiveNet模型：在引用分割任务中拆解全局约束

【科普动态】“CSIG科普大讲堂--11.9全国消防日：智慧消防科普活动”成功举办

【动态】CSIG成像探测与感知专委会举办二十五期“AI新青年讲坛”学术活动

【动态】CSIG成像探测与感知专委会举办二十六期“AI新青年讲坛”学术活动

【委员纳新】2024年CSIG情感计算与理解专委会委员纳新！

【直播预告】第五期CSIG理事荟活动将于11月14日晚8点开始

【动态】中国图象图形学学会走进启元实验室调研交流

【竞赛】“天翼云息壤杯”高校AI大赛，百万奖金等你来！

【科普动态】CSIG数字媒体取证与安全专委会走进合肥市中国科技大学附属中学

【动态】第三十期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

【通知】关于召开第五届CSIG图像图形高峰论坛暨CSIG遥感图像专委会工作会议的通知

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【直播预告】CSIG云讲堂：11月12日19点，佃仁伟主讲：高光谱融合成像

【党建】CSIG数字媒体取证与安全专委会党小组红色党建第二次活动成功举办

【动态】2024中国机器智能与生物医学交叉创新论坛圆满举行

【动态】第30期企业行——走进视比特机器人成功举办

【动态】第31期企业行——走进铁建重工成功举办

【活动预告】通用人工智能青年科学家沙龙将于11月9日在北京召开

【动态】Visual Intelligence 视觉智能前沿报告会在上海交通大学成功举办

【动态】中国图象图形学学会第八期优博论坛顺利召开

【动态】CSIG数字媒体取证与安全专委会召开2024年度常务委员会会议

【学习时间】习近平对社会工作作出重要指示

【CCIG 2025】2025中国图象图形大会论坛征集正式开启

【动态】第四期中国图象图形学学会理事荟活动成功举办

【预告】“AIGC+具身智能前沿技术及创新应用”讲习班将于11月9日在杭州开班！

【动态】CSIG数字媒体取证与安全专委会召开2024年专委会换届暨纳新会议

【预告】CSIG11月活动速递第一弹，快来一睹为快~

【动态】人工智能与虚拟现实赋能文化遗产学术研讨会暨中国图象图形学学会数字文化遗产专委会走进泉州师范学院成功举办

【预告】复杂地下空间火灾风险评估和应急救援+消防科普活动将于11月9日举办

【预告】第32期CSIG企业行——走进航天晨信将于11月6日举办

【通知】2025图像图形领域系列榜单征集遴选活动正式启动！

【动态】2024第五届中国媒体取证与安全大会在济南成功举办

【CSIG月报】2024年10月热点回顾

【预告】首届“CSIG青少年智能技术与创新科普活动”邀您共参与

【速览】TNNLS 2024 | 基于轻量级注意力的实时双路径物体检测网络

【ChinaVR 2024】特邀嘉宾重磅预告

【动态】2024年中国科协海智专家服务团湖南行暨中国图象图形学学会智能制造新质生产力研讨会在长沙成功召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉