【论文荐读】基于CNN和Transformer的无人机实时目标检测网络

文摘   科技   2024-04-18 20:43   江苏  


标题:Real-Time Object Detection Network in UAV-Vision Based on CNN and Transformer

来源:IEEE Transactions on Instrumentation and Measurement. 72 (2023): 2505713
作者:Tao Ye, Wenyang Qin, Zongyang Zhao, Xiaozhi Gao, Xiangpeng Deng, Yu Ouyang
单位:School of Mechanical Electronic and Information Engineering, China;  University of Mining and Technology, Beijing, China

1、研究背景:

无人机在大多数地形上具有灵活飞行的能力,能在高空或者人类难以到达的地方完成各种特种作战任务。目前,无人机已经广泛应用物流运输、农业植物保护和风景摄影等领域中。而将来在智慧城市中,无人机的介入将会为每个人的日常生活带来巨大的帮助。

现阶段大多数目标检测方法都是针对自然场景下设计的,而无人机的图像检测还存在以下难题:

1)无人机在巡逻过程中离地面较远,视野内物体体积小,视觉特征稀缺,并且在深度神经网络中,下采样操作可能会导致特征消失。

2)无人机在执行巡逻任务时,地面的被检测目标通常会被树木或其他物体遮挡,从而导致视觉特征不连续,检测网络无法正确识别被遮挡物体的类别。

3)无人机飞行速度较快,视野内的物体变化很快,部署在嵌入式设备上的检测网络难以实时准确地检测到物体

2、论文创新点:

1、设计了基于轻量级特征提取模块(LEM)和高效卷积Transformer模块(ECTB)的轻量级骨干网络。

2、基于多尺度特征融合思想,设计了特征融合网络(FFM)模块,提高了小目标特征表达能力,从而提高无人机对小目标的检测精度。

3、针对无人机场景设计了实时目标检测网络(RTD-NET),此网络继承了CNN和Transformer的优点,实现对被遮挡物和小物体的高精度检测,并能在嵌入式设备上实现实时监测

3、研究方法:

本文设计了一种轻型目标检测网络RTD-Net,其由LEM、ECTB、FFM和APH四个模块组成,总体网络结构如图1所示。
1  RTD-Net的总体架构

图像以640x640的分辨率输入进入网络,采用两个卷积对图像进行四倍下采样,以减少网络的参数和计算量;接下来使用LEM模块和卷积层组成轻量级CNN进行特征提取和图像下采样;ECTB模块对卷积捕获的特征信息进行处理和聚合,以获取图像的全局信息;SPPF模块通过多分支池化层构建不同尺度的特征图并进行融合,增强特征的表现力;利用FFM模块对骨干网络中不同层次的特征进行融合;最后的APHs模块则可以帮助网络从不同分辨率的特征图中检测不同比例的目标。

由于无人机只能携带内存和计算资源有限的嵌入式设备作为处理器,所以论文作者设计了LEM来提取特征信息,通过同构的多分支结构提取不同通道尺寸的特征信息,其结构如图2所示

图2 LEM

先使用1× 1的卷积核对输入特征的通道信息进行积分,将输入特征映射到以通道数为输入特征的低维特征,再采用多分支3 ×3卷积核对这些低维特征图进行特征提取。相比于YOLOv5中的C3模块,LEM模块的参数量和计算量减少了52%

标准的Transformer块主要由MHSA层和线性层组成,如图3(a)所示,其难以提取详细的信息且计算负担和内存很大。改进后的BotNet将MHSA引入ResNet,从而能提取详细的特征信息,但依旧有计算量大的问题,不适合无人机场景使用,如图3(b)所示。在论文提出的ECTB模块中,针对MHSA模块计算量大的问题,进行了优化,从而减少了计算量且保持了提取特征信息的能力,其结构如图3(c)所示

3 不同的Transformer结构a)标准的Transformer模块(bBotNet模块(cECTB模块

在优化后的CMHSA模块中,采用卷积投影替换了原MHSA模块中的位置线性投影,与线性投影相比,优化后的模块所需要的参数大大减少,从而解决了计算量大的问题,其结构如图4所示

图4  CMHSA

无人机在高空作业过程中,检测的对象尺寸都很小,这就需要网络拥有很好的小目标检测能力。本文基于双向特征金字塔网络(BiFPN)的思想,设计了一个融合特征模块(FFM),其结构如图5所示,通过融合不同层次的特征,提高模型识别多尺度(尤其是小尺度)目标的能力
图5  FFM模块(a)PANet结构图 (b)BiFPN结构图
相较于YOLOv5使用的PANet生成特征金字塔模块,BiFPN模块简化了网络结构,在同级输入和输出之间增加了跳跃连接,在不显著增加计算成本的情况下可以融合更多特征。并且根据不同分辨率输入的贡献不同,本文提出了一个加权融合模块,给每个输入一个额外的权重来匹配不同分辨率的特征,其结构如图6所示

图6 加权融合模块

为了提高检测模型抵抗混淆信息的能力,本文采用了基于归一化注意模块(NAM)的注意机制,在检测头之前形成APHs模块。该模块首先在通道和空间两个维度上来推理输入图像的注意力图,然后用注意力图乘上输入的特征图,自适应地获取图像的注意区域,其结构如图7所示

图7 APHs模块
本文的实验部分主要验证了所提出的网络在嵌入式设备上能够准确实时地进行目标检测任务。实验在嵌入式设备上进行,数据集采用自己制作的无人机图像数据集以及MS COCO2017数据集进行,主要检测类别为:轿车、人、汽车、自行车、卡车、公共汽车和三轮车,表1列出了数据集的标签类别,并根据平均面积比(AAR)分为大、中、小三类。AAR小于0.2%的为小型物体,大于1%的为大型物体,其余为中型物体,图8展示了无人机数据集中不同物体大小的分布。使用平均精度(mAP)、模型大小和每秒帧数(FPS)来评估模型性能。

表1 无人机图像数据集中每个类的数目

图8 无人机图像数据集中物体尺寸的分布

论文作者将所提出的算法与一些较先进的算法行了比较。在检测精度方面,RTD-Net的平均精度最高,为86.4%mAP,高出排名第二的网络2%。在推理速度方面,RTD-Net的速度达到312帧/s,只慢于最快的Yolov5,但检测精度高。且RTD-Net的模型是最小的,更适合部署于无人机等设备,对比结果如表2所示。

表2 在无人机图像数据集上与较先进的方法进行比较

从以上实验数据比较可以得出,一些网络模型较复杂,且帧率较低,难以满足无人机对地面检测的速度要求,所以本文选择了复杂度和检测速度相似的几个模型进行检测效果的比较,从图9中可以看出,Yolov3-tiny和Yolov4-tiny错过了大部分小物体。Yolov5s的检测效果相对较好,但仍存在漏检和误检现象。相反,RTD-Net几乎正确地检测到了所有不同尺度的物体。

图9 不同方法的视觉检测结果(a)操场上的实验结果(b)交叉路口的实验结果(c)郊区道路的实验结果(d)城市道路的试验结果

无人机的工作场景极其复杂,对检测模型的鲁棒性有着很高的要求。本文对RTD-Net在不同环境下的鲁棒性进行了测试。从图10(a)和(b)中可以看出,该方法可以在光照条件不足的环境下进行精确的检测。从图10(c)和(d)可以看出在雾霭天气下,RTD-Net有着较高的检测精度。从10(e)和(f)可以看出,在被遮挡时,本文方法也能很好地检测被遮挡物体。

图10 鲁棒性测试结果 (a)和(b)夜间实验结果(c)和(d)雾霾天气下的实验结果(e)和(f)被遮挡物体的实验结果

接着从模型大小、mAP和FPS三个方面测试本文网络在嵌入式设备上的性能,从表3可以看出,在不使用TensorRT的情况下,RTD-Net的检测速度比Yolov5s慢,模型大小相当,但检测精度更高。在使用TensorRT时,检测速度虽然慢但也满足了实时性要求,且检测精度更高。

表3 嵌入式平台测试结果

论文在无人机数据集上进行消融实验,以Yolov5为基准,增加设计的模块以检验模型性能。从表4的实验结果可以看出,在结合了LEM、ECTB和FFM后,虽然Yolov5s的检测速度降低了,但检测精度提高了,计算量减少了。而RTD-Net的网络性能依旧优于集成了所有模块的Yolov5s,并且在嵌入式设备上取得了好的实时性能。

表4 消融实验结果

最后,本文在公共数据集MS COCO2017上对网络性能进行了测试,以评估其泛化能力。从表5的实验结果可以看出,论文方法仅比Yolov4效果稍差,但论文方法在无人机采集数据集上效果更好,更适合在无人机场景下的小目标检测。

表5 COCO2017数据集上的比较结果

4、结论:

论文提出了一种适用于无人机自动巡逻的轻型目标检测模型RTD-Net,针对无人机图像目标检测过程中存在的难以检测到小目标、遮挡严重以及检测速度要求高等难题,设计了FFMECTBLEM模块,提高了目标检测模型的小目标检测能力、抗遮挡能力和检测速度。

并通过实际场景中采集的无人机图像数据集实验证明,论文所提出的算法能够在检测任务中取得满意的结果,并且也能在低计算力的设备上实现高精度实时监测,可以满足无人机巡逻巡检中对对面物体的检测要求



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章