标题:Real-Time Object Detection Network in UAV-Vision Based on CNN and Transformer
1、研究背景:
现阶段大多数目标检测方法都是针对自然场景下设计的,而无人机的图像检测还存在以下难题:
1)无人机在巡逻过程中离地面较远,视野内物体体积小,视觉特征稀缺,并且在深度神经网络中,下采样操作可能会导致特征消失。
2)无人机在执行巡逻任务时,地面的被检测目标通常会被树木或其他物体遮挡,从而导致视觉特征不连续,检测网络无法正确识别被遮挡物体的类别。
3)无人机飞行速度较快,视野内的物体变化很快,部署在嵌入式设备上的检测网络难以实时准确地检测到物体。
1、设计了基于轻量级特征提取模块(LEM)和高效卷积Transformer模块(ECTB)的轻量级骨干网络。
2、基于多尺度特征融合思想,设计了特征融合网络(FFM)模块,提高了小目标特征表达能力,从而提高无人机对小目标的检测精度。
3、针对无人机场景设计了实时目标检测网络(RTD-NET),此网络继承了CNN和Transformer的优点,实现对被遮挡物和小物体的高精度检测,并能在嵌入式设备上实现实时监测。
3、研究方法:
图像以640x640的分辨率输入进入网络,采用两个卷积对图像进行四倍下采样,以减少网络的参数和计算量;接下来使用LEM模块和卷积层组成轻量级CNN进行特征提取和图像下采样;ECTB模块对卷积捕获的特征信息进行处理和聚合,以获取图像的全局信息;SPPF模块通过多分支池化层构建不同尺度的特征图并进行融合,增强特征的表现力;利用FFM模块对骨干网络中不同层次的特征进行融合;最后的APHs模块则可以帮助网络从不同分辨率的特征图中检测不同比例的目标。
由于无人机只能携带内存和计算资源有限的嵌入式设备作为处理器,所以论文作者设计了LEM来提取特征信息,通过同构的多分支结构提取不同通道尺寸的特征信息,其结构如图2所示。
图2 LEM
先使用1× 1的卷积核对输入特征的通道信息进行积分,将输入特征映射到以通道数为输入特征的低维特征,再采用多分支3 ×3卷积核对这些低维特征图进行特征提取。相比于YOLOv5中的C3模块,LEM模块的参数量和计算量减少了52%。
标准的Transformer块主要由MHSA层和线性层组成,如图3(a)所示,其难以提取详细的信息且计算负担和内存很大。改进后的BotNet将MHSA引入ResNet,从而能提取详细的特征信息,但依旧有计算量大的问题,不适合无人机场景使用,如图3(b)所示。在论文提出的ECTB模块中,针对MHSA模块计算量大的问题,进行了优化,从而减少了计算量且保持了提取特征信息的能力,其结构如图3(c)所示。
图3 不同的Transformer结构(a)标准的Transformer模块(b)BotNet模块(c)ECTB模块
图4 CMHSA
图6 加权融合模块
为了提高检测模型抵抗混淆信息的能力,本文采用了基于归一化注意模块(NAM)的注意机制,在检测头之前形成APHs模块。该模块首先在通道和空间两个维度上来推理输入图像的注意力图,然后用注意力图乘上输入的特征图,自适应地获取图像的注意区域,其结构如图7所示。
表1 无人机图像数据集中每个类的数目
论文作者将所提出的算法与一些较先进的算法行了比较。在检测精度方面,RTD-Net的平均精度最高,为86.4%mAP,高出排名第二的网络2%。在推理速度方面,RTD-Net的速度达到312帧/s,只慢于最快的Yolov5,但检测精度高。且RTD-Net的模型是最小的,更适合部署于无人机等设备,对比结果如表2所示。
从以上实验数据比较可以得出,一些网络模型较复杂,且帧率较低,难以满足无人机对地面检测的速度要求,所以本文选择了复杂度和检测速度相似的几个模型进行检测效果的比较,从图9中可以看出,Yolov3-tiny和Yolov4-tiny错过了大部分小物体。Yolov5s的检测效果相对较好,但仍存在漏检和误检现象。相反,RTD-Net几乎正确地检测到了所有不同尺度的物体。
图9 不同方法的视觉检测结果(a)操场上的实验结果(b)交叉路口的实验结果(c)郊区道路的实验结果(d)城市道路的试验结果
接着从模型大小、mAP和FPS三个方面测试本文网络在嵌入式设备上的性能,从表3可以看出,在不使用TensorRT的情况下,RTD-Net的检测速度比Yolov5s慢,模型大小相当,但检测精度更高。在使用TensorRT时,检测速度虽然慢但也满足了实时性要求,且检测精度更高。
表3 嵌入式平台测试结果
表4 消融实验结果
最后,本文在公共数据集MS COCO2017上对网络性能进行了测试,以评估其泛化能力。从表5的实验结果可以看出,论文方法仅比Yolov4效果稍差,但论文方法在无人机采集数据集上效果更好,更适合在无人机场景下的小目标检测。
4、结论:
论文提出了一种适用于无人机自动巡逻的轻型目标检测模型RTD-Net,针对无人机图像目标检测过程中存在的难以检测到小目标、遮挡严重以及检测速度要求高等难题,设计了FFM、ECTB和LEM模块,提高了目标检测模型的小目标检测能力、抗遮挡能力和检测速度。
并通过实际场景中采集的无人机图像数据集实验证明,论文所提出的算法能够在检测任务中取得满意的结果,并且也能在低计算力的设备上实现高精度实时监测,可以满足无人机巡逻巡检中对对面物体的检测要求。