基于无人机影像的目标检测与尺寸测量

科技   2025-01-13 20:56   河南  

[摘 要] 本文针对道路建设迅速推进,道路场景地物目标检测效率低、精度低等问题,提出一种基于改进YOLOv5模型的道路场景地物目标检测和尺寸测量方法。针对检测效率低问题,本文利用无人机采集道路场景地物数据;针对目标检测精度低问题,通过在Backbone 主干网络中C3 模块中增加卷积块注意力模块(CBAM)注意力机制、增加P2 小目标检测头和改进损失函数SIoU 来改进YOLOv5 模型,提高精度。最后,利用数字正射影像图(DOM)和数字表面模型(DSM)进行道路场景地物尺寸测量。实验结果表明:利用改进YOLOv5 模型对道路地物进行检测,Precision、Recall、mAP@0.5 和mAP@0.5:0.95 分别比YOLOv5 模型算法提高了1.7%、7.5%、6.5%和4.2%,分别达到了85.9%、90.0%、90.3%和52.1%,有效提高了地物目标检测精度;利用DSM进行道路场景地物尺寸测量也达到很好效果。

[关键词] 无人机影像;数字正射影像图(DOM);数字表面模型(DSM);YOLOv5模型;目标检测

引言

道路场景地物目标检测利用计算机视觉和图像处理技术,旨在自动识别和分类道路周围的地物。这一领域的研究对于交通管理[1]、城市规划、自动驾驶[2]等方面具有重要意义。

人工测绘对道路地物进行检测效率低、成本高、风险大,不易测量地物三维大小[3];车载设备识别道路地物覆盖范围小、信息质量低。由于车辆受到道路条件和交通规则的限制,不能对所有区域进行有效覆盖。同时,车载设备采集到的信息只能反映部分角度和维度,并不能全面准确地反映实际情况[4]。无人机可以从空中对道路进行全方位、高精度、实时的分析,为道路地物检测提供新的视角和数据源。

目标检测是计算机视觉领域的一个重要任务,它主要关注在二维图像中检测和定位目标。近年来,基于图像的检测技术取得了显著的进展。经典的快速区域卷积神经网络(faster region with convolutional neural network,Faster-RCNN)系列[5]、YOLO 系列[6]和单次检测算法(single shot multibox detector,SSD)系列等[7]在图像检测领域取得了令人瞩目的成果。现阶段的目标检测方法对特征明显的大目标检测效果较好。无人机监测由于飞行高度原因,地物在影像上占比较小,检测效果不佳。

因此,通过改进目标检测模型提升检测精度,成为一项重要任务。以Fast-RCNN 为例子,邓姗姗等[8]提出了将Fast-RCNN 算法中的特征提取网络更换为深度残差网络并提出特征融合策略提高了算法精度。陆峰等[9]将激光雷达三维数据利用俯视图转换为二维图像,再使用Fast-RCNN网络进行目标检测。再以YOLO 为例,绳鹏飞等[10]以YOLOv5(You Only Look Once version 5)模型为基础,用轻量化主干网络LBN(lightweight backbone network)替换原主干网络并且添加空洞卷积模块去解决感受野不足的问题。陈优良等[11]利用YOLOv4模型,通过改进网络和损失函数,多尺度融合提高了脐橙树株数识别精度。刘继等[12]基于YOLOv4 添加密集连接网络模块,能够对无人机影像实现高精度识别。

本文提出一种基于改进YOLOv5的道路上地物目标检测和尺寸测量方法。通过在Backbone主干网络中C3 模块中增加卷积块注意力模块(convolutional block attention module,CBAM)注意力机制、增加P2 检测头和改进损失函数SIoU,提高目标检测模型性能。最后利用无人机遥感技术生成的数字正射影像图(digital orthophoto map,DOM)和数字表面模型(digital surface model,DSM)进行道路场景地物尺寸测量。

1 研究方法

本研究首先从添加注意力机制、添加小目标检测头和更改损失函数改进YOLOv5 模型,然后使用改进的YOLOv5模型在无人机影像上进行了对地物的目标检测,最后对二维检测框进行坐标转换,提取检测框内DSM 包含的高程信息,最后得到道路上地物的尺寸大小。

本文的技术路线如图1所示。

图1 技术路线

1.1 YOLOv5目标检测模型概述

YOLOv5 是一种高效的实时目标检测算法,它采用了一种基于卷积神经网络(convolutional neural networks,CNN)的单阶段目标检测方法。其网络结构如图2所示。

图2 YOLOv5网络结构

它的网络架构包括:① 输入端(Input)是网络的输入部分,对输入的数据采取Mosaic 数据增强、自适应锚框计算和自适应图片缩放等处理。② 主干网络(Backbone)主要作用是进行特征提取,包括焦距模块(Focus)进行切片操作、卷积块(conv+batchnorm+lenby relu,CBL)进行提取特征、跨阶段局部网络(cross stage partial network,CSP)提高信息流动性和空间金字塔池化(spatial pyramid pooling,SPP)实现一个自适应尺寸输出。③ 颈部(Neck)主要作用是加强特征提取融合。它采取特征金字塔网络(feature pyramid net works,FPN)[13]+金字塔注意力网络结构[14](pyramid attention network,PAN)。其中concat 操作将不同尺度特征图在通道维度上进行拼接和采用上采样(Upsample)方法提升特征图分辨率。④ Head 检测头部负责预测目标的位置(边界框的坐标)和类别概率。YOLOv5 采用了CIOU(complete intersection over union)损失函数[15]来提高边界框的精度,并使用了非极大值抑制(non maximum suppression,NMS)。

1.2 改进YOLOv5模型

本实验改进YOLOv5模型主要是从添加注意力机制、添加小目标检测头和更改损失函数方面入手。

1.2.1 基于注意力机制的改进

因为无人机视角下的道路地物会呈现目标尺度小、有噪声等现象,加入注意力机制能够关注更重要的信息,抑制其他无关信息的干扰,提取更多特征,使得模型能关注到无人机视角下的目标,提高检测精度。

CBAM[16]是一种用于CNN 的注意力机制,旨在提高模型对图像特征的学习能力。CBAM 结合了通道注意力(channel attention)和空间注意力(spatial attention)[17],从而使模型可以同时关注特征图的通道和空间维度。这有助于改进模型对不同特征的重要性的感知,提高了CNN 在计算机视觉任务中的性能。其网络结构如图3所示。

图3 CBAM网络结构

1.2.2 基于增加小目标检测头的改进

对于YOLO 而言,其原始结构为三个检测头(P3、P4、P5),从上到下代表着检测头对小尺度、中尺度、大尺度的检测能力。然而,对于小目标对象而言,存在特征少、语义特征不明显、容易随着不断的卷积导致特征被淹没的问题。COCO(common objects in context)数据集给出了小目标的定义:[32,32]尺寸的目标即为小目标。对于P3检测头而言,特征层的大小为[80,80],相比原有的输入特征图尺寸,下采样了8倍。对于小目标而言,P3处的特征就下采样为小于[4,4]大小的特征图,存在特征少的问题,进而导致P3 检测头对小目标对象检测能力不佳。因此,可以考虑在P2层增加一个检测头,以提高对小目标的检测能力[18]

1.2.3 损失函数的改进

损失函数(loss function)是在机器学习和深度学习中用于衡量模型预测结果与真实标签之间差异的一种函数。YOLOv5 算法的损失是由边界框损失、分类损失和置信度损失三个损失函数加权组合而成的。其中,CIoU 是边界框损失函数,其将预测框和真实框之间的距离、重叠率、尺度以及宽高比信息都考虑在内,但是未考虑真实框和预测框之间不匹配的方向。这种不足导致收敛速度较慢且效率较低,因为预测框可能在训练过程中“徘徊”,最终生成更差的模型。为此,引入SIoU损失函数[19]

SIoU 损失函数由4 个成本函数组成,包括角度成本、距离成本、形状成本和IoU成本。其中,角度成本计算过程如图4 所示。图中,方框B 为预测框;BGT为真实框,上标GT用于区分方框。cwch 为真实框和预测框最小外接矩形的宽和高,下标w 和h 用于区分宽高;α 和β 为最小外接矩形的两个夹角;σ为真实框和预测框中心点的距离。定义为

图4 损失函数中角度成本贡献的计算方案

其中,Λ 是角度成本;bgtb 同理;(bgtcxbgtcy)为真实框的中心坐标;(bcxbcy)为预测框的中心坐标,下标cxcy用于区分真实框和预测框中心坐标的横纵坐标。

距离成本定义为

其中,Δ 是距离成本;γ 为一种时间变量,根据距离被赋予时间优先权;Λ为角度成本。形状成本定义为

式中,wh 和wgthgt 分别为预测框和真实框的宽和高,上标gt用于区分方框;θ 控制对形状成本的关注程度。

综上得到SIoU损失函数的定义为

其中,Δ 是距离成本,Ω 是形状成本;IoU 是交并比(intersection over union,IoU),定义为

SIoU 损失函数通过引入方向性,与现有方法相比,在训练阶段能够实现更快的收敛,在推理阶段拥有更好的性能,极大地改善目标检测算法的训练及推理。

综上所述,改进的YOLOv5 模型整体架构如图5 所示,五角星表示改进的地方,SPPF(spatial pyramid pooling fast)为快速空间金字塔池化。

图5 改进YOLOv5整体架构

2 实验与结果分析

2.1 实验数据及参数

无人机影像是利用无人机系统采集完成的。飞行任务完成后,将飞行原始数据导入专业软件如Pix4D 中。在这些软件中,进行数据处理,包括去噪、点云配准、影像匹配等步骤,以生成DOM和DSM等高质量的三维空间数据成果。

二维目标检测数据集为自制数据集。将在实验中使用的数据集命名为“SanJiangData”。数据集总图像数量为3 423 张,目标类别包含tree、car、stone、streetlight。图像标注使用开源工具labelimg 进行,标注目标边界框的坐标以及类别标签。标注工作由两名标注者独立完成,然后通过交互式讨论消除标注不一致的情况。最终制作完的数据集根据实验需要划分80%共2 704 张给训练集,20%共719张给验证集。

本实验采用平均精度均值(mAP)、精确度(precision)和召回率(recall)来评估。在Win11系统,R7-5800H 处理器、NVIDIA GEFORCE RTX 3060显卡下,使用Python语言以Pytorch框架搭建运行环境。

2.2 消融实验

为了进一步验证各个模块对模型的影响,做了消融实验,结果如表1所示。

表1 消融实验结果单位:%

从表1 来看,在YOLOv5s 原始模型上单独改进C3_CBAM 模块、P2 模块和SIoU 损失函数都有提升,其mAP@0.5相比YOLOv5原始模型分别提升0.6%、5.6%和1.3%。其他指标也均有提升。

图6 对比了YOLOv5(蓝色曲线)与改进的YOLOv5(橙色曲线)在不同指标下的可视化情况。其中,图6(a)~图6(c)为训练集(train)的边界框损失值(box_loss)、置信度损失值(obj_loss)和分类损失值(cls_loss),图6(f)~图6(h)为验证集(val)的边界框损失值、置信度损失值和分类损失值,图6的图(d)、(e)、(i)、(j)为四个实验评价指标值Precision、Recall、mAP@0.5和mAP@0.5∶0.95。

图6 YOLOv5s 改进前后各项指标对比

改进YOLOv5 模型各个损失函数都低于YOLOv5s 模型,四个实验评价指标值Precision、Recall、mAP@0.5 和mAP@0.5∶0.95 分别比YOLOv5s 模型提高了1.7%、7.5%、6.5% 和4.2%。

2.3 对比实验

为进一步验证改进YOLOv5s 模型算法的可行性和性能,在相同SanJiangData 数据集下,将改进的YOLOv5 模型与YOLOv3 模型、YOLOv5s 模型、YOLOv7 模型[20]和YOLOv8 模型结果进行对比。实验结果如表2所示。

表2 对比实验结果单位:%

由表2 可知,本文改进YOLOv5 模型的Precision、Recall、mAP@0.5 和mAP@0.5∶0.95 均优于其他四种YOLO模型,证明了该方法的可行性。

图7 展示了改进YOLOv5 模型的检测结果,tree用红色检测框表示、stone用橙色检测框表示、car 用粉色检测框表示、streetlight 用黄色检测框表示,检测框代表地物的位置,检测框边的字符表示置信度,即每种地物检测的预测概率。改进YOLOv5 模型能把道路场景地物全部检测出来且置信度更高,边框定位更精确。

图7 二维目标检测结果

2.4 道路地物尺寸测量实验及结果

2.4.1 二维检测框坐标转换

将研究区数字正射影像图中的二维检测框的像素坐标转换为地理坐标的过程涉及将影像上的像素坐标映射到地理坐标。通常需要以下步骤:① 获取地理坐标系统信息,数字正射影像图使用的地理坐标系是WGS 1984 坐标系、投影坐标系是WGS 1984 UTM Zone 50N、坐标单位是m。② 计算像素到地理坐标的比例,确定影像的比例因子,即每个像素代表现实世界中多少距离,本次实验区域DOM 比例因子是0.031 8。③ 获取地理坐标系统的原点,确定需要检测的数字正射影像图左上角的原点坐标。④ 执行转换,使用式(13)将像素坐标转换为地理坐标。

式中,(XgYg)是地理坐标,(XpYp)是像素坐标,下标g 和p 用于区分地理坐标和像素坐标;(XY)是原点坐标,λ 是比例因子值为0.031 8,两者都是常量。

这个过程涉及简单的比例和平移操作,将像素坐标映射到地理坐标系中。其中正确的地理坐标系统信息、比例因子和原点坐标从gis软件中获取。

2.4.2 道路地物尺寸测量

DOM 为每个像素提供了高度精准的地理位置信息,DSM 中每个像素都包含有关地表的高程信息。每个检测框里面都只包含一个道路上地物,经过坐标转换的二维检测框提取框内的高程,选取最高点与最低点之差作为地物的高,再结合二维检测框的长宽,最终实现地物尺寸测量。结果如图8所示。

图8 地物尺寸测量结果

3 结束语

本文提出一种改进YOLOv5模型进行二维目标检测,实现道路上地物分类,利用DOM 和DSM等空间数据实现对道路上地物尺寸的测量。利用无人机搭载高分辨率相机,以非常高的精度捕获地表影像。引入改进的YOLOv5 目标检测算法,实现道路上地物的分类识别并利用二维检测框提取地物DSM 上的高程信息,最终实现地物尺寸测量。通过自制的数据集的实验对比,得出本文提出的改进YOLOv5 模型的Precision、Recall、mAP@0.5 和mAP@0.5∶0.95 分别比YOLOv5 模型算法提高了1.7%、7.5%、6.5%和4.2%。与其他四种模型对比,改进的YOLOv5模型性能更优。结合DOM 和DSM 空间数据也能得出地物尺寸,证明了本文提出方法的可行性。但该方法也存在不足,分类结果依赖二维检测网络模型效果且地物种类不足。今后可以从提高二维检测网络精度和扩充数据集方面改进。


基于无人机影像的目标检测与尺寸测量

张希光 李 琳

(江西理工大学 土木与测绘工程学院, 江西 赣州 341400)

引文格式:张希光,李琳. 基于无人机影像的目标检测与尺寸测量[J]. 北京测绘,2024,38(11):1534-1540.

[作者简介] 张希光(1998—),男,江苏宿迁人,硕士在读,研究方向为地理信息工程。E-mail: 1449188038@qq.com



- END -



历史干货

天地图上看实景三维
软件下载 |点云革命,重塑现实!大疆智模融入点云处理能力,DEM即刻获取
奥维批量导入TXT控制点坐标套合卫星地图
你要的CORS账号,价格打下来了!只要9毛
无人机航测 | 从外业到内业地形图制作技术流程(大疆智图+CASS+ArcGIS)
空域申请 | 无人机航测UOM系统合法飞行申请流程

GIS前沿
分享测绘地信资讯,交流行业软件技巧。
 最新文章