Drone-YOLO：一种有效的无人机图像目标检测

科技 2024-12-13 10:09 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

无人机图像中的目标检测是各个研究领域的重要基础。然而，无人机图像带来了独特的挑战，包括图像尺寸大、检测对象尺寸小、分布密集、实例重叠和照明不足，这些都会影响对象检测的有效性。

前景概要

今天分享中，我们提出了Drone-YOLO，这是一系列基于YOLOv8模型的多尺度无人机图像目标检测算法，旨在克服与无人机图像目标检测相关的特定挑战。为了解决大场景大小和小检测对象的问题，我们对YOLOv8模型的颈部组件进行了改进。具体而言，我们采用了三层PAFPN结构，并结合了一个使用大规模特征图为小型目标量身定制的检测头，显著增强了算法检测小型目标的能力。此外，我们将夹层融合模块集成到颈部上下分支的每一层中。这种融合机制将网络特征与低级特征相结合，提供了关于不同层检测头处物体的丰富空间信息。我们使用深度可分离进化来实现这种融合，它平衡了参数成本和大的感受野。在网络主干中，我们使用RepVGG模块作为下采样层，增强了网络学习多尺度特征的能力，并优于传统的卷积层。

所提出的Drone-YOLO方法已在消融实验中进行了评估，并在VisDrone2019数据集上与其他最先进的方法进行了比较。结果表明，我们的Drone-YOLO（L）在目标检测的准确性方面优于其他基线方法。与YOLOv8相比，我们的方法在mAP0.5指标上实现了显著改进，VisDrone2019测试增加了13.4%，VisDrone 2019-val.增加了17.40%。此外，只有5.25M参数的参数高效Drone-YOLO（tiny）在数据集上的性能与9.66M参数的基线方法相当或更好。这些实验验证了Drone-YOLO方法在无人机图像中目标检测任务中的有效性。

背景

在过去的15年里，随着无人机控制技术的逐渐成熟，无人机遥感图像以其成本效益和易获取性成为低空遥感研究领域的重要数据源。在此期间，深度神经网络方法得到了广泛的研究，并逐渐成为图像分类、目标检测和图像分割等任务的最佳方法。然而，目前应用的大多数深度神经网络模型，如VGG、RESNET、U-NET、PSPNET，主要是使用手动收集的图像数据集开发和验证的，如VOC2007、VOC2012、MS-COCO，如下图所示。

与人工拍摄的真是图像相比，从无人机获得的图像显示出显著差异。这些无人机拍摄的图像如下：

除了这些图像数据特征外，无人机遥感目标检测方法还有两种常见的应用场景。第一个涉及使用大型台式计算机进行飞行后数据处理。无人机飞行后，捕获的数据在台式计算机上进行处理。第二个涉及飞行过程中的实时处理，无人机上的嵌入式计算机实时同步处理航空图像数据。该应用程序通常用于无人机飞行期间的避障和自动任务规划。因此，应用神经网络的目标检测方法需要满足每个场景的不同要求。对于适用于台式计算机环境的方法，需要高检测精度。对于适用于嵌入式环境的方法，模型参数需要在一定范围内才能满足嵌入式硬件的操作要求。在满足操作条件后，该方法的检测精度也需要尽可能高。

因此，无人机遥感图像中目标检测的神经网络方法需要能够适应这些数据的特定特征。它们的设计应满足飞行后数据处理的要求，可以提供高精度和召回率的结果，或者它们应设计为具有较小规模参数的模型，可以部署在嵌入式硬件环境中，用于无人机上的实时处理。

新框架设计介绍

下图显示了我们提出的Drone-YOLO（L）网络模型的架构。该网络结构是对YOLOv8-l模型的改进。在网络的主干部分，我们使用RepVGG结构的重新参数化卷积模块作为下采样层。在训练过程中，这种卷积结构同时训练3×3和1×1卷积。在推理过程中，两个卷积核被合并为一个3×3卷积层。这种机制使网络能够在不影响推理速度或扩大模型大小的情况下学习更稳健的特征。在颈部，我们将PAFPN结构扩展到三层，并附加了一个小尺寸的物体检测头。通过结合所提出的三明治融合模块，从网络主干的三个不同层特征图中提取空间和信道特征。这种优化增强了多尺度检测头收集待检测对象的空间定位信息的能力。

如下图所示，我们提出了sandwich-fusion（SF），这是一种三尺寸特征图的新融合模块，它优化了目标的空间和语义信息，用于检测头。该模块应用于颈部自上而下的层。该模块的灵感来自YOLOv6 3.0【YOLOv6 v3.0: A Full-Scale Reloading】中提出的BiC模型。SF的输入如图所示，包括主干较低阶段、相应阶段和较高阶段的特征图。目标是平衡低级特征的空间信息和高级特征的语义信息，以优化网络头部对目标位置的识别和分类。

项目落地效果

项目中，我们使用Ubuntu 20.04作为操作系统，Python 3.8、PyTorch 1.16.0和Cuda 11.6作为软件环境。实验采用NVIDIA 3080ti图形卡作为硬件。神经网络的实现代码是在Ultralytics 8.0.105版本的基础上修改的。在项目中的训练、测试和验证过程中使用的超参数保持一致。训练epoch被设置为300，并且输入到网络中的图像被重新缩放到640×640。在下面列出的一些结果中，所有YOLOv8和我们提出的Drone-YOLO网络都具有来自我们检测结果。在这些落地中，这些网络都没有使用预训练参数。

在嵌入式应用实验中，我们使用NVIDIA Tegra TX2作为实验环境，该环境具有256核NVIDIA Pascal架构GPU，提供1.33 TFLOPS的峰值计算性能和8GB的内存。软件环境为Ubuntu 18.04 LTS操作系统、NVIDIA JetPack 4.4.1、CUDA 10.2和cuDNN 8.0.0。

在VisDrone2019-test测试效果

基于NVIDIA Tegra TX2的结果

Drone-YOLO实际效果

左边是Yolov8的结果，可以看出红色框中大部分目标没有检测出来

论文地址：www.mdpi.com/2504-446X/7/8/526

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

零样本通用分割框架（附源代码）

CRAS-YOLO：多类别船舶检测与分类模型

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Drone-YOLO：一种有效的无人机图像目标检测

“空中城管”上岗丨城管无人机赋能城市精细化管理

CRAS-YOLO：多类别船舶检测与分类模型

YOLO界再起波澜！新一代目标检测器又有新突破！

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

Yolov7实战，实现网页端的实时目标检测

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

超Transformer模型实现SOTA性能！CoMamba或成实时协同感知最有前景的解决方案？

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉