机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

科技科技 2024-11-24 09:30 浙江

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

最近在arXiv中翻阅到一遍基于Yolov8的飞机实时目标检测论文，当时通过研究其中的一些相关算法，并应用到实际场景。一个可用于迁移学习和进一步研究的飞行物体实时检测的广义模型，以及一个可供实施的精化模型。

前景概要

目前目标检测算法已经是非常成熟的一个领域成果物，而且到目前为止，已经有数不胜数的检测算法公开于世，尤其是Yolo系列，是目前市场中最常见的baseline。在项目中，也有遇到一些小目标检测，尤其该目标是物体空间大小或纵横比、速度、遮挡、杂乱背景等变化，造成目标检测不到，误检、漏检等现象。

通过大量阅读文献以及研究，发现有些方法还是在一定基础上提升效果，满足实际场景需求。

通过在包含40个不同类别飞行物体的数据集上训练第一个（广义）模型来实现这一点，迫使模型提取抽象特征表示。然后，我们在更能代表真实环境的数据集（即更高的遮挡率、较小的空间大小、旋转等）上使用这些学习到的参数进行迁移学习，以生成我们的精细模型。飞行物体的目标检测仍然具有挑战性，这是由于物体空间大小/纵横比、速度、遮挡和聚集背景的变化较大。

背景前要

最近看新闻发现国外，发生的许多事件表明了无人机的恶意使用。在过去的几个月里，有报道称，走私者试图通过携带小型爆炸物的无人机进行暗杀，向州立监狱运送毒品，并监视美国边境巡逻队等一些其他消息。虽然研究表明，无人机的使用预计将呈指数级增长，但检测技术尚未提供可靠准确的结果。无人机和小型无人机具有隐身能力，由于其电磁信号小，可以避免被大多数现代雷达系统探测。它们体积小，机动性强，噪音低。这一点，加上访问的便利性，为无人机继续成为现代战争和非法活动的组成部分提供了自然的激励。

【跑到出现坑洼段】

还有就是在机场中，很多无人机、或则天空中的鸟类以及跑到上出现的异物，都会影响飞机正常的起飞。通过在塔楼或其他建筑上投放使用AI目标检测应用，可以在一定程度上大量减少人力的投入，以及高效率护航飞机起飞落地！

【通过人力搜索清楚】

目前，虽然已经提出了无线电和声学检测等方法作为解决方案，但目前已知它们是不准确的。这促使在任何这样的检测系统中集成视觉检测器。我们现在可以通过数字塔实现实时物体检测，以监控人员和机动车辆，但目前还不知道是否能实现无人机和小飞行物体检测。

在这种环境中的探测是具有挑战性的，因为从杂乱的沙漠背景和距离进行探测。物体距离塔楼越远，检测和分类就越困难，因为物体在输入空间向模型传递的信号就越少。

新算法研究

为了解决所提出的一些挑战，同时最大限度地提高性能，我们利用当前最先进的YOLOv8，试图在推理速度和mAP之间找到最佳折衷。虽然YOLOv8被认为是最新的技术，但尚未提供官方文件。

因此，我们对YOLOv8所适应的新架构和功能进行了深入的解释。最终的广义模型实现了0.685的mAP50-95和50 fps的1080p视频的平均推理速度。最终改进的模型保持了这种推理速度，并实现了0.835的改进mAP50-95。

模型选择和评估

我们评估了模型的小型、中型和大型版本，以确定推理速度和mAP50-95之间的最佳折衷，然后优化超参数。小型、中型和大型模型分别具有（11151080、25879480和43660680）参数和（225、295和365）层。在训练模型后，我们发现小型和中型模型之间的mAP50-95显著增加（0.05），但中型和大型模型之间的delta不多（0.002）。我们还发现，在验证集上，小型、中型和大型分别在4.1、5.7和9.3毫秒时推断。然而，我们最初的目标是在1080p的情况下达到30到60帧之间的平均推理速度。当在多个1080p高清视频上测试中等大小的模型时，我们观察到19.75毫秒（每秒50帧）的平均总速度（处理前速度（0.5毫秒）+推理速度（17.25毫秒）+处理后速度（2毫秒）），这与我们的主要目标一致。

这导致我们选择中等尺寸的模型来开始调整超参数。由于缺乏计算资源，我们为每组超参数评估10个epoch，作为额外时期潜在性能的指标。我们观察到，这一假设是正确的，因为与默认的超参数（0.027）相比，使用最优超参数集的训练在epoch 100处实现了更好的性能我们基于验证mAP50-95选择最佳超参数，批量为16，随机梯度下降（SGD），动量为0.937，权重衰减为0.01，分类损失权重λcls=1，box损失权重λbox=5.5，分布焦点损失权重λdfl=2.5。经过163个epoch的训练，我们在1080p视频上获得了0.685的mAP50-95和50 fps的平均推理速度。

实战和可视化

在网上搜索了F-14和F-18战斗机，并可视化了特征激活地。从左到右，展示了CSPDarkNet53主干的四个阶段。

通用模型也对一些数据进行了检测，效果如下图：

然后通过迁移学习的精细模型，效果如下：

传统算法实际检测结果

优化后实际检测结果

如果将精度模型用于近距离飞机或其他飞行物的检测，效果不是特别友好了，所以后续还是要结合之前的算法，增量迭代优化更鲁邦的算法。下面是从网上下载的某机场飞机起飞全过程的实时检测结果：

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

年薪百万or惨遭裁员，AIGC开发者如何破局？

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

2024全球无人机市场洞察报告

粉丝福利！免费赠书中奖名单

凭什么YOLO是最强目标检测器，一文读懂！

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

史上最通俗易懂的YOLO系列（v1-v10）模型解读！

更快、更灵活的Transformer图像去雾网络

“计算机视觉研究院”商务合作

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉