Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

科技 2024-11-17 10:30 中国

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2112.11798.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

随着自动驾驶汽车和自动驾驶赛车越来越受欢迎，对更快、更准确的检测器的需求也在增加。

一、前言

随着自动驾驶汽车和自动驾驶赛车越来越受欢迎，对更快、更准确的检测器的需求也在增加。

虽然我们的肉眼几乎可以立即提取上下文信息，即使是在很远的地方，但图像分辨率和计算资源的限制使得检测较小的对象（即在输入图像中占据小像素区域的对象）对机器来说是一项真正具有挑战性的任务和广阔的研究领域。

本研究探讨了如何修改流行的YOLOv5目标检测器以提高其在检测较小对象方面的性能，特别是在自主赛车中的应用。为了实现这一点，研究者研究了替换模型的某些结构元素（以及它们的连接和其他参数）如何影响性能和推理时间。为此，研究者提出了一系列不同尺度的模型，将其命名为“YOLO-Z”，当以50%的IoU检测较小的物体时，这些模型的mAP提升高达6.9%，而代价与原始YOLOv5相比，推理时间增加了 3ms。

研究者们的目标是为未来的研究提供有关调整流行检测器（例如YOLOv5）以解决特定任务的潜力的信息，并提供有关特定更改如何影响小物体检测的见解。这些发现应用于更广泛的自动驾驶汽车环境，可以增加此类系统可用的环境信息量。

二、背景

检测图像中的小物体具有挑战性，主要是由于模型可用的分辨率和上下文信息有限。许多实现目标检测的系统都以实时速度执行此操作，从而对计算资源提出了特定要求，尤其是在处理要在捕获图像的同一设备上进行时。许多自动驾驶车辆系统就是这种情况，其中车辆本身实时捕获和处理图像，通常是为了通知其下一步行动。在这种情况下，检测较小的物体意味着检测距离汽车较远的物体，从而可以更早地检测到这些物体，有效地扩大了车辆的检测范围。这一特定领域的改进将更好地为系统提供信息，使其能够做出更稳健和可行的决策。由于目标检测器的性质，较小对象的细节在其卷积主干的每一层处理时失去了意义。在本研究中，“小物体”是指在输入图像中占据小像素区域的物体。

目前，已经有很多研究者努力改进对较小物体的检测[如An Evaluation of Deep Learning Methods for Small Object Detection]，但许多都围绕着图像的特定区域进行处理或集中在two-stages检测器周围，这些检测器以实现以推理时间为代价获得更好的性能，使其不太适合实时应用程序。这也是为此类应用开发了如此多的单级检测器的原因。增加输入图像分辨率是绕过此问题的另一种明显方法，但会导致处理时间显着增加。

三、新思路

已经投入了一些努力来开发将处理导向输入图像的某些区域的系统，这使我们能够调整分辨率，从而绕过定义对象的像素较少的限制。然而，这种方法更适合对时间不敏感的系统，因为它们需要多次通过不同规模的网络。这种更加关注特定尺度的想法仍然可以激发我们处理某些特征图的方式。此外，通过查看如何处理特征图而不是仅仅修改主干可以学到很多东西。不同类型的特征金字塔网络（FPN）可以不同地聚合特征图，以不同方式增强主干。这种技术被证明是相当有效的。

YOLOv5框架

YOLOv5为其模型提供了四种不同的尺度，S、M、L和X，分别代表Small、Medium、Large和Xlarge。这些比例中的每一个都将不同的乘数应用于模型的深度和宽度，这意味着模型的整体结构保持不变，但每个模型的大小和复杂性都会按比例缩放。

在实验中，我们在所有尺度上分别对模型结构进行更改，并将每个模型视为不同的模型，以评估其效果。为了设置基线，我们训练并测试了YOLOv5四个未修改版本。然后，分别测试了对这些网络的更改，以便根据我们的基线结果分别观察它们的影响。在进入下一阶段时，那些似乎对提高准确性或推理时间没有贡献的技术和结构被过滤掉了。然后，尝试了所选技术的组合。重复这个过程，观察某些技术是相互补充还是相互削弱，并逐渐增加更复杂的组合。

Proposed architectural changes

YOLOv5使用yaml文件来指示解析器如何构建模型。我们使用此设置编写自己的高级指令，说明如何构建模型的不同构建块以及使用哪些参数，从而修改其结构。为了实现新结构，我们安排并为每个构建块或层提供参数，并在必要时指示解析器如何构建它。用我们的话来说，我们利用了YOLOv5提供的基础和实验网络块，同时在需要的地方实现了额外的块来模拟所需的结构。

其中，neck的修改：

在这项工作中，将当前的Pan-Net[Path aggregation network for instance segmentation]简化为FPN，并将其替换为biFPN[EfficientDet: Scalable and Efficient Object Detection]。在这两种情况下，neck都保留了类似的功能，但复杂性有所不同，因此实现它们所需的层数和连接数也有所不同。

其他修改可见论文。

可以在包含性和排他性的结构方面实现如何支持较小的特征图的示例

四、实验分析

Results of applying individual architectural changes to YOLOv5 at each scale

YOLOv5和YOLO-Z的比较

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539749&idx=1&sn=28ad5cc73f52d60234e69a8e90611fd7

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉