YOLO 系列目标检测大合集

科技 2024-11-01 10:25 中国香港

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

概述

YOLO（You Only Look Once，你只看一次）是一系列开创性的实时目标检测模型，它们彻底改变了计算机视觉领域。由Joseph Redmon开发，后续版本由不同研究人员迭代，YOLO模型以其在图像中检测对象的高速度和准确性而闻名。以下是对每个YOLO版本的详细查看：

1. YOLOv1

发布时间：2016年

主要贡献：

1. 统一检测：YOLOv1引入了一种新方法，将目标检测框架作为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率。

2. 网格系统：图像被划分为S x S的网格，每个网格单元预测B个边界框及其置信度分数。

3. 速度：YOLOv1比之前的检测系统（如R-CNN和Faster R-CNN）快得多，实现了每秒45帧（fps）的实时性能，快速版本达到155 fps。

限制：

1. 定位误差：YOLOv1在精确定位较小对象时存在困难。

2. 泛化：它倾向于对新出现或频率较低的对象泛化能力较差。

2. YOLOv2（YOLO9000）

发布时间：2017年

主要贡献：

1. 批量归一化：实施批量归一化以归一化每层的输入，改善了收敛性和正则化。

2. 高分辨率分类器：在高分辨率图像上训练模型，从而提高了性能。

3. 锚框：采用锚框（Faster R-CNN引入的一种技术）来预测边界框，提高了定位精度。

4. YOLO9000：模型在COCO数据集和超过9000个类别的自定义数据集上进行训练，因此得名YOLO9000，允许检测广泛范围的对象类别。

改进：

1. 与YOLOv1相比，平均精度均值（mAP）更好。

2. 提高了速度和准确性的平衡。

3. YOLOv3

发布时间：2018年

主要贡献：

1. 特征金字塔网络（FPN）：YOLOv3使用FPN在三个不同的尺度上检测对象，提高了对小对象的检测。

2. Darknet-53主干网络：引入了新的主干网络Darknet-53，它更深、更高效，结合了残差连接。

3. 多标签分类：每个边界框可以预测多个类别标签，这有助于处理对象可能属于多个类别的情况。

改进：

1. YOLOv3在保持实时速度的同时显著提高了准确性。

2. 在检测小对象和处理复杂图像方面取得了显著改进。

4. YOLOv4

发布时间：2020年

主要贡献：

1. 免费工具包（BoF）和特殊工具包（BoS）：引入了一系列增强功能，分为BoF（在不增加推理时间的情况下提高准确性的技术）和BoS（略微增加推理时间但显著提高准确性的技术）。

2. CSPDarknet53主干网络：使用了CSPDarknet53，它结合了跨阶段部分连接，提高了学习效率并减少了计算负载。

3. 数据增强技术：采用了如Mosaic和Self-Adversarial Training等技术来增强模型的鲁棒性和泛化能力。

改进：

1. mAP和FPS显著增加，使其成为发布时最快、最准确的模型之一。

2. 提高了检测小对象和大对象的能力。

5. YOLOv5

发布时间：2020年（由Ultralytics发布，不是Joseph Redmon的官方续作）

主要贡献：

1. PyTorch实现：YOLOv5使用PyTorch开发，使其更易于访问和修改。

2. 预训练模型：为不同用例提供了各种预训练模型（小到大），促进了迁移学习。

3. 自学习边界框锚：通过在训练期间自动调整锚框来增强学习过程。

改进：

1. 保持实时检测能力，提高了准确性。

2. 简化了部署和集成到各种应用程序中。

6. YOLOv6

发布时间：2022年

YOLOv6在前身YOLOv5的基础上引入了几项创新和改进，专注于提高性能、效率和适用性，以适应各种现实世界场景。以下是关键的新功能和改进：

主要贡献：

1. 工业适用性：YOLOv6专门针对工业应用设计，优化了边缘设备上的实时性能，这些设备的计算资源可能有限。

2. 增强架构：YOLOv6包括改进的主干和颈部设计，提高了特征提取和表示能力。这导致更好的检测精度和性能。

3. 无锚检测：YOLOv6的一个重要创新是探索无锚检测方法。这通过去除锚生成和匹配的需求来简化训练过程，可能导致更快的训练时间和某些数据集上的性能改进。

4. 高级训练技术：YOLOv6采用了高级训练技术，如复杂的数据增强策略和优化的训练时间表。这些技术提高了模型在不同条件和数据集下的鲁棒性和泛化能力。

5. 改进的损失函数：模型使用经过改进的损失函数，在训练期间提供更准确的梯度，帮助模型更好地学习对象及其位置的表示。这些损失函数旨在更有效地处理目标检测任务的复杂性。

改进：

1. 性能提升：与YOLOv5相比，YOLOv6在平均精度均值（mAP）方面显示出显著改进。这是通过架构优化和增强的训练方法实现的，使YOLOv6能够更准确地检测对象。

2. 效率和速度：YOLOv6旨在比YOLOv5更具计算效率。它在保持或提高准确性的同时实现了更高的检测速度，使其更适合实时应用，特别是在边缘设备上。

3. 减少模型大小和计算成本：与YOLOv5相比，YOLOv6以更少的参数和更低的计算要求实现了更好的性能。这种模型大小和计算成本的减少使YOLOv6在资源受限的环境中部署更有效。

4. 多功能性和适应性：与YOLOv5相比，YOLOv6具有更广泛的多功能性和适应性，能够处理各种大小和复杂性的对象，这得益于其改进的特征提取机制和无锚检测方法。

5. 针对边缘设备的优化：对YOLOv6的特别关注包括模型量化和剪枝等技术。这些优化使YOLOv6更适合在计算能力有限的设备上部署，提高了其在工业应用中的实用性。

6. 延迟减少：通过一致的双重分配消除了对非最大抑制（NMS）的需求，与YOLOv5相比，YOLOv6显著减少了端到端延迟，提高了实时性能。

7. YOLOv7

发布年份：2022年

YOLOv7是YOLO（你只看一次）系列目标检测模型的延续，以其实时性能和准确性而闻名。这一迭代带来了几个值得注意的进步，增强了架构设计和性能效率。

主要贡献：

1. 高效层聚合网络（ELAN）：

YOLOv7引入了一种名为高效层聚合网络（ELAN）的新架构设计，显著提高了网络学习和有效表示特征的能力。
ELAN结构增强了梯度流，并加强了在不同层捕获不同特征的能力。

2. 扩展高效层聚合网络（E-ELAN）：

在ELAN的基础上，扩展版本E-ELAN通过提高参数利用率和计算效率进一步优化了网络。这允许更深的网络具有更好的性能指标。

3. 动态头部：

YOLOv7以动态头部模块为特色，该模块在训练期间自适应地调整网络的重点。这种机制有助于更好地处理各种大小的对象，并提高了检测精度，特别是对于较小的对象。

4. 辅助和引导损失：

模型采用了辅助和引导损失的组合来促进更好的学习。辅助损失在训练的早期阶段引导网络，而引导损失确保了准确的最终预测。

5. 标签分配策略：

YOLOv7引入了一种新的标签分配策略来优化训练过程。这种策略确保使用了最相关和最有信息量的标签，从而提高了准确性和鲁棒性。

改进：

1. 性能提升：

与YOLOv6相比，YOLOv7实现了更高的平均精度均值（mAP）。性能提升归因于YOLOv7中实施的架构改进和新颖的训练策略。

2. 计算效率：

尽管网络的复杂性和深度增加，YOLOv7旨在更具计算效率。它以更少的计算资源实现了更好的性能，使其适合在资源受限的环境中部署。

3. 改进的训练技术：

YOLOv7利用高级训练技术，如动态头部模块和高效层聚合，来增强学习过程。这些技术导致更快的收敛和在不同数据集上更好的泛化。

4. 更好地处理对象尺度变化：

动态头部和改进的标签分配策略使YOLOv7能够更好地检测不同尺度的对象，特别是以前版本难以检测的小型对象。

5. 增强的主干和颈部设计：

— YOLOv7的主干和颈部组件经过改进，以提高特征提取和表示。这导致在广泛的情境中更准确、更强大的目标检测。

8. YOLOv8

发布年份：2023年，由Ultralytics发布。

主要贡献和改进：

C2f构建块：YOLOv8引入了C2f（连接到融合）构建块，改进了
特征提取和融合，增强了模型处理复杂目标检测任务的能力。
增强的网络架构：网络架构经过改进，以实现更好的性能和效率，专注于以更低的计算成本实现更高的准确性。
改进的训练策略：结合了先进的训练策略，包括更好的增强技术和优化算法，有助于提高模型的鲁棒性和准确性。
与Ultralytics Hub集成：YOLOv8与Ultralytics Hub集成，这是一个管理和部署模型的平台，简化了用户的工作流程，并促进了更容易的模型管理。

YOLOv8.1

发布年份：2024年1月，由Ultralytics发布。

YOLOv8 OBB模型：引入了定向边界框模型，提高了检测角度对象的准确性。
分割增强：高级分割功能，用于更精确的图像分析。
性能优化：专注于YOLOv8框架的速度和效率的改进。

9. YOLOv9

发布年份：2024年2月

关键特性：

1. 可编程梯度信息（PGI）：

— YOLOv9引入了PGI，这是一个旨在通过辅助可逆分支生成可靠梯度的概念。这有助于保持执行目标任务所需的深度特征的关键特征。

— PGI允许灵活选择适合特定任务的损失函数，克服了与传统深度监督过程相关的限制。

2. 通用ELAN（GELAN）：

YOLOv9中的GELAN架构平衡了参数数量、计算复杂性、准确性和推理速度。它允许用户为不同的推理设备选择合适的计算块，提高了多功能性和性能。

3. 性能提升：

— 与以前的模型相比，YOLOv9在各种指标上实现了卓越的性能。在准确性、参数效率和计算要求方面，它优于YOLOv8和其他最先进的模型。

— 例如，与YOLOv8-X相比，YOLOv9-E实现了1.7%更高的平均精度（AP），参数减少了16%，计算成本降低了27%。

4. 多功能性和应用：

— PGI和GELAN的集成允许YOLOv9有效地应用于轻量级和深度神经网络架构，使其适合广泛的现实世界应用。

— YOLOv9的设计支持传统和深度卷积，为模型部署和优化提供了灵活性。

5. 实验验证：

在MS COCO数据集上进行的广泛实验验证了YOLOv9的顶级性能。它显著超过了现有的实时目标检测器，展示了在速度、准确性和资源效率方面的改进。

贡献：

理论见解：YOLOv9的开发包括对深度神经网络架构的理论分析，特别关注可逆函数。这一分析有助于解决以前无法解释的现象，并指导了PGI和辅助可逆分支的设计。
增强的轻量级模型：PGI有效地解决了深度监督的限制，使轻量级模型实现了高准确性，使其适合日常使用。
效率和速度：使用传统卷积的GELAN设计，确保了与基于深度卷积的设计相比，参数使用效率和计算速度更高。

总之，YOLOv9代表了YOLO系列的重大进步，结合了PGI和GELAN等创新概念，提供了一个强大、多功能且高效的目标检测模型，适用于广泛的应用。

10. YOLOv10

发布年份：2024年5月

YOLOv10代表了实时目标检测领域的重大进步，建立在其在YOLO（你只看一次）系列中的前辈奠定的坚实基础上。这一迭代引入了几个关键创新和改进，旨在提高性能和效率。以下是YOLOv10的主要亮点：

关键特性：

1. 无NMS训练：

— YOLOv10通过使用一致的双重分配消除了其后处理阶段对非最大抑制（NMS）的需求。这种方法不仅显著减少了端到端延迟，还保持了竞争性能水平。

2. 整体模型设计：

— YOLOv10的设计策略专注于效率和准确性之间的平衡。模型的各个组成部分都经过优化，以减少计算开销，同时提高能力。这包括全面的架构调整，导致更少的参数和更低的延迟。

3. 性能提升：

— 在各种模型规模（N、S、M、L、X）中，YOLOv10在平均精度（AP）方面取得了改进，同时显著减少了参数和计算要求。例如，与前身YOLOv8-N相比，YOLOv10-N实现了1.2%的AP改进，参数减少了28%，计算成本降低了23%。

4. 效率增益：

— YOLOv10在准确性和计算成本之间展现了优越的权衡。例如，与YOLOv6–3.0-S相比，YOLOv10-S实现了1.5 AP改进，并大幅减少了参数和FLOPs（每秒浮点运算次数）。

5. 延迟减少：

— 通过消除NMS和优化模型架构，YOLOv10实现了显著的延迟减少。例如，与YOLOv9-C相比，YOLOv10-S的延迟降低了46%，展示了模型在实时应用中的效率。

6. 比较性能：

— YOLOv10在速度和准确性方面一致优于其他最先进的模型，如RT-DETR和以前的YOLO版本。它比RT-DETR-R18快1.8倍，同时保持类似的AP性能，并且在参数和FLOPs方面也大幅减少。

11. YOLOX

发布年份：2021年

主要贡献和改进：

无锚设计：YOLOX采用无锚机制，简化了模型架构和训练过程。
分离的头部：分离的头部将分类和定位任务分开，提高了整体性能。
高级增强技术：使用Mosaic和MixUp等技术来增强模型的泛化能力和鲁棒性。
性能提升：与以前的YOLO版本相比，YOLOX实现了更高的准确性和效率，使其与其他最先进的模型竞争。

12. YOLOR

发布年份：2021年

主要贡献和改进：

统一网络：YOLOR（你只学习一次表示）将显性和隐性知识整合到统一网络中，增强了模型的学习能力。
知识蒸馏：利用知识蒸馏来提高轻量级模型的性能。
改进的主干：在主干中结合了CSPNet，增强了特征提取和表示。
多功能性：在各种任务中表现出色，包括目标检测、实例分割和关键点检测。

13. PaddleYOLO

发布年份：2022年8月，作为PaddlePaddle深度学习平台的一部分开发。

主要贡献和改进：

针对PaddlePaddle优化：PaddleYOLO针对PaddlePaddle框架进行了优化，确保了高效的训练和推理。
全面模型：包括各种YOLO模型（YOLOv3、YOLOv4等），针对PaddlePaddle进行了特定优化。
易用性：提供用户友好的API和广泛的文档，使开发者易于访问。
高性能：通过在PaddlePaddle平台上提供高准确性和快速推理时间，与其他YOLO实现竞争。

14. MMYOLO

发布年份：2022年9月，是MMDetection框架的一部分，被研究社区广泛使用。

主要贡献和改进：

模块化设计：MMYOLO受益于MMDetection的模块化设计，允许轻松定制和扩展。
与MMDetection集成：与MMDetection框架内的其他模型和工具无缝集成，促进了全面的实验。
最新技术：结合了目标检测的最新进展，包括高级增强方法和损失函数。
研究导向：旨在具有高度灵活性和可配置性，非常适合研究目的和开发新技术。

这些模型代表了YOLO家族和目标检测框架的重要进步，每个模型都贡献了独特的功能和改进，以满足特定需求和平台。

结论

每个YOLO版本都对目标检测领域做出了重要贡献（不要搞错，一些最新版本还支持对象分割、定向边界框等），不断推动实时计算机视觉应用的可能性的边界。从YOLOv1到YOLOv10的发展显示了模型架构、训练技术和性能优化方面的显著演变，巩固了YOLO作为目标检测的领先方法的地位。

注意：由于对模型架构的理解有限，我省略了一些YOLO版本，如GOLD-YOLO、DAMO-YOLO、YOLO Air、Scaled YOLOv4、deepstream YOLO等。



下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569440&idx=1&sn=e47497a5f61e7aaa2fce3fa44f16f135

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉