YOLO11：重新定义性能极限！对比YOLO8如何？

文摘 2024-10-18 17:34 江苏

在2024年9月27日盛大举行的YOLO Vision 2024活动上，Ultralytics公司震撼发布了YOLO系列的最新成员——YOLO11。

作为Ultralytics YOLO系列实时目标检测器的最新迭代，YOLO11凭借尖端的准确性、速度和效率，重新定义了性能极限，为目标检测、分割、分类、定向边界框检测以及姿态估计等多样计算机视觉任务树立了新标杆。

github地址：https: //github.com/ultralytics/ultralytics

相较于前代YOLOv8，YOLO11在保持卓越性能的同时，实现了参数数量的显著减少，检测效果却更上一层楼。这一突破性进展预示着YOLO11在边缘设备上的运行将更为高效、快速，无疑将在计算机视觉领域的最先进技术（SOTA）中占据一席之地。

基于之前YOLO版本的显著成就，YOLO11在架构设计和训练方法上进行了重大革新，使其成为应对各种复杂计算机视觉挑战的首选工具。

主要改进

增强的特征提取：YOLO11采用了改进的主干（backbone）和头部（head）架构，显著增强了特征提取能力。具体而言，backbone部分将YOLOv8的C2f模块替换成了YOLO11的C3k2模块，并在YOLOv8的SPPF模块后新增了C2PSA模块。C3k2模块集成了C2f和C3模块的组合，而C2PSA模块则是一个由两个卷积层和一个多头自注意力模块组成的结构，用于进一步增强特征提取能力。
优化的效率和速度：YOLO11引入了精致的架构设计和优化的训练流程，以提供更快的处理速度。通过这些改进，YOLO11在保持准确性和性能之间平衡的同时，实现了更快的处理速度。
使用更少的参数获得更高的精度：YOLO11m在COCO数据集上实现了更高的平均准确度（mAP），同时使用的参数比YOLOv8m少22%。这表明YOLO11在不影响精度的情况下，通过减少参数数量提高了计算效率。
跨环境适应性：YOLO11可以无缝部署在各种环境中，包括边缘设备、云平台以及支持NVIDIA GPU的系统。
这种跨环境的适应性确保了YOLO11在各种应用场景中的灵活性和可用性。

支持的任务范围广泛：YOLO11不仅支持对象检测任务，还支持实例分割、图像分类、姿态估计和定向对象检测（OBB）等多种计算机视觉任务。这种多功能性使得YOLO11能够应对各种复杂的计算机视觉挑战。

模型架构

YOLO11的5种尺寸缩放模型包括：纳米（nano, n）、小（small , s）、中（medium, m）、大（large, l）和超大（extra-large, x）。这些模型在结构上是相似的，但它们的深度、宽度和最大通道数等参数有所不同，从而导致了它们在计算量、内存占用和性能上的差异。

#backbone特征提取

通过观察YOLO11与YOLOv8的backbone部分可以发现，在模块组合上差别主要来源于：

C3k2模块替换了原有的C2f模块；
增加了C2PSA模块；

C3k2模块

C3k2模块是YOLO11模型中的一种重要特征提取组件，通过代码可知，该模块是基于传统C3模块的改进设计。它通过结合可变卷积核（如3x3、5x5等）和通道分离策略，提供了更强大的特征提取能力。

C3k2模块通常将输入特征分为两部分，一部分通过普通的卷积操作直接传递，另一部分则通过多个C3K或Bottleneck结构进行深度特征提取。最终两部分特征进行拼接，并通过1x1卷积进行融合.

C2PSA模块

YOLO11中的C2PSA模块是该模型的核心创新之一。

C2PSA在前向传播过程中，首先分为a，b两部分进行计算（b部分也分为两部分，为了进行区分，按顺序命名为b1和b）。

a和b1首先经过cv1（1x1卷积层，将输入通道的数量减少到2*c）模块进行卷积操作，然后依据c（隐藏层通道数量）进行切分得到；
b是b1经过PSABlock的金字塔切片注意力机制得到，它通过构建金字塔结构，对输入特征进行多层次的切片处理，从而捕捉更丰富的上下文信息和特征细节；
最后a、b通过cat拼接后，经过cv2（1x1卷积层，将输出通道的数量减少到c）模块完成前向传播过程。

#head特征融合

深度可分离卷积的应用：

YOLO11在head的cls分支上使用了深度可分离卷积，这种卷积方式有助于减少模型的计算量，同时保持较高的精度。通过减少冗余计算，YOLO11在保持性能的同时实现了更高的效率。

模型推理

YOLO11m在COCO数据集上实现了更高的平均精度（mAP）分数，而且其参数量相比YOLOv8m减少了22%，从而在保持卓越性能的同时，实现了更轻量的计算需求。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247487182&idx=1&sn=94dcdba0cd4910eae979c54e75ffbaa1

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统