YOLO11:重新定义性能极限!对比YOLO8如何?

文摘   2024-10-18 17:34   江苏  

在2024年9月27日盛大举行的YOLO Vision 2024活动上,Ultralytics公司震撼发布了YOLO系列的最新成员——YOLO11
作为Ultralytics YOLO系列实时目标检测器的最新迭代,YOLO11凭借尖端的准确性、速度效率,重新定义了性能极限,为目标检测、分割、分类、定向边界框检测以及姿态估计等多样计算机视觉任务树立了新标杆。


github地址:https: //github.com/ultralytics/ultralytics

相较于前代YOLOv8,YOLO11在保持卓越性能的同时,实现了参数数量的显著减少检测效果却更上一层楼。这一突破性进展预示着YOLO11在边缘设备上的运行将更为高效、快速,无疑将在计算机视觉领域的最先进技术(SOTA)中占据一席之地。

基于之前YOLO版本的显著成就,YOLO11在架构设计和训练方法上进行了重大革新,使其成为应对各种复杂计算机视觉挑战的首选工具。



主要改进


  • 增强的特征提取:YOLO11采用了改进的主干(backbone)和头部(head)架构,显著增强了特征提取能力。具体而言,backbone部分将YOLOv8的C2f模块替换成了YOLO11的C3k2模块,并在YOLOv8的SPPF模块后新增了C2PSA模块。C3k2模块集成了C2f和C3模块的组合,而C2PSA模块则是一个由两个卷积层和一个多头自注意力模块组成的结构,用于进一步增强特征提取能力。
  • 优化的效率和速度:YOLO11引入了精致的架构设计和优化的训练流程,以提供更快的处理速度。通过这些改进,YOLO11在保持准确性和性能之间平衡的同时,实现了更快的处理速度
  • 使用更少的参数获得更高的精度:YOLO11m在COCO数据集上实现了更高的平均准确度(mAP),同时使用的参数比YOLOv8m少22%。这表明YOLO11在不影响精度的情况下,通过减少参数数量提高了计算效率。
  • 跨环境适应性:YOLO11可以无缝部署在各种环境中,包括边缘设备云平台以及支持NVIDIA GPU的系统。
    这种跨环境的适应性确保了YOLO11在各种应用场景中的灵活性和可用性。
  • 支持的任务范围广泛:YOLO11不仅支持对象检测任务,还支持实例分割、图像分类、姿态估计定向对象检测(OBB)等多种计算机视觉任务。这种多功能性使得YOLO11能够应对各种复杂的计算机视觉挑战。



模型架构


YOLO11的5种尺寸缩放模型包括:纳米(nano, n)、小(small , s)、(medium, m)、(large, l)和超大(extra-large, x)。这些模型在结构上是相似的,但它们的深度、宽度和最大通道数等参数有所不同,从而导致了它们在计算量、内存占用性能上的差异。

#backbone特征提取

通过观察YOLO11与YOLOv8的backbone部分可以发现,在模块组合上差别主要来源于:

  • C3k2模块替换了原有的C2f模块;

  • 增加了C2PSA模块;



  • C3k2模块

C3k2模块是YOLO11模型中的一种重要特征提取组件,通过代码可知,该模块是基于传统C3模块的改进设计。它通过结合可变卷积核(如3x3、5x5等)和通道分离策略,提供了更强大的特征提取能力。

C3k2模块通常将输入特征分为两部分,一部分通过普通的卷积操作直接传递,另一部分则通过多个C3K或Bottleneck结构进行深度特征提取。最终两部分特征进行拼接,并通过1x1卷积进行融合.


  • C2PSA模块

YOLO11中的C2PSA模块是该模型的核心创新之一。

C2PSA在前向传播过程中,首先分为a,b两部分进行计算(b部分也分为两部分,为了进行区分,按顺序命名为b1和b)。

  • a和b1首先经过cv1(1x1卷积层,将输入通道的数量减少到2*c)模块进行卷积操作,然后依据c(隐藏层通道数量)进行切分得到;

  • b是b1经过PSABlock的金字塔切片注意力机制得到,它通过构建金字塔结构,对输入特征进行多层次的切片处理,从而捕捉更丰富的上下文信息和特征细节;

  • 最后a、b通过cat拼接后,经过cv2(1x1卷积层,将输出通道的数量减少到c)模块完成前向传播过程。


#head特征融合

深度可分离卷积的应用:

YOLO11在head的cls分支上使用了深度可分离卷积,这种卷积方式有助于减少模型的计算量,同时保持较高的精度。通过减少冗余计算,YOLO11在保持性能的同时实现了更高的效率。




模型推理



YOLO11m在COCO数据集上实现了更高的平均精度(mAP)分数,而且其参数量相比YOLOv8m减少了22%,从而在保持卓越性能的同时,实现了更轻量的计算需求。


槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言



槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章