github地址:https: //github.com/ultralytics/ultralytics
相较于前代YOLOv8,YOLO11在保持卓越性能的同时,实现了参数数量的显著减少,检测效果却更上一层楼。这一突破性进展预示着YOLO11在边缘设备上的运行将更为高效、快速,无疑将在计算机视觉领域的最先进技术(SOTA)中占据一席之地。
主要改进
增强的特征提取:YOLO11采用了改进的主干(backbone)和头部(head)架构,显著增强了特征提取能力。具体而言,backbone部分将YOLOv8的C2f模块替换成了YOLO11的C3k2模块,并在YOLOv8的SPPF模块后新增了C2PSA模块。C3k2模块集成了C2f和C3模块的组合,而C2PSA模块则是一个由两个卷积层和一个多头自注意力模块组成的结构,用于进一步增强特征提取能力。 优化的效率和速度:YOLO11引入了精致的架构设计和优化的训练流程,以提供更快的处理速度。通过这些改进,YOLO11在保持准确性和性能之间平衡的同时,实现了更快的处理速度。 使用更少的参数获得更高的精度:YOLO11m在COCO数据集上实现了更高的平均准确度(mAP),同时使用的参数比YOLOv8m少22%。这表明YOLO11在不影响精度的情况下,通过减少参数数量提高了计算效率。 跨环境适应性:YOLO11可以无缝部署在各种环境中,包括边缘设备、云平台以及支持NVIDIA GPU的系统。
这种跨环境的适应性确保了YOLO11在各种应用场景中的灵活性和可用性。
支持的任务范围广泛:YOLO11不仅支持对象检测任务,还支持实例分割、图像分类、姿态估计和定向对象检测(OBB)等多种计算机视觉任务。这种多功能性使得YOLO11能够应对各种复杂的计算机视觉挑战。
模型架构
YOLO11的5种尺寸缩放模型包括:纳米(nano, n)、小(small , s)、中(medium, m)、大(large, l)和超大(extra-large, x)。这些模型在结构上是相似的,但它们的深度、宽度和最大通道数等参数有所不同,从而导致了它们在计算量、内存占用和性能上的差异。
#backbone特征提取
通过观察YOLO11与YOLOv8的backbone部分可以发现,在模块组合上差别主要来源于:
C3k2模块替换了原有的C2f模块;
增加了C2PSA模块;
C3k2模块
C3k2模块是YOLO11模型中的一种重要特征提取组件,通过代码可知,该模块是基于传统C3模块的改进设计。它通过结合可变卷积核(如3x3、5x5等)和通道分离策略,提供了更强大的特征提取能力。
C3k2模块通常将输入特征分为两部分,一部分通过普通的卷积操作直接传递,另一部分则通过多个C3K或Bottleneck结构进行深度特征提取。最终两部分特征进行拼接,并通过1x1卷积进行融合.
C2PSA模块
C2PSA在前向传播过程中,首先分为a,b两部分进行计算(b部分也分为两部分,为了进行区分,按顺序命名为b1和b)。
a和b1首先经过cv1(1x1卷积层,将输入通道的数量减少到2*c)模块进行卷积操作,然后依据c(隐藏层通道数量)进行切分得到;
b是b1经过PSABlock的金字塔切片注意力机制得到,它通过构建金字塔结构,对输入特征进行多层次的切片处理,从而捕捉更丰富的上下文信息和特征细节;
最后a、b通过cat拼接后,经过cv2(1x1卷积层,将输出通道的数量减少到c)模块完成前向传播过程。
#head特征融合
深度可分离卷积的应用:
YOLO11在head的cls分支上使用了深度可分离卷积,这种卷积方式有助于减少模型的计算量,同时保持较高的精度。通过减少冗余计算,YOLO11在保持性能的同时实现了更高的效率。
模型推理
YOLO11m在COCO数据集上实现了更高的平均精度(mAP)分数,而且其参数量相比YOLOv8m减少了22%,从而在保持卓越性能的同时,实现了更轻量的计算需求。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言