YOLOv11 架构改进 & 常见指令

科技 2024-10-30 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

今天我们介绍 YOLOv11，这个系列中的最新成员。YOLO 是一个在目标检测领域几乎无与伦比的算法，它产生了非常成功的结果。这个算法系列在 YOLOv5 之后由 Ultralytics 继续开发，并且每个新模型都带来了更好的性能。

YOLOv11 是 Ultralytics 开发的最新 YOLO 模型。这个模型在执行实时目标检测时，继续平衡准确性和效率。在之前的 YOLO 版本基础上，YOLO11 在架构和训练上提供了显著的改进。在保持速度的同时提高性能的最重要的架构变化是增加了 C3K2 块、SPFF 模块和 C2PSA 块。

C3K2 块：这是在以前版本中引入的 CSP（Cross Stage Partial）块的增强。该模块使用不同的核大小（例如 3x3 或 5x5）和通道分离策略来优化更复杂特征的提取。
SPFF（Spatial Pyramid Pooling Fusion）模块：它是 YOLO 版本中使用的 SPP（Spatial Pyramid Pooling）模块的优化版本。该模块允许模型通过捕获不同尺度的物体属性来更好地执行。
C2PSA 块：这个块通过结合通道和空间信息提供更有效的特征提取。它还与多头注意力机制一起工作，从而实现对物体更准确的感知。它优化了前一层的特征图，并用注意力机制丰富它们，以提高模型的性能。这种结构使得在复杂场景中更精确的检测成为可能，并提高了 YOLOv11 的准确性。

除了这些架构变化，YOLOv11 像 YOLOv8 一样具有多模型能力。得益于其多模型特性，YOLOv11 可以执行以下任务：

目标检测：在图像中识别和定位物体。
实例分割：检测物体并确定它们的边界。
分类：将图像分类到预定义的类别中。
姿态估计：检测和跟踪人体上的标志点。
定向目标检测（OBB）：检测旋转物体以提高灵敏度。

在我们开始使用之前，让我们谈谈新 YOLO 版本带来的特性。

现有的主干结构已经被 C3K2 块替换，以提高特征提取能力。
颈部结构已经用 SPFF 模块改进，以捕获不同大小的物体并更好地检测小物体。
增加了 C2PSA 块，专注于更小或部分遮挡物体中的重要区域。
通过多模型能力增加了任务数量。
更容易适应各种环境，包括边缘设备。
得益于其优化的架构和高效的处理能力，它可以部署在边缘设备、云平台和支持 NVIDIA GPU 的系统上。

由于这些优化和创新，YOLOv11 在实时应用中提供了性能提升。模型运行更快、更准确，提高了目标检测、样本分割和姿态估计等任务的效率。此外，兼容性得到了改善，使模型可以轻松地在不同的平台和硬件上运行（例如云或边缘设备）。在 Ultralytics （详见官网：https://docs.ultralytics.com/models/yolo11/）页面上，当他们评估 YOLOv11 与以前版本相比的性能时，他们发表了以下评论。

随着模型设计的改进，YOLO11m 在使用比 YOLOv8m 少 22% 参数的情况下，在 COCO 数据集上实现了更高的平均精度均值（mAP），使其在不牺牲准确性的情况下具有计算效率。

然而，尽管 YOLOv11 模型的性能很好并且提供了广泛的范围，但在目标检测方面，它并不像 YOLOv10 那样成功。尽管 YOLOv10 有更多的参数，YOLOv11 只实现了微小的差异（+0.1-0.5）的更好性能。在这种情况下，YOLOv10 可能仍然是我们的偏好，因为参数的过剩导致速度损失和成本。

使用 YOLOv11

使用 PyTorch 构建 YOLOv11 模型及其与其他模式的使用简要如下。

步骤 1：首先，我们需要下载 Ultralytics 库。有了这个库，我们可以运行从 YOLOv3 到 YOLOv11 的所有模型。

pip install ultralytics

步骤 2：如果你只想在一个训练好的模型中进行预测。以下代码就足够了。否则你可以跳过它。

yolo predict model=yolo11n.pt source='https://ultralytics.com/images/bus.jpg'py

步骤 3：如果你说不，我想训练我的模型，你可以选择你想要的模型并下载 .pt 文件。

from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n modelmodel = YOLO("yolo11n.pt")

步骤 4：然后你需要选择训练数据、训练epoch、图像大小和你的设备。

train_results = model.train(    data="coco8.yaml",  # path to dataset YAML    epochs=100,  # number of training epochs    imgsz=640,  # training image size    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device=cpu)

步骤 5：你需要用验证数据评估和测试模型。它将验证数据从训练数据本身中分离出来，对于测试，你只需要提供你想要测试的图像的路径。

metrics = model.val()
results = model("path/to/image.jpg")results[0].show()

步骤 6：在最后一步，我们可以导出你的模型，以便以后再次使用。如果你想用你自己的模型进行预测，只需使用步骤-2。

path = model.export(format="onnx")

YOLOv11 常用操作指令

用你自己的数据训练你的目标检测模型，具有特定的学习率和epoch：

yolo train data=coco8.yaml model=yolo11n.pt epochs=10 lr0=0.01

对于模型验证：

yolo val model=yolo11n.pt data=coco8.yaml batch=1 imgsz=640

在 YouTube 视频上测试模型的结果，图像大小为 320：

yolo predict model=yolo11n.pt source='https://youtu.be/LNwODJXcvt4' imgsz=320

使用预训练的分割模型在 YouTube 视频上预测，图像大小为 320：

yolo segment predict model=yolo11n-seg.pt source='https://youtu.be/LNwODJXcvt4' imgsz=320

将你特别训练的模型导出为 .pt 扩展名：

yolo export model=path/to/best.pt format=onnx

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625991&idx=2&sn=b3f08fa50f60e46505080befdce0f119

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 厦门大学人工智能研究院计算机视觉方向博士招生

Python中进行特征重要性分析的9个常用方法

6 年半亏掉 528 亿的某汤，用裁员开启下一个十年。

算法工程师大致是做什么的？

labelGo：基于 YOLOv5 的辅助标注工具

作为审稿人，你什么情况下会选择拒稿？

用不需要手工标注分割的训练数据来进行图像分割

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

YOLO 系列目标检测大合集

最全深度学习训练过程可视化工具（附github源码）

ResNet到底在解决一个什么问题呢？

最后机会！2024年剩余EI检索学术会议时间表大揭秘！

【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

ResNet是否只是一个深度学习的trick？

Python图像处理:频域滤波降噪和图像增强

一文读懂模型的可解释性（附代码）

YOLOv11 架构改进 & 常见指令

顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建

AI，正在疯狂污染中文互联网

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

CNN 的一些可视化方法！

遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

Linux常用命令大全 | 176个

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

顶刊解读 TGRS | 用于半监督旋转目标检测的伪孪生教师模型

OpenCV 也可以检测、跟踪移动物体

医学图像数据读取及预处理方法总结

传统图像处理还有前景么？

Pytorch里面多任务Loss是加起来还是分别backward？

Python并行编程？

一种基于计算机视觉和深度学习的番茄外部缺陷检测方法

PyCharm vs VSCode，是时候改变你的 IDE 了！

C++ OpenCV实现图像去阴影

这17 种方法让 PyTorch 训练速度更快！

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

CNN是不是一种局部self-attention？

一份微调YOLOv11的小指南

Transformer小目标检测

PyTorch可复现/重复实验的相关设置

245个目标检测开源项目合集，建议收藏！

【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制，实现精准车牌检测

论文解读 | EATFormer：受进化算法启发改进视觉Transformer

直线检测算法汇总

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

医图顶会 MICCAI'24 | LKM-UNet: 用于医学图像分割的大内核视觉Mamba UNet

总结 | 半监督目标检测

Numpy中数组和矩阵操作的数学函数

完爆YOLO家族？新一代目标检测器又有新突破！

顶刊MIA'24 | 用于图像分割的双坐标交叉注意力Transformer

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉