CIB-SE-YOLOv8: 优化的YOLOv8, 用于施工现场的安全设备实时检测 !

科技   2024-11-24 09:01   上海  

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

安全设备是确保建筑施工现场安全的关键组成部分,其中头盔尤为重要,能有效减少伤害和死亡。传统的监督和项目经理手动检查方法效率低下且劳动密集,往往无法预防因缺乏安全设备引发的事故。

为了解决这个问题,利用计算机视觉和深度学习的新方法已经被开发出来,特别是实时检测技术,即YOLO。

本研究利用公开的SHEL5K数据集进行头盔检测任务。提出的CIB-SE-YOLOv8模型在YOLOv8n的基础上,通过引入SE注意力机制和用C2TCIB块替换某些C2T块构建而成。

与YOLOv8n相比,作者的模型在mAP50方面取得了88.4%的分数,提高了3.2%。同时,作者的模型在精确度上提高了0.5%,在召回率上提高了3.9%,显著提升了头盔检测性能。

此外,提出的模型在参数方面有2.68百万,计算速度方面有7.6 GFLOPs,与YOLOv8n的3百万参数和8.1 GFLOPs相比,提供了更高效的实时检测任务解决方案,因此,它是一种更有效的提高建筑施工现场安全的方法。

I Introduction

建筑安全是建筑和相关行业的一个关键问题。确保所有建筑工人佩戴合适的安全设备,如安全帽,至关重要。然而,传统的由主管和项目经理手动监督的方法效率低下。利用计算机视觉和深度学习技术的新方法可以实现实时检测能力。当工人未佩戴安全帽时,配备计算机视觉技术的摄像头可以立即检测到这一情况,并向工人发出警报,同时向管理层报告事件。这种系统大大降低了受伤和其他与安全相关问题的风险。

在本论文中,作者首先在公开可用的数据集SHEL5k上比较了YOLOv5n和YOLOv8n在头盔检测任务上的性能,分别获得了mAP50分数为84.7%和85.2%。由于YOLOv8n在性能和推理时间方面表现更好,作者进一步通过引入SE注意力并替换部分C2f模块为C2fCIB模块来增强模型。

改进后的模型,称为CIB-SE-YOLOv8,在mAP50方面达到了88.4%,相较于YOLOv8n和YOLOv5n取得了显著的改进。此外,这种改进在减少模型参数和缩短推理时间的同时实现,使其成为建筑施工现场实时安全设备检测的优秀选择。

II Related Work

Machine Learning

机器学习(ML)如今在多个行业中得到了广泛应用。例如,数据安全[1],车辆分类[2],推荐系统[3],信用评分预测[4],以及3D物体的姿态估计[5],都是ML应用的典型例子。

Deep Learning

先进的深度学习技术已成为现代社会中不可或缺的部分,其应用领域包括交通流预测[6],图像分割[7],药品识别[8],情感分析[9],异构信息网络分类[10],以及脑肿瘤分割[11]。

Safety Equipment for Construction Site

安全设备,如头盔,在施工现场显著降低了创伤性脑损伤(TBI)和死亡的风险。佩戴头盔大大降低了受伤的可能性,特别是在工作相关摔倒的情况下。配备适当 Head 保护的工人相比没有头盔的工人,对严重 Head 伤害的抵抗力明显增强,突显了在施工现场使用头盔的重要性[12]。

Yolo

Ii-D1 YOLOv5

YOLOv5(仅一次查看,版本5)是Ultralytics团队发布的最新一代目标检测模型。相较于之前的YOLO架构,它进行了多项改进,包括使用修改后的CSPDarknet53后端网络,并引入了Stem层以降低计算成本,以及SPPF(空间金字塔池化快速)层进行高效的多尺度特征提取[13]。此外,它还集成了AutoAnchor算法,该算法优化了 Anchor 框,以提高检测性能[13]。

Ii-D2 YOLOv8

YOLOv8于2023年由Ultralytics发布,相对于之前的版本,它引入了几个更新。去 Anchor 设计和解耦头使得YOLOv8能够更好地处理复杂场景,并在小物体或重叠物体上提高性能[13]。C2f模块取代了CSPLayer,将高级特征与上下文信息相结合,从而提高检测精度[13]。YOLO模型在计算机视觉领域,无论是现实生活中还是虚拟现实(VR)中,都发挥着重要的作用[14][15]。

III Methodology

Dataset

SHEL5K [16] 是一个公开可用的数据集,在本研究中得到了应用。该数据集中的5000张图像被划分为训练、验证和测试集,比例为7:2:1。有两种标注类别:带有头盔的头15051个实例和没有头盔的头5690个实例。参考黄等人 [5] 的研究,选择了包含多样背景图像的SHEL5K数据集,这些图像模拟了各种环境,从而增强了模型在实际场景中的适应性。

Image Preprocessing

图像将被缩放到目标尺寸416x416。如果长宽比不是1:1,将通过镜像图像的边缘并复制附近像素来填充空白区域,以实现无缝效果。这个过程避免了空白或填充部分,并防止了图像的失真。图4中可以找到更多图像的示例。

Learning Rate and Epoch

本文中所有研究都采用随机梯度下降(SGD)优化器,学习率为0.01,动量为0.9。学习率控制每一步的调整大小,而动量提供更平滑的更新,以实现更快速的优化。

遵循黄等人[5]的方法,在连续10个epoch中未观察到验证性能的改进时,实现了一个耐心的停止机制。整个训练过程中,性能最好的模型被跟踪。这种方法有助于避免不必要的计算,同时防止欠拟合和过拟合。

YOLOv5n vs YOLOv8n

YOLOv5n和YOLOv8n分别达到了mAP50的84.7%和85.2%,其中YOLOv8n在mAP50上略有小幅提升。如表1所示,与YOLOv8n相比,YOLOv5n的精确率和召回率略高。尽管两个模型总体性能相当,但YOLOv8n的推理速度更快。

因此,YOLOv8n将在本研究中作为基准模型使用。

SE Attention Mechanism

挤压与激励(SE)注意力是引入到改进卷积神经网络(CNNs)性能的一个神经网络模块。它使得模型可以更专注于重要的特征图,同时参数量相对较小地增加了。SE注意力包含两个主要步骤:挤压和激励。在挤压步骤中,对所有特征图进行全局平均池化,得到一个通道描述符[17]。在激励步骤中,这个描述符通过两个全连接层(带非线性激活)和 sigmoid 函数[17]处理。然后将得到的尺度应用到原始特征图上,增强 CNN 关注最相关特征的能力[17]。关于 SE 注意力的架构的更多详细信息,请参见图1。

C2fCIB module

C2fCIB用Compact Inverted Block (CIB)模块替换C2f中的瓶 Neck ,同时保持整体结构。CIB是深度学习模型中高度高效的构建块[18]。此外,采用了一种排名引导策略,在牺牲性能的情况下最小化计算成本[18]。有关C2fCIB架构的更多信息,请参见图2。

Proposed Deep Learning Models

对于作者提出的模型CIB-SE-YOLOv8,作者使用YOLOv8作为基准模型。在 Backbone 网络中,作者在第6层和第8层的C2f模块被替换为C2fCIB模块。这增强了模型理解上下文并捕捉特征之间的空间关系的能力,使网络更精确地关注小物体,例如在作者的案例中,头盔。

此外,在第15层、第18层和第21层的C2f模块后,作者添加了SE注意力层。通过在小型、中型和大型特征图阶段引入SE注意力层,SE注意力帮助模型在将特征传递到检测层之前确定哪些特征最重要。更多信息请参见图3。

Ablation Study

通过将SE注意力机制引入并替换C2f块为C2fCIB块,模型的mAP50分别从85.2%提高到了87.8%和87.6%。这些改进证明了这些变化对模型性能的积极影响。进一步通过结合这两种变化,mAP50又获得了额外的提升,达到了88.4%。详细的结果请参阅表2。

Performance Measurements

平均精确率(mAP)、精确率和召回率是本研究中用于衡量性能的主要指标,而mAP50-95则作为补充指标。以下是精确率和召回率的公式,其中TP如图2所示:C2fCIB。

代表真正的阳性,FP代表假阳性,FN代表假阴性。

mAP(平均精度)是目标检测任务中一个重要的指标,用于衡量模型在所有类别上的效果。
它计算每个类别下的精确度-召回曲线下的面积,较高的mAP表示在精确度和召回率之间达到更好的平衡,反映了模型在准确检测和分类物体方面的有效性。mAP50是在交并比(IoU)阈值为0.5时计算的平均精度,这意味着如果预测的边界框与真实边界框重叠至少0.5,则认为预测正确。对于mAP,相应的公式如下,其中N是类别数量,AP表示每个类别的平均精度。AP评估精确度-召回曲线下的面积,表示模型在特定类别上的性能。

YOLOv8n:

YOLOv8n是一种用于实时目标检测的深度学习模型。它是在YOLOv7的基础上进行改进的,采用了新的卷积神经网络架构和损失函数,从而在保持实时检测速度的同时,提高了检测精度和鲁棒性。

与YOLOv7相比,YOLOv8n在检测小物体、检测多个目标、检测不同姿态和光照条件下的物体等方面都取得了更好的性能。此外,YOLOv8n还支持在线部署,可以在移动设备和边缘计算平台上实现实时目标检测。

IV Evaluation and Discussion of Results

CIB-SE-YOLOv8与基础YOLOv8模型相比,在精确度上提高了0.5%,召回率提高了3.9%,mAP50提高了3.2%,mAP50-95提高了3.9%。此外,作者提出的模型参数数量减少,具有2,683,222个参数和7.6 GFLOPs,而YOLOv8具有3,006,038个参数和8.1 GFLOPs。

YOLOv8n:

这些结果表明,CIB-SE-YOLOv8不仅提供了增强的性能,还在参数和计算负载方面实现了更高的效率,使其非常适合头盔检测任务。从图4可以看出,作者提出的模型在左图上的预测准确性更高。在右图上,作者的模型正确地识别出了两顶头盔,而没有将背景误认为是 Head 。从图5的Precision-Recall曲线对比可以看出,作者模型的改进。

此外,YOLOv8n能够在大多数GPU上实现实时检测,保持每秒30帧以上的性能。在CPU上,可以通过选择性地处理较少的帧来实现实时检测。

此外,CIB-SE-YOLOv8具有减少的参数数量和较低的GFLOPs,使其在实时检测任务上提供了更高的效率,特别适合作者的施工现场头盔检测场景。

V Conclusion

CIB-SE-YOLOv8相较于YOLOv8n在各项指标上都有显著的提升,包括精确度、召回率和平均精度(mAP),同时参数规模更小,GFLOPs运算速度更快。

这些改进极大地提高了在建筑工地上实时检测安全头盔的效率。

该模型实现了24/7的监控,显著减轻了监理或项目经理的工作负担。

此外,它通过迅速识别并警告未佩戴如安全头盔等防护装备的个体,有助于减少受伤或死亡的风险,从而提升了整个工地的安全性。

参考文献

[0]. CIB-SE-YOLOv8: Optimized YOLOv8 for Real-Time Safety Equipment Detection on Construction Sites.

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」


集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
 最新文章