点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
安全设备是确保建筑施工现场安全的关键组成部分,其中头盔尤为重要,能有效减少伤害和死亡。传统的监督和项目经理手动检查方法效率低下且劳动密集,往往无法预防因缺乏安全设备引发的事故。
为了解决这个问题,利用计算机视觉和深度学习的新方法已经被开发出来,特别是实时检测技术,即YOLO。
本研究利用公开的SHEL5K数据集进行头盔检测任务。提出的CIB-SE-YOLOv8模型在YOLOv8n的基础上,通过引入SE注意力机制和用C2TCIB块替换某些C2T块构建而成。
与YOLOv8n相比,作者的模型在mAP50方面取得了88.4%的分数,提高了3.2%。同时,作者的模型在精确度上提高了0.5%,在召回率上提高了3.9%,显著提升了头盔检测性能。
此外,提出的模型在参数方面有2.68百万,计算速度方面有7.6 GFLOPs,与YOLOv8n的3百万参数和8.1 GFLOPs相比,提供了更高效的实时检测任务解决方案,因此,它是一种更有效的提高建筑施工现场安全的方法。
I Introduction
建筑安全是建筑和相关行业的一个关键问题。确保所有建筑工人佩戴合适的安全设备,如安全帽,至关重要。然而,传统的由主管和项目经理手动监督的方法效率低下。利用计算机视觉和深度学习技术的新方法可以实现实时检测能力。当工人未佩戴安全帽时,配备计算机视觉技术的摄像头可以立即检测到这一情况,并向工人发出警报,同时向管理层报告事件。这种系统大大降低了受伤和其他与安全相关问题的风险。
在本论文中,作者首先在公开可用的数据集SHEL5k上比较了YOLOv5n和YOLOv8n在头盔检测任务上的性能,分别获得了mAP50分数为84.7%和85.2%。由于YOLOv8n在性能和推理时间方面表现更好,作者进一步通过引入SE注意力并替换部分C2f模块为C2fCIB模块来增强模型。
改进后的模型,称为CIB-SE-YOLOv8,在mAP50方面达到了88.4%,相较于YOLOv8n和YOLOv5n取得了显著的改进。此外,这种改进在减少模型参数和缩短推理时间的同时实现,使其成为建筑施工现场实时安全设备检测的优秀选择。
II Related Work
Machine Learning
机器学习(ML)如今在多个行业中得到了广泛应用。例如,数据安全[1],车辆分类[2],推荐系统[3],信用评分预测[4],以及3D物体的姿态估计[5],都是ML应用的典型例子。
Deep Learning
先进的深度学习技术已成为现代社会中不可或缺的部分,其应用领域包括交通流预测[6],图像分割[7],药品识别[8],情感分析[9],异构信息网络分类[10],以及脑肿瘤分割[11]。
Safety Equipment for Construction Site
安全设备,如头盔,在施工现场显著降低了创伤性脑损伤(TBI)和死亡的风险。佩戴头盔大大降低了受伤的可能性,特别是在工作相关摔倒的情况下。配备适当 Head 保护的工人相比没有头盔的工人,对严重 Head 伤害的抵抗力明显增强,突显了在施工现场使用头盔的重要性[12]。
Yolo
Ii-D1 YOLOv5
YOLOv5(仅一次查看,版本5)是Ultralytics团队发布的最新一代目标检测模型。相较于之前的YOLO架构,它进行了多项改进,包括使用修改后的CSPDarknet53后端网络,并引入了Stem层以降低计算成本,以及SPPF(空间金字塔池化快速)层进行高效的多尺度特征提取[13]。此外,它还集成了AutoAnchor算法,该算法优化了 Anchor 框,以提高检测性能[13]。
Ii-D2 YOLOv8
YOLOv8于2023年由Ultralytics发布,相对于之前的版本,它引入了几个更新。去 Anchor 设计和解耦头使得YOLOv8能够更好地处理复杂场景,并在小物体或重叠物体上提高性能[13]。C2f模块取代了CSPLayer,将高级特征与上下文信息相结合,从而提高检测精度[13]。YOLO模型在计算机视觉领域,无论是现实生活中还是虚拟现实(VR)中,都发挥着重要的作用[14][15]。
III Methodology
Dataset
SHEL5K [16] 是一个公开可用的数据集,在本研究中得到了应用。该数据集中的5000张图像被划分为训练、验证和测试集,比例为7:2:1。有两种标注类别:带有头盔的头15051个实例和没有头盔的头5690个实例。参考黄等人 [5] 的研究,选择了包含多样背景图像的SHEL5K数据集,这些图像模拟了各种环境,从而增强了模型在实际场景中的适应性。
Image Preprocessing
图像将被缩放到目标尺寸416x416。如果长宽比不是1:1,将通过镜像图像的边缘并复制附近像素来填充空白区域,以实现无缝效果。这个过程避免了空白或填充部分,并防止了图像的失真。图4中可以找到更多图像的示例。
Learning Rate and Epoch
本文中所有研究都采用随机梯度下降(SGD)优化器,学习率为0.01,动量为0.9。学习率控制每一步的调整大小,而动量提供更平滑的更新,以实现更快速的优化。
遵循黄等人[5]的方法,在连续10个epoch中未观察到验证性能的改进时,实现了一个耐心的停止机制。整个训练过程中,性能最好的模型被跟踪。这种方法有助于避免不必要的计算,同时防止欠拟合和过拟合。
YOLOv5n vs YOLOv8n
YOLOv5n和YOLOv8n分别达到了mAP50的84.7%和85.2%,其中YOLOv8n在mAP50上略有小幅提升。如表1所示,与YOLOv8n相比,YOLOv5n的精确率和召回率略高。尽管两个模型总体性能相当,但YOLOv8n的推理速度更快。
因此,YOLOv8n将在本研究中作为基准模型使用。
SE Attention Mechanism
挤压与激励(SE)注意力是引入到改进卷积神经网络(CNNs)性能的一个神经网络模块。它使得模型可以更专注于重要的特征图,同时参数量相对较小地增加了。SE注意力包含两个主要步骤:挤压和激励。在挤压步骤中,对所有特征图进行全局平均池化,得到一个通道描述符[17]。在激励步骤中,这个描述符通过两个全连接层(带非线性激活)和 sigmoid 函数[17]处理。然后将得到的尺度应用到原始特征图上,增强 CNN 关注最相关特征的能力[17]。关于 SE 注意力的架构的更多详细信息,请参见图1。
C2fCIB module
C2fCIB用Compact Inverted Block (CIB)模块替换C2f中的瓶 Neck ,同时保持整体结构。CIB是深度学习模型中高度高效的构建块[18]。此外,采用了一种排名引导策略,在牺牲性能的情况下最小化计算成本[18]。有关C2fCIB架构的更多信息,请参见图2。
Proposed Deep Learning Models
对于作者提出的模型CIB-SE-YOLOv8,作者使用YOLOv8作为基准模型。在 Backbone 网络中,作者在第6层和第8层的C2f模块被替换为C2fCIB模块。这增强了模型理解上下文并捕捉特征之间的空间关系的能力,使网络更精确地关注小物体,例如在作者的案例中,头盔。
此外,在第15层、第18层和第21层的C2f模块后,作者添加了SE注意力层。通过在小型、中型和大型特征图阶段引入SE注意力层,SE注意力帮助模型在将特征传递到检测层之前确定哪些特征最重要。更多信息请参见图3。
Ablation Study
通过将SE注意力机制引入并替换C2f块为C2fCIB块,模型的mAP50分别从85.2%提高到了87.8%和87.6%。这些改进证明了这些变化对模型性能的积极影响。进一步通过结合这两种变化,mAP50又获得了额外的提升,达到了88.4%。详细的结果请参阅表2。
Performance Measurements
平均精确率(mAP)、精确率和召回率是本研究中用于衡量性能的主要指标,而mAP50-95则作为补充指标。以下是精确率和召回率的公式,其中TP如图2所示:C2fCIB。
代表真正的阳性,FP代表假阳性,FN代表假阴性。
YOLOv8n:
YOLOv8n是一种用于实时目标检测的深度学习模型。它是在YOLOv7的基础上进行改进的,采用了新的卷积神经网络架构和损失函数,从而在保持实时检测速度的同时,提高了检测精度和鲁棒性。
与YOLOv7相比,YOLOv8n在检测小物体、检测多个目标、检测不同姿态和光照条件下的物体等方面都取得了更好的性能。此外,YOLOv8n还支持在线部署,可以在移动设备和边缘计算平台上实现实时目标检测。
IV Evaluation and Discussion of Results
CIB-SE-YOLOv8与基础YOLOv8模型相比,在精确度上提高了0.5%,召回率提高了3.9%,mAP50提高了3.2%,mAP50-95提高了3.9%。此外,作者提出的模型参数数量减少,具有2,683,222个参数和7.6 GFLOPs,而YOLOv8具有3,006,038个参数和8.1 GFLOPs。
YOLOv8n:
这些结果表明,CIB-SE-YOLOv8不仅提供了增强的性能,还在参数和计算负载方面实现了更高的效率,使其非常适合头盔检测任务。从图4可以看出,作者提出的模型在左图上的预测准确性更高。在右图上,作者的模型正确地识别出了两顶头盔,而没有将背景误认为是 Head 。从图5的Precision-Recall曲线对比可以看出,作者模型的改进。
此外,YOLOv8n能够在大多数GPU上实现实时检测,保持每秒30帧以上的性能。在CPU上,可以通过选择性地处理较少的帧来实现实时检测。
此外,CIB-SE-YOLOv8具有减少的参数数量和较低的GFLOPs,使其在实时检测任务上提供了更高的效率,特别适合作者的施工现场头盔检测场景。
V Conclusion
CIB-SE-YOLOv8相较于YOLOv8n在各项指标上都有显著的提升,包括精确度、召回率和平均精度(mAP),同时参数规模更小,GFLOPs运算速度更快。
这些改进极大地提高了在建筑工地上实时检测安全头盔的效率。
该模型实现了24/7的监控,显著减轻了监理或项目经理的工作负担。
此外,它通过迅速识别并警告未佩戴如安全头盔等防护装备的个体,有助于减少受伤或死亡的风险,从而提升了整个工地的安全性。
参考文献
[0]. CIB-SE-YOLOv8: Optimized YOLOv8 for Real-Time Safety Equipment Detection on Construction Sites.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)