CIB-SE-YOLOv8: 优化的YOLOv8, 用于施工现场的安全设备实时检测 !

科技 2024-11-24 09:01 上海

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

安全设备是确保建筑施工现场安全的关键组成部分，其中头盔尤为重要，能有效减少伤害和死亡。传统的监督和项目经理手动检查方法效率低下且劳动密集，往往无法预防因缺乏安全设备引发的事故。
为了解决这个问题，利用计算机视觉和深度学习的新方法已经被开发出来，特别是实时检测技术，即YOLO。
本研究利用公开的SHEL5K数据集进行头盔检测任务。提出的CIB-SE-YOLOv8模型在YOLOv8n的基础上，通过引入SE注意力机制和用C2TCIB块替换某些C2T块构建而成。
与YOLOv8n相比，作者的模型在mAP50方面取得了88.4%的分数，提高了3.2%。同时，作者的模型在精确度上提高了0.5%，在召回率上提高了3.9%，显著提升了头盔检测性能。
此外，提出的模型在参数方面有2.68百万，计算速度方面有7.6 GFLOPs，与YOLOv8n的3百万参数和8.1 GFLOPs相比，提供了更高效的实时检测任务解决方案，因此，它是一种更有效的提高建筑施工现场安全的方法。

I Introduction

建筑安全是建筑和相关行业的一个关键问题。确保所有建筑工人佩戴合适的安全设备，如安全帽，至关重要。然而，传统的由主管和项目经理手动监督的方法效率低下。利用计算机视觉和深度学习技术的新方法可以实现实时检测能力。当工人未佩戴安全帽时，配备计算机视觉技术的摄像头可以立即检测到这一情况，并向工人发出警报，同时向管理层报告事件。这种系统大大降低了受伤和其他与安全相关问题的风险。

在本论文中，作者首先在公开可用的数据集SHEL5k上比较了YOLOv5n和YOLOv8n在头盔检测任务上的性能，分别获得了mAP50分数为84.7%和85.2%。由于YOLOv8n在性能和推理时间方面表现更好，作者进一步通过引入SE注意力并替换部分C2f模块为C2fCIB模块来增强模型。

改进后的模型，称为CIB-SE-YOLOv8，在mAP50方面达到了88.4%，相较于YOLOv8n和YOLOv5n取得了显著的改进。此外，这种改进在减少模型参数和缩短推理时间的同时实现，使其成为建筑施工现场实时安全设备检测的优秀选择。

II Related Work

Machine Learning

机器学习（ML）如今在多个行业中得到了广泛应用。例如，数据安全[1]，车辆分类[2]，推荐系统[3]，信用评分预测[4]，以及3D物体的姿态估计[5]，都是ML应用的典型例子。

Deep Learning

先进的深度学习技术已成为现代社会中不可或缺的部分，其应用领域包括交通流预测[6]，图像分割[7]，药品识别[8]，情感分析[9]，异构信息网络分类[10]，以及脑肿瘤分割[11]。

Safety Equipment for Construction Site

安全设备，如头盔，在施工现场显著降低了创伤性脑损伤（TBI）和死亡的风险。佩戴头盔大大降低了受伤的可能性，特别是在工作相关摔倒的情况下。配备适当 Head 保护的工人相比没有头盔的工人，对严重 Head 伤害的抵抗力明显增强，突显了在施工现场使用头盔的重要性[12]。

Yolo

Ii-D1 YOLOv5

YOLOv5（仅一次查看，版本5）是Ultralytics团队发布的最新一代目标检测模型。相较于之前的YOLO架构，它进行了多项改进，包括使用修改后的CSPDarknet53后端网络，并引入了Stem层以降低计算成本，以及SPPF（空间金字塔池化快速）层进行高效的多尺度特征提取[13]。此外，它还集成了AutoAnchor算法，该算法优化了 Anchor 框，以提高检测性能[13]。

Ii-D2 YOLOv8

YOLOv8于2023年由Ultralytics发布，相对于之前的版本，它引入了几个更新。去 Anchor 设计和解耦头使得YOLOv8能够更好地处理复杂场景，并在小物体或重叠物体上提高性能[13]。C2f模块取代了CSPLayer，将高级特征与上下文信息相结合，从而提高检测精度[13]。YOLO模型在计算机视觉领域，无论是现实生活中还是虚拟现实（VR）中，都发挥着重要的作用[14][15]。

III Methodology

Dataset

SHEL5K [16] 是一个公开可用的数据集，在本研究中得到了应用。该数据集中的5000张图像被划分为训练、验证和测试集，比例为7:2:1。有两种标注类别：带有头盔的头15051个实例和没有头盔的头5690个实例。参考黄等人 [5] 的研究，选择了包含多样背景图像的SHEL5K数据集，这些图像模拟了各种环境，从而增强了模型在实际场景中的适应性。

Image Preprocessing

图像将被缩放到目标尺寸416x416。如果长宽比不是1:1，将通过镜像图像的边缘并复制附近像素来填充空白区域，以实现无缝效果。这个过程避免了空白或填充部分，并防止了图像的失真。图4中可以找到更多图像的示例。

Learning Rate and Epoch

本文中所有研究都采用随机梯度下降（SGD）优化器，学习率为0.01，动量为0.9。学习率控制每一步的调整大小，而动量提供更平滑的更新，以实现更快速的优化。

遵循黄等人[5]的方法，在连续10个epoch中未观察到验证性能的改进时，实现了一个耐心的停止机制。整个训练过程中，性能最好的模型被跟踪。这种方法有助于避免不必要的计算，同时防止欠拟合和过拟合。

YOLOv5n vs YOLOv8n

YOLOv5n和YOLOv8n分别达到了mAP50的84.7%和85.2%，其中YOLOv8n在mAP50上略有小幅提升。如表1所示，与YOLOv8n相比，YOLOv5n的精确率和召回率略高。尽管两个模型总体性能相当，但YOLOv8n的推理速度更快。

因此，YOLOv8n将在本研究中作为基准模型使用。

SE Attention Mechanism

挤压与激励（SE）注意力是引入到改进卷积神经网络（CNNs）性能的一个神经网络模块。它使得模型可以更专注于重要的特征图，同时参数量相对较小地增加了。SE注意力包含两个主要步骤：挤压和激励。在挤压步骤中，对所有特征图进行全局平均池化，得到一个通道描述符[17]。在激励步骤中，这个描述符通过两个全连接层（带非线性激活）和 sigmoid 函数[17]处理。然后将得到的尺度应用到原始特征图上，增强 CNN 关注最相关特征的能力[17]。关于 SE 注意力的架构的更多详细信息，请参见图1。

C2fCIB module

C2fCIB用Compact Inverted Block (CIB)模块替换C2f中的瓶 Neck ，同时保持整体结构。CIB是深度学习模型中高度高效的构建块[18]。此外，采用了一种排名引导策略，在牺牲性能的情况下最小化计算成本[18]。有关C2fCIB架构的更多信息，请参见图2。

Proposed Deep Learning Models

对于作者提出的模型CIB-SE-YOLOv8，作者使用YOLOv8作为基准模型。在 Backbone 网络中，作者在第6层和第8层的C2f模块被替换为C2fCIB模块。这增强了模型理解上下文并捕捉特征之间的空间关系的能力，使网络更精确地关注小物体，例如在作者的案例中，头盔。

此外，在第15层、第18层和第21层的C2f模块后，作者添加了SE注意力层。通过在小型、中型和大型特征图阶段引入SE注意力层，SE注意力帮助模型在将特征传递到检测层之前确定哪些特征最重要。更多信息请参见图3。

Ablation Study

通过将SE注意力机制引入并替换C2f块为C2fCIB块，模型的mAP50分别从85.2%提高到了87.8%和87.6%。这些改进证明了这些变化对模型性能的积极影响。进一步通过结合这两种变化，mAP50又获得了额外的提升，达到了88.4%。详细的结果请参阅表2。

Performance Measurements

平均精确率（mAP）、精确率和召回率是本研究中用于衡量性能的主要指标，而mAP50-95则作为补充指标。以下是精确率和召回率的公式，其中TP如图2所示：C2fCIB。

代表真正的阳性，FP代表假阳性，FN代表假阴性。

mAP（平均精度）是目标检测任务中一个重要的指标，用于衡量模型在所有类别上的效果。

它计算每个类别下的精确度-召回曲线下的面积，较高的mAP表示在精确度和召回率之间达到更好的平衡，反映了模型在准确检测和分类物体方面的有效性。mAP50是在交并比（IoU）阈值为0.5时计算的平均精度，这意味着如果预测的边界框与真实边界框重叠至少0.5，则认为预测正确。对于mAP，相应的公式如下，其中N是类别数量，AP表示每个类别的平均精度。AP评估精确度-召回曲线下的面积，表示模型在特定类别上的性能。

YOLOv8n:

YOLOv8n是一种用于实时目标检测的深度学习模型。它是在YOLOv7的基础上进行改进的,采用了新的卷积神经网络架构和损失函数,从而在保持实时检测速度的同时,提高了检测精度和鲁棒性。

与YOLOv7相比,YOLOv8n在检测小物体、检测多个目标、检测不同姿态和光照条件下的物体等方面都取得了更好的性能。此外,YOLOv8n还支持在线部署,可以在移动设备和边缘计算平台上实现实时目标检测。

IV Evaluation and Discussion of Results

CIB-SE-YOLOv8与基础YOLOv8模型相比，在精确度上提高了0.5%，召回率提高了3.9%，mAP50提高了3.2%，mAP50-95提高了3.9%。此外，作者提出的模型参数数量减少，具有2,683,222个参数和7.6 GFLOPs，而YOLOv8具有3,006,038个参数和8.1 GFLOPs。

YOLOv8n:

这些结果表明，CIB-SE-YOLOv8不仅提供了增强的性能，还在参数和计算负载方面实现了更高的效率，使其非常适合头盔检测任务。从图4可以看出，作者提出的模型在左图上的预测准确性更高。在右图上，作者的模型正确地识别出了两顶头盔，而没有将背景误认为是 Head 。从图5的Precision-Recall曲线对比可以看出，作者模型的改进。

此外，YOLOv8n能够在大多数GPU上实现实时检测，保持每秒30帧以上的性能。在CPU上，可以通过选择性地处理较少的帧来实现实时检测。

此外，CIB-SE-YOLOv8具有减少的参数数量和较低的GFLOPs，使其在实时检测任务上提供了更高的效率，特别适合作者的施工现场头盔检测场景。

V Conclusion

CIB-SE-YOLOv8相较于YOLOv8n在各项指标上都有显著的提升，包括精确度、召回率和平均精度（mAP），同时参数规模更小，GFLOPs运算速度更快。

这些改进极大地提高了在建筑工地上实时检测安全头盔的效率。

该模型实现了24/7的监控，显著减轻了监理或项目经理的工作负担。

此外，它通过迅速识别并警告未佩戴如安全头盔等防护装备的个体，有助于减少受伤或死亡的风险，从而提升了整个工地的安全性。

参考文献

[0]. CIB-SE-YOLOv8: Optimized YOLOv8 for Real-Time Safety Equipment Detection on Construction Sites.

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

http://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247525356&idx=1&sn=361e503dbf86108fbf9d7b68ff5bb5c8

集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

最新文章

年薪百万or惨遭裁员，AIGC开发者如何破局？

APE vs RPR，改进3D图像检测，在标志点检索和定位任务中达到 SOTA性能！

CIB-SE-YOLOv8: 优化的YOLOv8, 用于施工现场的安全设备实时检测 !

华中科技 & 北航 & 清华 & 上海 AI Lab 提出 BIG.LITTLE Transformer ，用于高效视觉识别！

遮挡处理的突破：CoTracker3离线模式下的点跟踪创新！

HRPVT: 用于人体姿态估计的高分辨率金字塔视觉变换器 (Pyramid VisionTransformer) !

上海AI Lab/北大/港中文提出 AdaptivelSP 学习用于目标检测的自适应图像信号处理器！

快速学会AI核心架构，Transformer！

电子科大提出注意力机制创新，改进 MobileViT变体在早期降采样阶段的注意力 QKV 操作研究！

台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型！

清华大学提出 TANet 用于综合恶劣天气图像复原的三重注意网络！

YOLA: 利用 Lambertian 图像形成模型提升低光目标检测性能！

TransformerRanker 高效地为下游分类任务找到最适合的语言模型的工具！

通过重叠头自注意力增强视觉 Transformer 的学习能力！

OWOD：深度神经网络在开放式世界目标检测中的新探索 !

清华大学最新成果 3D 语义占用预测框架 GaussianFormer ！

被导师放养，后果可能很严重。。。

使用 YOLO 加速实时应用程序中的对象检测 !

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

YOLOv8架构的改进：POLO 模型在多类目标检测中的突破 !

DuoDiff: 提升浅层 Transformer 性能的扩散模型，双 Backbone 件扩散模型在图像处理中的应用！

211本二战字节视觉算法岗，拿下70k offer!!!

复旦提出 CTA-Net | 卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

YOLO人脸识别与多领域目标检测开源项目练习合集：涵盖人体、交通、医疗、工业等！

优化之路 N-ReliefF 算法指导下的 CNN 超参数调整！

融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

无需额外标注，SG-MIM 实现高效结构知识引导的 Mask图像建模！

UniMatch V2 推进半监督语义分割极限，以更低训练成本实现更优的语义分割结果！

利用知识蒸馏算法优化 YOLOv5 目标检测！

【集智书童】交流群成立了！

一文读懂 LLM 大模型的可解释性,附代码!

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

中科院提出 DA-Ada | 用于域自适应目标检测的学习域感知适配器！

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

中科大提出 D-FINE | 通过 FDR 和 GO-LSD 实现最先进的实时目标检测！

优化 YOLO 架构以实现最佳检测和分类:YOLOv7与YOLOv10 的比较研究！

降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率！

目标检测开源项目合集！包含基于YOLOv5/v7/v8的人脸识别到车牌检测、交通标识检测、驾驶行为检测等！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

物体状态识别数据集 Changelt-Frames，评估了九个开源 VLM 对物体状态变化的识别能力！

2080Ti 也能跑起来，Transtreaming 用于实时流感知的自适应延迟感知Transformer !

上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究！

CAMOT 摄像机角度感知多目标跟踪 !

超越SOTA ！ YOLOv8-ResCBAM 集成注意力机制以提高检测性能！

快速学会登上nature的热门算法，LSTM！

0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型！

Grad-CAM 可视化下的 LADD 精确捕捉图像中物体的位置 !

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！

COCO-0cc 闭合全景分割和图像理解的基准，遮挡感知全图分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉