【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

科技 2024-10-20 10:05 中国香港

点击下方“深度学习爱好者”，选择加"星标"或“置顶”
论文信息

题目：YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection

YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

作者：Ming-An Chung, Yu-Jou Lin, and Chia-Wei Lin

本文创新点

在本文中，作者提出了一种改进的YOLOv7模型，称为YOLO-SLD，主要用于提高车牌检测的准确性和效率。以下是本文的主要创新点：

首次在CCPD数据集上使用YOLOv7模型网络进行车牌检测，并对各种注意力机制进行了实验，包括CBAM、CA、SA和SE等。
通过在YOLOv7的Backbone和Head中结合SimAM注意力机制，增强了特征提取能力。特别是，在不增加任何参数的情况下，通过替换和添加卷积层来实现。
在CCPD数据集上进行了广泛的实验，证明了所提出的YOLO-SLD算法在检测效率和模型轻量化方面的优势。
与现有的目标检测网络相比，YOLO-SLD在CCPD数据集上的表现更好，**mAP达到了98.91%**，比YOLOv7提高了0.47%。
在暗光和亮光图像中，CCPD测试子集的准确率从93.5%提高到96.7%，**准确率提高了3.2%**。
模型参数量比原始YOLOv7模型减少了120万个参数，使得YOLO-SLD在模型大小上更加轻量化。

摘要

车牌检测在智能交通系统中扮演着关键角色。检测车牌，如汽车、卡车和面包车，对执法、监控和收费站运营非常有用。如何在现实世界的复杂捕获场景中快速准确地检测车牌至关重要，但检测难度随着车牌的不均匀光照条件或斜拍角度的剧烈变化而增加。同时，距离、照明、角度等要求相当高，严重影响了检测性能。因此，提出了一种改进的YOLOv7，集成了无参数注意力模块SimAM，用于车牌检测，即YOLO-SLD。在不修改YOLOv7的关键组件ELAN架构的情况下，在ELAN的末端增加了SimAM机制，以更好地提取车牌特征并提高计算效率。更重要的是，SimAM模块不需要向原始YOLOv7网络添加任何参数，减少了模型计算，简化了计算过程。首次在CCPD数据集上测试了具有不同注意力机制的检测模型的性能，证明了所提方法的有效性。实验结果表明，YOLO-SLD模型具有更高的检测精度，更加轻量级，mAP在0.5时整体精度从原始YOLOv7模型的98.44%提高到98.91%，精度提高了0.47%。在明暗图像中CCPD测试子集的精度从93.5%提高到96.7%，精度提高了3.2%。与原始YOLOv7模型相比，模型的参数量减少了120万个参数。其性能优于其他流行的车牌检测算法。

关键字

深度学习，车牌检测，YOLOv7，SimAM，注意力机制

方法

本节介绍了SimAM注意力模块的核心组件。

A. SimAM

基于成熟的神经科学理论，Liang等人[18]在2021年提出了SimAM，这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比，SimAM考虑了空间和通道因素之间的相关性，并且可以高效地为特征的映射生成现实的3-D权重，无需额外的参数。它通过实现高速和准确的性能，提高了网络有效地表示特征的能力。在视觉神经科学中，与周围神经元相比，信息丰富的神经元表现出独特的放电模式，这种现象被称为信息丰富的神经元。这些神经元通常对视觉处理任务的结果产生更强的影响。通过评估目标神经元与其他神经元之间的线性可分性，可以区分这些神经元。此外，图像的边缘属性与空间抑制神经元的属性相匹配，与周围纹理特征相比，对比度特别高。因此，使用能量函数为不同的视觉任务分配3-D权重，无需额外的参数。如图3所示，SimAM注意力机制有效地增强了CNN的特征提取能力。在这种情况下，将车牌特征图中的每个像素视为能量函数中的一个神经元，目标神经元的最小能量可以表示为[18]。

其中，和分别表示输入特征的目标神经元和空间维度的索引。、和分别表示包含像素和光谱带的车牌。表示通道上的神经元数量，，通常取值为。表示通道上所有神经元（除目标神经元外）的平均值，表示输入特征在同一通道上的其他神经元（除目标神经元外）。由于空间抑制神经元表现出显著的线性可分性，它们在和中都表现出明显的变化，导致的值较低。此外，方程（1）表明，神经元的能量越低，神经元与其周围神经元的区别就越明显。因此，每个神经元的权重参数值可以计算为。特征矩阵随后根据注意力机制的定义进行增强，计算公式如下[18]：

方程（2）表示增强的特征张量，其中聚合了所有通道和空间维度上的，而是点积操作。表示输出的特征图，与输入特征图的大小相同。添加了sigmoid函数以限制的过大值。

B. 改进的YOLOv7网络架构

在本节中，改进的SimAM被嵌入到YOLOv7模型中，该模型基于传统图像识别技术和深度学习目标检测技术的优势，旨在改进其网络架构并提高车牌检测的识别精度。所提出方法的具体流程如图4所示。

对Backbone网络的改进 在特征提取中，骨干网络扮演着至关重要的角色。原始的YOLOv7架构的骨干网络由50个模块组成，包括CBS模块、最大池化（MP）模块、ELAN和ELAN-H模块。ELAN和ELAN-H模块是YOLOv7的关键组件，旨在提高网络性能和效率。ELAN模块通过聚合多层特征来有效地融合不同级别的信息，并利用跳过连接和多层融合来减少深度网络中的梯度消失问题。在ELAN的基础上，E-ELAN进一步增强了特征聚合能力，并采用了更高效的层聚合策略来降低计算复杂性，并使用扩展的层聚合技术来提取更丰富的特征。

SimAM注意力机制具有3-D权重，添加在ELAN和E-ELAN的特征提取能力和计算效率之后，以更好地提炼提取的车牌特征，并且可以自适应地在复杂的照明条件下强调车牌的目标特征，并抑制无关的背景特征，而不增加模型复杂性。与原始的骨干网络相比，本文提出的改进是在骨干网络的ELAN模块和ELAN-H模块中添加SimAM，形成新的SimAM-ELAN和SimAM-ELAN-H模块，如图5所示。

对Neck和Head层的改进 传统的ELAN模块作为一个高效的远程网络，可以通过移动卷积有效地提取局部图像结构。它通过共享的注意力机制实现了模型推理时间的减少。此外，SimAM模块被引入用于原始图像的处理。通过整合SimAM空间和通道注意力机制，可以有效地解决这一问题，从而同时在建立在成熟的神经科学理论基础上。Liang等人[18]在2021年提出了SimAM，这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比，SimAM考虑了空间和通道因素之间的相关性，并且可以高效地为特征的映射生成现实的3-D权重，无需额外的参数。SimAM的注意力机制通过评估神经元的重要性来提高模型的注意力能力，其中具有空间抑制效应的神经元被认为更有价值。

实验

数据集

中国市场停车数据集（CCPD）是评估不受控制环境中ALPR方法的全面基准。它目前是公开可用的最大车牌数据集，包含超过25万个在不受控制条件下捕获的独特车辆图像，包括光照、夜晚、模糊、旋转和雪景。具体来说，数据集被划分为7个子数据集：CCPD-Base、CCPD-Db、CCPD-Fn、CCPD-Rotate、CCPD-Tilt、CCPD-Weather和CCPD-Challenge，如图7所示。CCPD比其他车牌数据集大两个数量级。每个图像的大小为720×1160像素。数据集提供了全面的注释，如车牌字符、边界框、四个顶点、水平和垂直倾斜度以及亮度和模糊度。7个子集在CCPD中的分布和描述如表2所示。CCPD-Base包含大约20万张图像。在本文中，模型是用10万张随机选择的图像进行训练的，并使用了剩余的10万张图像以及另外6个子数据集的10万张图像进行测试。

消融实验

为了提高模型在上采样过程中的特征信息保留，本文在第III节中提到的ELAN中引入了SimAM注意力机制。为了验证不同注意力机制在卷积层中的有效性，并减少CCPD 100k数据集所需的训练时间，本文从所有子数据集中随机选择了20k图像进行训练和测试，统一的训练周期为4。

本文参考了近年来常用的YOLO系列注意力机制，包括SE、CBAM、SA、CA和SimAM注意力机制。本文比较了在加入这些注意力机制后YOLOv7模型的参数和mAP的增加。这部分实验探讨了不同注意力机制改进方法对模型网络的影响。如表3所示，本文进行了11次实验，每次实验都涉及将各种注意力机制整合到卷积层中，并使用mAP在0.5时的性能与原始YOLOv7模型进行了评估。为了方便，原始的YOLOv7模型被命名为YOLOv7-original，带有不同注意力机制的卷积层的YOLOv7模型被命名为YOLOv7-SimAM，并且在不同位置添加注意力机制的网络被编号并相应命名（例如，YOLOv7-SimAM-1）。SimAM模块在不增加参数的情况下表现更好，如表4中CCPD各个子集的比较数据所示。从YOLOv7与十一种主要注意力机制在车牌图像识别中的比较，本文得出以下结论：YOLOv7-SimAM-3算法在车牌检测中表现最佳。注意力机制SE、SA和CA在图像中检测车牌是有效的，并且参数很少。然而，它们的mAP在0.5的精度比原始的YOLOv7低了20%以上。除了SimAM，CBAM注意力机制在检测中的表现优于其他算法。

E. 对比实验

为了进一步验证SimAM与CBAM的有效性，本文从CCPD2019数据集Base中随机选取了10万个车牌图像，并进行了8个周期的训练。如表5所示，展示了CCPD数据集各个子集的比较数据。带有SimAM注意力机制的YOLOv7-SimAM-3模型在mAP在0.5的精度上取得了最好的结果，并且在表6中参数数量也是最少的。

F. 实验结果

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569066&idx=1&sn=d2f03646abf8a0bf3690ec6b8c10a5cd

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

特征选择：11 种特征选择策略总结！

YOLO 系列目标检测大合集

Swin-UMamba：基于ImageNet的预训练的基于Mamba的UNet网络

项目案例：基于 YOLO 的铝型材表面缺陷识别

Batch Normalization原理与实战

Jupyter Notebook 五大效率插件

卷积核的基本概况

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

padding 在深度学习模型中重要吗？

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

如何评价Ultralytics出的YOLOv11？

有哪些东西是你读博士以后才懂的？

Jupyter Lab 十大高生产力插件

AODet: 基于 Transformers 的前景区域航空目标检测

黄仁勋预言成真了！！

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

使用姿态估计轻松辅助健身房训练

传统图像处理还有前景么？

使用YOLO检测眼睛闭合 | 设定警报

一个神经元顶5到8层神经网络，深度学习的计算复杂度被生物碾压了

稚晖君玩了个大的：开源人形机器人全套图纸+代码

最全的损失函数汇总

pytorch优化器与学习率设置详解

PyCharm vs VSCode，是时候改变你的 IDE 了！

特征提取：传统算法 vs 深度学习

注意力机制是如何学习到模型所应注意的区域的？

深度学习常用损失函数总览：基本形式、原理、特点

一份微调YOLOv11的小指南

顶会 MICCAI'24 | LB-UNet：一种用于皮肤病变分割的轻量级边界辅助UNet

EI会议精选盘点：高校联办，IEEE Fellow助阵，可推优发表SCI

顶刊MIA'24 | 用于OCT图像分割的双坐标交叉注意力Transformer

如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

使用YOLOv8和ByteTracker进行实时人员跟踪和计数

用python写一个图像文字识别OCR工具

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

如何系统得对目标检测模型的误差分析？

【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

一个博士生接受怎样的训练，才是完整而全面的科研训练？

一文让你通俗理解奇异值分解

YOLO-CCS：将坐标注意力机制引入YOLO用于车辆检测

针对不平衡问题建模的有趣Loss

使用YOLO World进行高性能目标检测

顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

顶刊 MIA'24 | MA-SAM: 用于医学图像分割的模态无关SAM适应框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

点击下方“深度学习爱好者”，选择加"星标"或“置顶”论文信息

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

题目：YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection

YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

作者：Ming-An Chung, Yu-Jou Lin, and Chia-Wei Lin

本文创新点

摘要

关键字

方法

A. SimAM

B. 改进的YOLOv7网络架构

实验

数据集

消融实验

E. 对比实验

F. 实验结果

声明

点击下方“深度学习爱好者”，选择加"星标"或“置顶”
论文信息