【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制,实现精准车牌检测

科技   2024-10-24 10:31   中国香港  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

论文信息

题目:YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection

YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

作者:Ming-An Chung, Yu-Jou Lin, and Chia-Wei Lin

本文创新点

在本文中,作者提出了一种改进的YOLOv7模型,称为YOLO-SLD,主要用于提高车牌检测的准确性和效率。以下是本文的主要创新点:

  1. 首次在CCPD数据集上使用YOLOv7模型网络进行车牌检测,并对各种注意力机制进行了实验,包括CBAM、CA、SA和SE等。

  2. 通过在YOLOv7的Backbone和Head中结合SimAM注意力机制,增强了特征提取能力。特别是,在不增加任何参数的情况下,通过替换和添加卷积层来实现。

  3. 在CCPD数据集上进行了广泛的实验,证明了所提出的YOLO-SLD算法在检测效率和模型轻量化方面的优势。

  4. 与现有的目标检测网络相比,YOLO-SLD在CCPD数据集上的表现更好,**mAP达到了98.91%**,比YOLOv7提高了0.47%。

  5. 在暗光和亮光图像中,CCPD测试子集的准确率从93.5%提高到96.7%,**准确率提高了3.2%**。

  6. 模型参数量比原始YOLOv7模型减少了120万个参数,使得YOLO-SLD在模型大小上更加轻量化

摘要

车牌检测在智能交通系统中扮演着关键角色。检测车牌,如汽车、卡车和面包车,对执法、监控和收费站运营非常有用。如何在现实世界的复杂捕获场景中快速准确地检测车牌至关重要,但检测难度随着车牌的不均匀光照条件或斜拍角度的剧烈变化而增加。同时,距离、照明、角度等要求相当高,严重影响了检测性能。因此,提出了一种改进的YOLOv7,集成了无参数注意力模块SimAM,用于车牌检测,即YOLO-SLD。在不修改YOLOv7的关键组件ELAN架构的情况下,在ELAN的末端增加了SimAM机制,以更好地提取车牌特征并提高计算效率。更重要的是,SimAM模块不需要向原始YOLOv7网络添加任何参数,减少了模型计算,简化了计算过程。首次在CCPD数据集上测试了具有不同注意力机制的检测模型的性能,证明了所提方法的有效性。实验结果表明,YOLO-SLD模型具有更高的检测精度,更加轻量级,mAP在0.5时整体精度从原始YOLOv7模型的98.44%提高到98.91%,精度提高了0.47%。在明暗图像中CCPD测试子集的精度从93.5%提高到96.7%,精度提高了3.2%。与原始YOLOv7模型相比,模型的参数量减少了120万个参数。其性能优于其他流行的车牌检测算法。

关键字

深度学习,车牌检测,YOLOv7,SimAM,注意力机制

方法

本节介绍了SimAM注意力模块的核心组件。

A. SimAM


基于成熟的神经科学理论,Liang等人[18]在2021年提出了SimAM,这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM考虑了空间和通道因素之间的相关性,并且可以高效地为特征的映射生成现实的3-D权重,无需额外的参数。它通过实现高速和准确的性能,提高了网络有效地表示特征的能力。在视觉神经科学中,与周围神经元相比,信息丰富的神经元表现出独特的放电模式,这种现象被称为信息丰富的神经元。这些神经元通常对视觉处理任务的结果产生更强的影响。通过评估目标神经元与其他神经元之间的线性可分性,可以区分这些神经元。此外,图像的边缘属性与空间抑制神经元的属性相匹配,与周围纹理特征相比,对比度特别高。因此,使用能量函数为不同的视觉任务分配3-D权重,无需额外的参数。如图3所示,SimAM注意力机制有效地增强了CNN的特征提取能力。在这种情况下,将车牌特征图中的每个像素视为能量函数中的一个神经元,目标神经元的最小能量可以表示为[18]。

其中,分别表示输入特征的目标神经元和空间维度的索引。分别表示包含像素和光谱带的车牌。表示通道上的神经元数量,通常取值为表示通道上所有神经元(除目标神经元外)的平均值,表示输入特征在同一通道上的其他神经元(除目标神经元外)。由于空间抑制神经元表现出显著的线性可分性,它们在中都表现出明显的变化,导致的值较低。此外,方程(1)表明,神经元的能量越低,神经元与其周围神经元的区别就越明显。因此,每个神经元的权重参数值可以计算为。特征矩阵随后根据注意力机制的定义进行增强,计算公式如下[18]:
方程(2)表示增强的特征张量,其中聚合了所有通道和空间维度上的,而是点积操作。表示输出的特征图,与输入特征图的大小相同。添加了sigmoid函数以限制的过大值。

B. 改进的YOLOv7网络架构

在本节中,改进的SimAM被嵌入到YOLOv7模型中,该模型基于传统图像识别技术和深度学习目标检测技术的优势,旨在改进其网络架构并提高车牌检测的识别精度。所提出方法的具体流程如图4所示。
  1. 对Backbone网络的改进 在特征提取中,骨干网络扮演着至关重要的角色。原始的YOLOv7架构的骨干网络由50个模块组成,包括CBS模块、最大池化(MP)模块、ELAN和ELAN-H模块。ELAN和ELAN-H模块是YOLOv7的关键组件,旨在提高网络性能和效率。ELAN模块通过聚合多层特征来有效地融合不同级别的信息,并利用跳过连接和多层融合来减少深度网络中的梯度消失问题。在ELAN的基础上,E-ELAN进一步增强了特征聚合能力,并采用了更高效的层聚合策略来降低计算复杂性,并使用扩展的层聚合技术来提取更丰富的特征。
SimAM注意力机制具有3-D权重,添加在ELAN和E-ELAN的特征提取能力和计算效率之后,以更好地提炼提取的车牌特征,并且可以自适应地在复杂的照明条件下强调车牌的目标特征,并抑制无关的背景特征,而不增加模型复杂性。与原始的骨干网络相比,本文提出的改进是在骨干网络的ELAN模块和ELAN-H模块中添加SimAM,形成新的SimAM-ELAN和SimAM-ELAN-H模块,如图5所示。
  1. 对Neck和Head层的改进 传统的ELAN模块作为一个高效的远程网络,可以通过移动卷积有效地提取局部图像结构。它通过共享的注意力机制实现了模型推理时间的减少。此外,SimAM模块被引入用于原始图像的处理。通过整合SimAM空间和通道注意力机制,可以有效地解决这一问题,从而同时在建立在成熟的神经科学理论基础上。Liang等人[18]在2021年提出了SimAM,这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM考虑了空间和通道因素之间的相关性,并且可以高效地为特征的映射生成现实的3-D权重,无需额外的参数。SimAM的注意力机制通过评估神经元的重要性来提高模型的注意力能力,其中具有空间抑制效应的神经元被认为更有价值。

实验

数据集

中国市场停车数据集(CCPD)是评估不受控制环境中ALPR方法的全面基准。它目前是公开可用的最大车牌数据集,包含超过25万个在不受控制条件下捕获的独特车辆图像,包括光照、夜晚、模糊、旋转和雪景。具体来说,数据集被划分为7个子数据集:CCPD-Base、CCPD-Db、CCPD-Fn、CCPD-Rotate、CCPD-Tilt、CCPD-Weather和CCPD-Challenge,如图7所示。CCPD比其他车牌数据集大两个数量级。每个图像的大小为720×1160像素。数据集提供了全面的注释,如车牌字符、边界框、四个顶点、水平和垂直倾斜度以及亮度和模糊度。7个子集在CCPD中的分布和描述如表2所示。CCPD-Base包含大约20万张图像。在本文中,模型是用10万张随机选择的图像进行训练的,并使用了剩余的10万张图像以及另外6个子数据集的10万张图像进行测试。

消融实验

为了提高模型在上采样过程中的特征信息保留,本文在第III节中提到的ELAN中引入了SimAM注意力机制。为了验证不同注意力机制在卷积层中的有效性,并减少CCPD 100k数据集所需的训练时间,本文从所有子数据集中随机选择了20k图像进行训练和测试,统一的训练周期为4。
本文参考了近年来常用的YOLO系列注意力机制,包括SE、CBAM、SA、CA和SimAM注意力机制。本文比较了在加入这些注意力机制后YOLOv7模型的参数和mAP的增加。这部分实验探讨了不同注意力机制改进方法对模型网络的影响。如表3所示,本文进行了11次实验,每次实验都涉及将各种注意力机制整合到卷积层中,并使用mAP在0.5时的性能与原始YOLOv7模型进行了评估。为了方便,原始的YOLOv7模型被命名为YOLOv7-original,带有不同注意力机制的卷积层的YOLOv7模型被命名为YOLOv7-SimAM,并且在不同位置添加注意力机制的网络被编号并相应命名(例如,YOLOv7-SimAM-1)。SimAM模块在不增加参数的情况下表现更好,如表4中CCPD各个子集的比较数据所示。从YOLOv7与十一种主要注意力机制在车牌图像识别中的比较,本文得出以下结论:YOLOv7-SimAM-3算法在车牌检测中表现最佳。注意力机制SE、SA和CA在图像中检测车牌是有效的,并且参数很少。然而,它们的mAP在0.5的精度比原始的YOLOv7低了20%以上。除了SimAM,CBAM注意力机制在检测中的表现优于其他算法。

E. 对比实验

为了进一步验证SimAM与CBAM的有效性,本文从CCPD2019数据集Base中随机选取了10万个车牌图像,并进行了8个周期的训练。如表5所示,展示了CCPD数据集各个子集的比较数据。带有SimAM注意力机制的YOLOv7-SimAM-3模型在mAP在0.5的精度上取得了最好的结果,并且在表6中参数数量也是最少的。

F. 实验结果

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章