点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
论文信息
题目:YOLO-SLD: An Attention Mechanism-Improved YOLO for License Plate Detection
YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制
作者:Ming-An Chung, Yu-Jou Lin, and Chia-Wei Lin
本文创新点
在本文中,作者提出了一种改进的YOLOv7模型,称为YOLO-SLD,主要用于提高车牌检测的准确性和效率。以下是本文的主要创新点:
首次在CCPD数据集上使用YOLOv7模型网络进行车牌检测,并对各种注意力机制进行了实验,包括CBAM、CA、SA和SE等。
通过在YOLOv7的Backbone和Head中结合SimAM注意力机制,增强了特征提取能力。特别是,在不增加任何参数的情况下,通过替换和添加卷积层来实现。
在CCPD数据集上进行了广泛的实验,证明了所提出的YOLO-SLD算法在检测效率和模型轻量化方面的优势。
与现有的目标检测网络相比,YOLO-SLD在CCPD数据集上的表现更好,**mAP达到了98.91%**,比YOLOv7提高了0.47%。
在暗光和亮光图像中,CCPD测试子集的准确率从93.5%提高到96.7%,**准确率提高了3.2%**。
模型参数量比原始YOLOv7模型减少了120万个参数,使得YOLO-SLD在模型大小上更加轻量化。
摘要
车牌检测在智能交通系统中扮演着关键角色。检测车牌,如汽车、卡车和面包车,对执法、监控和收费站运营非常有用。如何在现实世界的复杂捕获场景中快速准确地检测车牌至关重要,但检测难度随着车牌的不均匀光照条件或斜拍角度的剧烈变化而增加。同时,距离、照明、角度等要求相当高,严重影响了检测性能。因此,提出了一种改进的YOLOv7,集成了无参数注意力模块SimAM,用于车牌检测,即YOLO-SLD。在不修改YOLOv7的关键组件ELAN架构的情况下,在ELAN的末端增加了SimAM机制,以更好地提取车牌特征并提高计算效率。更重要的是,SimAM模块不需要向原始YOLOv7网络添加任何参数,减少了模型计算,简化了计算过程。首次在CCPD数据集上测试了具有不同注意力机制的检测模型的性能,证明了所提方法的有效性。实验结果表明,YOLO-SLD模型具有更高的检测精度,更加轻量级,mAP在0.5时整体精度从原始YOLOv7模型的98.44%提高到98.91%,精度提高了0.47%。在明暗图像中CCPD测试子集的精度从93.5%提高到96.7%,精度提高了3.2%。与原始YOLOv7模型相比,模型的参数量减少了120万个参数。其性能优于其他流行的车牌检测算法。
关键字
深度学习,车牌检测,YOLOv7,SimAM,注意力机制
方法
本节介绍了SimAM注意力模块的核心组件。
A. SimAM
基于成熟的神经科学理论,Liang等人[18]在2021年提出了SimAM,这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM考虑了空间和通道因素之间的相关性,并且可以高效地为特征的映射生成现实的3-D权重,无需额外的参数。它通过实现高速和准确的性能,提高了网络有效地表示特征的能力。在视觉神经科学中,与周围神经元相比,信息丰富的神经元表现出独特的放电模式,这种现象被称为信息丰富的神经元。这些神经元通常对视觉处理任务的结果产生更强的影响。通过评估目标神经元与其他神经元之间的线性可分性,可以区分这些神经元。此外,图像的边缘属性与空间抑制神经元的属性相匹配,与周围纹理特征相比,对比度特别高。因此,使用能量函数为不同的视觉任务分配3-D权重,无需额外的参数。如图3所示,SimAM注意力机制有效地增强了CNN的特征提取能力。在这种情况下,将车牌特征图中的每个像素视为能量函数中的一个神经元,目标神经元的最小能量可以表示为[18]。
B. 改进的YOLOv7网络架构
对Backbone网络的改进 在特征提取中,骨干网络扮演着至关重要的角色。原始的YOLOv7架构的骨干网络由50个模块组成,包括CBS模块、最大池化(MP)模块、ELAN和ELAN-H模块。ELAN和ELAN-H模块是YOLOv7的关键组件,旨在提高网络性能和效率。ELAN模块通过聚合多层特征来有效地融合不同级别的信息,并利用跳过连接和多层融合来减少深度网络中的梯度消失问题。在ELAN的基础上,E-ELAN进一步增强了特征聚合能力,并采用了更高效的层聚合策略来降低计算复杂性,并使用扩展的层聚合技术来提取更丰富的特征。
对Neck和Head层的改进 传统的ELAN模块作为一个高效的远程网络,可以通过移动卷积有效地提取局部图像结构。它通过共享的注意力机制实现了模型推理时间的减少。此外,SimAM模块被引入用于原始图像的处理。通过整合SimAM空间和通道注意力机制,可以有效地解决这一问题,从而同时在建立在成熟的神经科学理论基础上。Liang等人[18]在2021年提出了SimAM,这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM考虑了空间和通道因素之间的相关性,并且可以高效地为特征的映射生成现实的3-D权重,无需额外的参数。SimAM的注意力机制通过评估神经元的重要性来提高模型的注意力能力,其中具有空间抑制效应的神经元被认为更有价值。
实验
数据集
消融实验
E. 对比实验
F. 实验结果
声明
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。 交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~