点击下方“深度学习爱好者”,选择加p"星标"或“置顶”
论文信息
题目:DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification
DSDFormer: 一种创新的Transformer-Mamba框架,用于鲁棒高精度驾驶员分心识别
作者:Junzhou Chen,Zirui Zhang,Jing Yu,Heqiang Huang,Ronghui Zhang,Xuemiao Xu,Bin Sheng,Hong Yan
论文创新点
- 双状态域注意力(DSDA)机制:作者提出了一种新颖的双状态域注意力(DSDA)机制,该机制通过整合Transformer和Mamba模块,实现了在空间和状态域中高效特征建模,增强了特征提取的多样性和完整性,同时提高了推理速度。
- 时间推理自信学习(TRCL):为了解决公共数据集中不精确注释的挑战,作者引入了时间推理自信学习(TRCL),这是一种无监督方法,通过利用视频序列中的时空关联来提炼噪声标签,提供了一种更精确和自适应的噪声降低方法。
- 空间-通道和多分支增强模块:为了增强特征多样性和表示,作者设计了空间-通道增强模块(SCEM)和多分支增强模块(MBEM)。这些模块利用通道注意力和深度卷积,显著提升了模型捕获细粒度空间细节和通道特定信息的能力,解决了传统Transformer和Mamba架构的局限性。
- Transformer-Mamba框架DSDFormer:作者提出了基于Transformer-Mamba的框架DSDFormer,该框架在AUC-V1、AUC-V2和100-Driver数据集上实现了最先进的性能,并且在Nvidia Jetson AGX Orin上的实时推理表现出色,使其非常适合部署在智能交通系统中,展现了在实际应用所需的准确性和实时性能方面的优势。
摘要
驾驶员分心一直是导致交通事故的主要原因,对全球道路安全构成严重威胁。随着智能交通系统的演进,准确实时识别驾驶员分心变得至关重要。然而,现有方法在训练数据集中的噪声标签中挣扎,难以同时捕获全局上下文和细粒度局部特征。为了解决这些挑战,作者提出了DSDFormer,这是一个新颖的框架,通过双状态域注意力(DSDA)机制整合了Transformer和Mamba架构的优势,实现了长期依赖性和详细特征提取之间的平衡,以鲁棒地识别驾驶员行为。此外,作者引入了时间推理自信学习(TRCL),这是一种无监督方法,通过利用视频序列中的时空关联来提炼噪声标签。模型在AUC-V1、AUC-V2和100-Driver数据集上实现了最先进的性能,并在NVIDIA Jetson AGX Orin平台上展示了实时处理效率。广泛的实验结果证实,DSDFormer和TRCL显著提高了驾驶员分心检测的准确性和鲁棒性,提供了一个可扩展的解决方案以增强道路安全。关键字
驾驶员分心识别,Mamba,transformers,自信学习,交通事故。III. 方法
A. 总体架构
我们构建了一个双状态域transformer,DSDFormer,它整合了transformers和Mamba,有效地进行长期建模和全局依赖建立。如图3所示,stem通过stride-2 Conv-3×3减小输入图像大小,然后通过两个stride-1 Conv-3×3层增强局部信息。模型结构分为四个阶段,每个阶段包含多个DSDFormer块进行特征转换。为了解决transformers和Mamba在空间特征提取方面的局限性,我们在每个块中引入通道注意力机制,加强通道特定特征。双状态域注意力模块旨在建立全局依赖,同时降低计算复杂度。此外,多分支增强结构丰富了特征表示的多样性。模型以一个投影头结束,输出分类结果,包括一个线性层、全局平均池化和最终的线性层。DSDFormer块内每个组件的详细分析在第III.B节提供。在驾驶员分心识别任务中,大多数公共数据集都是视频级别的注释,导致大量标签要么特征不清晰,要么完全错误。为了解决这些噪声对模型训练的影响,我们引入了一种称为时间推理自信学习(TRCL)的新方法,它执行无监督噪声清理,不需要手动重新注释。这种方法的详细解释在第III.C节提供。B. DSDFormer块
提出的DSDFormer块由双状态域注意力(DSDA)、空间-通道增强模块(SCEM)、多分支增强模块(MBEM)和轻量级前馈网络(LFFN)组成,如图3所示。DSDA:虽然transformers在提取全局特征方面非常有效,但其二次时间复杂度导致显著的计算开销,限制了它们在实际驾驶员分心识别任务中的应用。一些研究通过将特征图划分为块来进行自注意力,加快了计算速度。然而,这种基于块的方法可能导致细节丢失,例如手和眼睛的运动,这对于检测分心行为至关重要。相比之下,Mamba结构[43]、[63]以其线性复杂度提供了改进的计算效率,并且可以在像素级别提取全局特征,最小化细节丢失。然而,Mamba最初是为长序列设计的,缺乏区域特征提取能力。为了克服这些局限性,我们引入了双状态域注意力(DSDA)机制。通过整合transformer和Mamba模块,DSDA实现了在空间和状态域中高效特征建模,增强了特征提取的多样性和完整性,同时提高了推理速度。在DSDA中,输入X ∈ RHW ×d被分成两部分,X1 ∈ RHW × d/2和X2 ∈ RHW × d/2,沿通道维度并行通过多方向Mamba(MDM)和轻量级自注意力(LSA)提取特征,公式如下:- 状态域注意力:状态空间模型(SSM)通常被视为线性时不变系统,通过使用隐藏状态h(t) ∈ RN将序列x(t) ∈ R映射到序列y(t) ∈ R。系统可以表示为线性常微分方程(ODE):
其中N是状态大小,A ∈ RN×N,B ∈ RN×1,C ∈ R1×N和D ∈ R。为了将方程(2)整合到实际的计算机视觉算法中,我们可以通过常用的零阶保持(ZOH)方法将SSM离散化,可以定义如下:其中Δ是将连续参数A,B转换为离散参数,$\bar{B$的时标参数。方程(2)可以重写如下:不同的输入对应于方程(4)中的相同参数。最近,Mamba引入了选择性扫描机制(S6),其中、C和Δ从输入转换中得到,赋予S6在像素级别动态上下文特征建模能力。我们应用S6并设计了视觉状态空间模型(VSSM),如图3所示。我们将特征展平为1D向量,在多个垂直和水平方向上,S6用于以线性时间复杂度提取全局特征。基于VSSM,我们提出的多方向Mamba可以如下公式化:其中L(·)和LN(·)分别是线性层和层归一化。2) 空间域注意力:Mamba以线性时间复杂度高效建模全局视觉特征,与transformers相比具有计算优势。然而,与长文本序列中固有的顺序依赖性不同,驾驶员分心识别侧重于语义特征,其中局部像素排列的确切顺序不那么关键。Mamba将图像展平为序列的方法限制了其捕获区域内特征的能力。为了解决这个问题,我们设计了一个轻量级自注意力机制,与MDM并行操作。为了降低原始自注意力的计算成本,同时提高局部相关性,我们使用stride-k深度卷积k×k缩小K和V的空间维度。因此,Q ∈ RHW ×d,K ∈ R(HW/k^2) ×d,和V ∈ R(HW/k^2) ×d。提出的轻量级自注意力的公式如下:其中h是注意力头的索引,Bh是可学习的参数。SCEM:驾驶员分心识别在很大程度上依赖于集中在图像特定区域的视觉特征,准确解释局部化信息对于检测驾驶员行为至关重要。然而,transformers和Mamba主要关注提取全局特征,常常忽视局部相关性。此外,通道权重在特征建模中很重要,但传统的多头自注意力和视觉状态空间模型只计算空间相关性,导致丢失重要的通道特定信息。为了解决这个问题,我们在DSDFormer块中引入了空间-通道增强模块(SCEM),以改善特征提取的完整性和多样性。如图3所示,SCEM结合了深度卷积3×3来增强局部上下文信息,而通道注意力机制重新加权和丰富特征图。SCEM可以定义如下:其中Conv(·)和DW(·)分别是Conv-3×3和深度卷积3×3。SE(·)是挤压激励模块,可以定义如下:其中GAP(X) = 1/(HW) Σ(i=1,j=1)^(H,W) Xi,j是通道维度的全局平均池化,FC1(·)、FC2(·)是两个连续的全连接层。MBEM:为了进一步增强通道和局部上下文中的特征表示,我们在DSDFormer块中并行于MDM和LSA中结合了MBEM。该模块结合了通道注意力机制和深度卷积3×3,通过构建多个分支来改善特征提取的多样性和可分性。MBEM可以用数学表达如下:LFFN:为了进一步降低计算成本并增强局部特征的提取,我们设计了LFFN,其应用如下:通过上述四个组件,DSDFormer块可以公式化如下:C. 时间推理自信学习(TRCL)
在驾驶行为识别中,一个主要挑战是视频级数据集中存在标签不清楚或不准确的标签(如图4所示),这可能显著降低预测模型的性能。手动重新标记这些数据不仅耗时且昂贵,而且随着数据集规模的增长变得不切实际。这构成了实现高模型准确性的重大障碍,特别是在处理噪声标签时。为了解决这个问题,我们引入了一种称为时间推理自信学习(TRCL)的先进方法,它基于传统自信学习(CL)技术。与常规CL方法不同,TRCL利用视频帧中固有的时间连续性——一个经常被忽视的方面。通过利用连续帧之间的自然相关性,TRCL更有效地识别和纠正噪声标签,减少了手动重新注释的需求。这种自适应的噪声清理过程有助于克服标准CL方法的局限性,提高了驾驶行为识别模型的整体精度。我们的方法在视频注释训练集V = (v,˜y)n上操作,其中n是样本数量,每个样本可能与噪声标签˜y相关联。教师模型为每个样本预测m个类别的概率ˆp。对于一个被标记为˜y = i的样本v,如果另一个类别j(j ≠ i)的预测概率ˆpj(v)超过了阈值tj和概率ˆpi(v),这表明v的真实标签可能是y* = j。阈值tj定义为所有被标记为˜y = j的样本的平均预测概率ˆpj(v):在这个方程中,|V_˜y=j|表示V中标记为˜y = j的样本数量。接下来,我们构建了一个混淆矩阵C˜y,y来计算可能属于真实标签y = j的样本v(原本标记为˜y = i)的数量:然后我们对C˜y,y进行归一化,创建联合分布Q˜y,y:为了识别错误标记的样本,我们考虑四种不同的策略,每种策略都利用混淆矩阵C˜y,y或联合分布Q˜y,y:- 策略1:如果样本出现在C˜y,y*的非对角线元素中,则被标记为错误标记,表明预测和真实标签之间存在差异。
- 策略2:对于每个类别i,我们选择n · ∑(j=i) Q˜y=i,y*=j样本,这些样本的预测概率ˆpi(v)最低,识别出模型对分配标签信心不足的实例。
- 策略3:通过选择那些预测概率ˆpj(v)和ˆpi(v)之间差异最大的样本来识别错误标记的样本,使用Q˜y,y*的非对角线元素来指导这个过程。
- 策略4:一种混合方法,结合策略2和策略3,捕获那些对分配标签信心不足或类别概率之间存在显著预测边际的样本。在本研究中,我们选择策略4来清理噪声标签,这使我们能够得出错误标记样本的集合,记为N。时间推理:视频数据本质上由顺序帧组成,每个帧与其相邻帧在时间上相关。这种时间连续性表明连续帧通常共享上下文和视觉相似性,特别是在涉及连续动作的场景中,例如驾驶行为。为了利用这一属性,我们引入了时间推理来增强对错误标记集合N的细化。具体来说,如果一个帧vλ ∈ V被识别为错误标记,并重新分配到真实标签y* = j(vλ ∈ Ny*=j),我们利用vλ与其相邻帧vλ±1之间的时间相关性来调整预测概率ˆp。调整后的概率更新如下:
在上述方程中,f(ˆpj(vλ±1))是应用于预测概率的缩放函数,其中α作为权重因子来调节基于时间关系的调整。在对N中的所有错误标记帧更新概率后,我们获得了细化后的概率ˆp'。将这些细化后的概率纳入随后的计算中,从方程(14)、(15)和(16)开始,并应用前面讨论的识别策略,我们得出了更准确的错误标记样本集合,记为N'。IV. 实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~