行人检测SOTA!MambaST: 即插即用新模块,无痛涨点~

文摘   2025-02-08 07:30   上海  

今天自动驾驶之心为大家分享密歇根大学安娜堡分校最新的工作!一种即插即用的跨光谱时空融合器,用于高效行人检测—MambaST!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心目标检测技术交流群

论文作者 | Xiangbo Gao等

编辑 | 自动驾驶之心

论文标题:MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器,用于高效行人检测
论文会议:The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者:Xiangbo Gao等
项目仓库:https://github.com/XiangboGaoBarry/MambaST

1. 写在前面

行人检测是自动驾驶等应用中的一项重要任务,然而在低照明场景(如夜间),可见光(RGB)摄像头难以单独检测到行人,因此跨光谱融合方法显得尤为重要,利用热成像和可见光摄像头的互补信息提升检测效果。此外,行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性,以提高检测性能。虽然多模态融合和时空建模已取得一定进展,但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合,或多帧单模态输入。针对这一问题,本文提出了一种名为MambaST架构,基于状态空间模型(Mamba),首次结合了跨光谱的空间和时间信息,提出了多头层次化分块和聚合(MHHPA)模块,用于层次化时空特征提取。实验结果表明,MambaST在检测性能和模型效率上有显著提升,同时所需的模型参数和计算资源更少。

相关工作总结

跨模态融合方法

多模态传感器数据提供了互补信息,常见的跨模态传感器组合包括RGB-thermal、RGB-LiDAR和RGB-Depth传感器,特别是在低光照环境下,热成像摄像头因其在各种光照和环境条件下能够提供详细的灰度图像而成为一种重要的融合传感器。

Mamba 和 Vision Mamba 的基础

Mamba 是一种用于序列建模的状态空间模型(SSM),其最初应用于一维序列数据。随后,研究人员将其扩展到二维图像数据,用于视觉任务。这些扩展版本(如 VMamba 和 Vision Mamba)通过将图像划分为路径序列或加入位置嵌入,展示了Mamba架构在图像特征提取方面的潜力。尽管已有研究使用Mamba进行多模态融合,但这些工作主要集中在单帧融合上,未能推广到多时序序列。

时序融合

为了进行时间融合,已有的方法包括3D卷积、自适应2D卷积和Transformer等,但这些方法通常无法处理多模态输入。其他方法则集中在单帧跨光谱空间融合,无法直接适应时间融合。在本文中,我们提出了一种扩展Mamba架构的方法,通过递归连接帧间的特征值,实现时序序列的融合。

2. 方法论详细总结

模型架构概述

MambaST模型基于YOLOv5的骨干网络、特征金字塔网络(FPN)层、金字塔注意力网络(PAN)层,以及检测器,用于单帧的RGB和热成像目标检测。模型生成的RGB和热成像特征图为  52 特征图,其中表示时间序列的长度,每种模态输入生成五层特征图,数字2表示RGB和热成像两个模态。用于空间融合的特征图层IRWiHiCi 和 ITWiHiCi分别代表RGB和热成像特征图的第三、第四和第五层,这些层的大小为 Wi,Hi,Ci{(80,80,4D), (40,40,8D), (20,20,16D),其中 D 是通道数的倍增因子, W,H,C分别表示特征图的宽度、高度和通道数。通过MHHPA模块(多头层次化分块和聚合),这些特征图被融合,增强了空间表示,融合后的特征图经过YOLOv5的FPN层、PAN层和检测器,得到最终的检测输出。

多头层次化分块和聚合(MHHPA)

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息,本文提出了一种新的多头层次化分块和聚合(MHHPA)结构。现有的方法,如VMamba和Vision Mamba模型,通常在平展特征之前对其进行分块和标记,这样可以有效减少时间复杂度,但可能导致潜在的信息丢失,削弱模型提取细粒度信息的能力。相反,直接平展特征图用于融合的方法(如一些热成像-RGB融合工作)则可能引入噪声,特别是对于小物体的特征表示。因此,MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息,并将它们结合在一起,从而平衡了信息提取的精细度和噪声去除。

MHHPA 模块中,针对第 (t) 帧,RGB 和热成像特征图 (I^t_R) 和 (I^t_T) 分别表示为  (I^t_R \in \mathbb{R}^{H \times W \times c} \quad\text{和}\quad I^t_T \in \mathbb{R}^{H \times W \times c}.)对于不同的分块大小,特征图 (I^t_T, I^t_R) 首先被分块为  (I^{k}{t_T}, I^{k}{t_R} \in \mathbb{R}^{\frac{H}{S_k} \times \frac{W}{S_k} \times cS_k^2}, )其中 (k) 为分块大小的索引。接着,它们被按顺序连接和平展为  (z^k_t \in \mathbb{R}^{2 \cdot \frac{HW}{S_k^2} \cdot c S_k^2},)接着经过线性投影  (x^k_t = z^k_t W_k)并输入 MambaBlock 以获得输出 (x'^k_t)。MambaBlock 的输出会被重塑、拆分并加入到分块后的特征图中,得到更新后的  (I^{k}{t_T}, I^{k}{t_R}.) 该过程将重复 N 次,其中 NMamba 层的数量。最后,每个  ( I^t_{T}, I^t_{R}) 被上采样到原始大小,并通过连接汇聚在一起。

其中ⵔ 表示函数聚合, 表示所有像素索引的连接操作。

顺序感知的拼接和平展(OCF)

为了在多光谱特征图的平展过程中保持空间连续性,本文提出了顺序感知的拼接和平展(OCF)过程。对于每一帧在时间 t 的特征图,OCF过程将来自RGB和热成像特征图的像素交替拼接,并按顺序平展,从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下:

这里, 表示在所有像素索引 (i, j) 之间的连接操作。

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构,通过在时间帧之间建立递归连接,实现了时序序列的融合。基于Mamba的转换函数公式:

Mamba 架构类似于一种带有输入可变翻译函数的递归神经网络结构。在时间融合中,我们在 MHHPA 模块之上建立帧间的递归连接。假设 MambaST 已经对前 (t) 帧进行了融合,并生成了隐藏向量()我们将最后的隐藏输出)与 ) 帧的平展特征图 ) 拼接起来,并输入 NMambaBlock,得到更新的输出()同时更新((t+2)^\text{th}$) 帧的顺序平展特征图再次拼接。

这一递归结构通过时间上的连接,有效地结合了时空信息,显著提升了行人检测的性能。

3. 实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集,包括41个视频序列,总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果:合理(reasonable)和合理小尺寸(reasonable small)。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人,而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率(LAMR)作为评价指标,LAMR值越低,性能越好。我们还报告了召回率,较高的召回率表示较低的假阴性率。此外,为评估算法效率,我们报告了推理过程中的模型参数数量和GFLOPs值,参数和GFLOPs值越低,意味着处理图像序列所需的计算资源越少,效率越高。

实现细节

在第一个 MHHPA 块中采用了尺寸  )的分块操作,并在随后的块中省略分块操作。分块尺寸被限制为 2 的幂,以保持维度一致性。MambaBlock 层数设为 (N=8)。骨干网络采用标准 YOLOv5L 设置,并将 (D) 设为 64。时间序列长度 (除非在消融研究中另有说明)。KAIST 图像大小为 (),训练时填充为 () (即 (W = H = 640))。原始 KAIST 数据集以 20Hz 的频率捕捉,为避免连续帧的冗余,我们采用了时间步长为 3 的策略,即跳过每两个帧。所提网络使用 Python 3.10.13 和 Pytorch 2.1.2 实现,并在 NVIDIA A100 GPUs 上执行。

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较,还包括基本特征加法策略和跨模态融合Transformer(CFT)。在基本特征加法策略中,RGB和热成像特征简单相加,所得特征图在模态间进行广播,这作为基线比较。对于更高级的跨模态融合方法,我们比较了CFT,这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧,为了实现时间融合,我们实现了三个CFT的变体进行全面比较:1)CFT模型,原始CFT逐帧应用;2)T-CFT模型,通过拼接所有时间步的特征图整合时间信息;3)D-CFT模型,这是一种变体,使用可变形注意力替代Transformer中的标准自注意力,以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置,将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明,MambaST在所有设置中表现优异,尤其是在小尺寸目标检测中,显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法,MambaST在达到更好检测性能的同时,所需参数数量和GFLOPs值最低,并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明,MambaST在夜间场景下的检测性能最为优异,并且随着输入帧数的增加,检测性能进一步提升。

消融研究

我们进行了多组消融研究,评估不同参数选择的效果。首先,我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明,在第一个MHHPA块中使用四个分块尺寸,并在随后的块中省略分块操作,能够在合理和合理小尺寸设置下实现最低的LAMR。其次,我们评估了顺序感知拼接和平展模块(OCF)的影响,发现引入OCF进一步提高了检测性能。最后,我们测试了不同帧数()的影响,实验表明使用更多帧数能进一步提升模型性能,证明了Mamba模型在处理长序列上的优势。

4. 可视化结果

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测语义分割车道线BEV感知Occupancy多传感器融合多传感器标定目标跟踪)、自动驾驶定位建图SLAM高精地图局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪OccupancyCUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

网页端官网:www.zdjszx.com
④【自动驾驶之心】全平台矩阵


自动驾驶之心
自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
 最新文章