行人检测SOTA！MambaST: 即插即用新模块，无痛涨点~

文摘 2025-02-08 07:30 上海

今天自动驾驶之心为大家分享密歇根大学安娜堡分校最新的工作！一种即插即用的跨光谱时空融合器，用于高效行人检测—MambaST！如果您有相关工作需要分享，请在文末联系我们！
自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『目标检测』技术交流群

论文作者 | Xiangbo Gao等

编辑 | 自动驾驶之心

论文标题：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器，用于高效行人检测
论文会议：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者：Xiangbo Gao等
项目仓库：https://github.com/XiangboGaoBarry/MambaST

1. 写在前面

行人检测是自动驾驶等应用中的一项重要任务，然而在低照明场景（如夜间），可见光（RGB）摄像头难以单独检测到行人，因此跨光谱融合方法显得尤为重要，利用热成像和可见光摄像头的互补信息提升检测效果。此外，行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性，以提高检测性能。虽然多模态融合和时空建模已取得一定进展，但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合，或多帧单模态输入。针对这一问题，本文提出了一种名为MambaST架构，基于状态空间模型（Mamba），首次结合了跨光谱的空间和时间信息，提出了多头层次化分块和聚合（MHHPA）模块，用于层次化时空特征提取。实验结果表明，MambaST在检测性能和模型效率上有显著提升，同时所需的模型参数和计算资源更少。

2. 方法论详细总结

模型架构概述

MambaST模型基于YOLOv5的骨干网络、特征金字塔网络（FPN）层、金字塔注意力网络（PAN）层，以及检测器，用于单帧的RGB和热成像目标检测。模型生成的RGB和热成像特征图为 52 特征图，其中表示时间序列的长度，每种模态输入生成五层特征图，数字2表示RGB和热成像两个模态。用于空间融合的特征图层IRWiHiCi 和 ITWiHiCi分别代表RGB和热成像特征图的第三、第四和第五层，这些层的大小为 Wi,Hi,Ci{(80,80,4D), (40,40,8D), (20,20,16D)，其中 D 是通道数的倍增因子, W,H,C分别表示特征图的宽度、高度和通道数。通过MHHPA模块（多头层次化分块和聚合），这些特征图被融合，增强了空间表示，融合后的特征图经过YOLOv5的FPN层、PAN层和检测器，得到最终的检测输出。

多头层次化分块和聚合（MHHPA）

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息，本文提出了一种新的多头层次化分块和聚合（MHHPA）结构。现有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前对其进行分块和标记，这样可以有效减少时间复杂度，但可能导致潜在的信息丢失，削弱模型提取细粒度信息的能力。相反，直接平展特征图用于融合的方法（如一些热成像-RGB融合工作）则可能引入噪声，特别是对于小物体的特征表示。因此，MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息，并将它们结合在一起，从而平衡了信息提取的精细度和噪声去除。

在 MHHPA 模块中，针对第 (t) 帧，RGB 和热成像特征图 (I^t_R) 和 (I^t_T) 分别表示为 (I^t_R \in \mathbb{R}^{H \times W \times c} \quad\text{和}\quad I^t_T \in \mathbb{R}^{H \times W \times c}.)对于不同的分块大小，特征图 (I^t_T, I^t_R) 首先被分块为 (I^{k}{t_T}, I^{k}{t_R} \in \mathbb{R}^{\frac{H}{S_k} \times \frac{W}{S_k} \times cS_k^2}, )其中 (k) 为分块大小的索引。接着，它们被按顺序连接和平展为 (z^k_t \in \mathbb{R}^{2 \cdot \frac{HW}{S_k^2} \cdot c S_k^2},)接着经过线性投影 (x^k_t = z^k_t W_k)并输入 MambaBlock 以获得输出 (x'^k_t)。MambaBlock 的输出会被重塑、拆分并加入到分块后的特征图中，得到更新后的 (I^{k}{t_T}, I^{k}{t_R}.) 该过程将重复 N 次，其中 N 是 Mamba 层的数量。最后，每个 ( I^t_{T}, I^t_{R}) 被上采样到原始大小，并通过连接汇聚在一起。

其中ⵔ 表示函数聚合，表示所有像素索引的连接操作。

顺序感知的拼接和平展（OCF）

为了在多光谱特征图的平展过程中保持空间连续性，本文提出了顺序感知的拼接和平展（OCF）过程。对于每一帧在时间 t 的特征图，OCF过程将来自RGB和热成像特征图的像素交替拼接，并按顺序平展，从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下：

这里，表示在所有像素索引 (i, j) 之间的连接操作。

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构，通过在时间帧之间建立递归连接，实现了时序序列的融合。基于Mamba的转换函数公式：

Mamba 架构类似于一种带有输入可变翻译函数的递归神经网络结构。在时间融合中，我们在 MHHPA 模块之上建立帧间的递归连接。假设 MambaST 已经对前 (t) 帧进行了融合，并生成了隐藏向量()我们将最后的隐藏输出)与 ) 帧的平展特征图 ) 拼接起来，并输入 N 层 MambaBlock，得到更新的输出()同时更新((t+2)^\text{th}$) 帧的顺序平展特征图再次拼接。

这一递归结构通过时间上的连接，有效地结合了时空信息，显著提升了行人检测的性能。

3. 实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集，包括41个视频序列，总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人，而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率（LAMR）作为评价指标，LAMR值越低，性能越好。我们还报告了召回率，较高的召回率表示较低的假阴性率。此外，为评估算法效率，我们报告了推理过程中的模型参数数量和GFLOPs值，参数和GFLOPs值越低，意味着处理图像序列所需的计算资源越少，效率越高。

实现细节

在第一个 MHHPA 块中采用了尺寸 )的分块操作，并在随后的块中省略分块操作。分块尺寸被限制为 2 的幂，以保持维度一致性。MambaBlock 层数设为 (N=8)。骨干网络采用标准 YOLOv5L 设置，并将 (D) 设为 64。时间序列长度（除非在消融研究中另有说明）。KAIST 图像大小为 ()，训练时填充为 () （即 (W = H = 640)）。原始 KAIST 数据集以 20Hz 的频率捕捉，为避免连续帧的冗余，我们采用了时间步长为 3 的策略，即跳过每两个帧。所提网络使用 Python 3.10.13 和 Pytorch 2.1.2 实现，并在 NVIDIA A100 GPUs 上执行。

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较，还包括基本特征加法策略和跨模态融合Transformer（CFT）。在基本特征加法策略中，RGB和热成像特征简单相加，所得特征图在模态间进行广播，这作为基线比较。对于更高级的跨模态融合方法，我们比较了CFT，这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧，为了实现时间融合，我们实现了三个CFT的变体进行全面比较：1）CFT模型，原始CFT逐帧应用；2）T-CFT模型，通过拼接所有时间步的特征图整合时间信息；3）D-CFT模型，这是一种变体，使用可变形注意力替代Transformer中的标准自注意力，以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置，将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明，MambaST在所有设置中表现优异，尤其是在小尺寸目标检测中，显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法，MambaST在达到更好检测性能的同时，所需参数数量和GFLOPs值最低，并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明，MambaST在夜间场景下的检测性能最为优异，并且随着输入帧数的增加，检测性能进一步提升。

消融研究

我们进行了多组消融研究，评估不同参数选择的效果。首先，我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明，在第一个MHHPA块中使用四个分块尺寸，并在随后的块中省略分块操作，能够在合理和合理小尺寸设置下实现最低的LAMR。其次，我们评估了顺序感知拼接和平展模块（OCF）的影响，发现引入OCF进一步提高了检测性能。最后，我们测试了不同帧数（）的影响，实验表明使用更多帧数能进一步提升模型性能，证明了Mamba模型在处理长序列上的优势。

4. 可视化结果

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

④【自动驾驶之心】全平台矩阵

自动驾驶之心

自动驾驶开发者社区，关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

最新文章

自动驾驶之心科研辅导大佬招募！期待您的加入~

自动驾驶与CV、具身智能领域｜ CCF-A到C的主流期刊与会议汇总（近60个）

DeepSeek与特斯拉FSD终有一战？

关于自动驾驶，尤其是端到端自动驾驶：到底有哪些可能的量产技术路线？

3DGS能否重塑自动驾驶闭环仿真？我的工程化问题总结~

怎样让 PPO 训练更稳定？早期人类征服 RLHF 的驯化经验

UC伯克利最新！Beyond Sight: 零样本微调通用机器人策略

成本不到150元！李飞飞团队26分钟训练即可媲美o1和R1

大模型开年王炸！2024年自动驾驶大模型热门工作汇总，40+工作都在这里了~

CVPR 2025！自动驾驶大模型蒸馏研讨会征稿开启！

清华大学直播分享！扩散模型的联合规划模型为什么能问鼎nuPlan SOTA？

自动驾驶与具身智能在不断崛起......

端到端自动驾驶崛起，这6类岗位将成为核心！

博世SMART：推进可扩展的地图先验以实现驾驶拓扑推理

从CVPR25审稿，看当前AI顶会中稿趋势！

倒计时两周！自动驾驶之心举办了一个前瞻技术及产业发展论坛

吉利率先宣布DeepSeek上车

行人检测SOTA！MambaST: 即插即用新模块，无痛涨点~

黑武士001 | 科研&教学级自动驾驶全栈小车（感知/建图/定位/规划）

新的一年突破2w人了！欢迎关注我们的具身智能技术社区

最强“胶水”MambaGlue来了：卓越速度+性能提升的局部特征匹配

OpenAI有这么牛的技术，为什么没有进入自动驾驶？

今日截止！自动驾驶之心全平台新春优惠倒计时~

爆火的DeepSeek，会给自动驾驶大模型带来怎样的影响？

轨迹预测新基准！清华开源Ultra-AV：统一自动驾驶纵向轨迹数据集

具身智能在三维理解中的应用：三维场景问答最新综述

自动驾驶和具身智能的三驾马车！

北大开源多模态版DeepSeek-R1：评测表现超GPT-4o！

黑武士001 | 科研&教学级自动驾驶全栈小车（感知/建图/定位/规划）

重磅，黑武士来啦！科研&教学级自动驾驶全栈小车（感知/建图/定位/规划）

自动驾驶教研轻量级平台：天工开物001（感知/建图/定位/导航等）

DeepSeek进化史！从0到1了解DeepSeek

nuPlan新SOTA！清华提出Diffusion Planner：扩散模型重塑自动驾驶路径规划（ICLR'25）

自动驾驶行业精英，正疯狂涌入具身智能赛道！

图像生成迎来CoT时刻，港中文首次提出文生图o1推理新范式

DeepSeek绕开CUDA垄断，英伟达护城河还在吗？

待遇丰厚！诚邀端到端/世界模型/自动标注等大佬加盟！

2024年Occupancy热门工作汇总！30+工作都在这里了~

从CVPR25审稿，看当前AI顶会中稿趋势！

大佬云集，欢迎报名！自动驾驶之心举办了一个技术行业论坛

英伟达，突发！

2025自动驾驶格局已经明了，开冲！

视觉生成模型大汇总！工作都在这里了~

我本以为自驾转行机器人是兼容的，直到我被丢进了池子里。。。

谢谢Deepseek，o3-mini发布即免费！编程断崖式领先？

国内首个3DGS全栈教程！2DGS/3DGS/4DGS/混合GS全搞定！

自动驾驶行业产品经理的知识体系构建

国内首个面向工业级的Carla仿真项目小班课

上岸自动驾驶端到端算法工程师

重磅！自动驾驶之心论文辅导来啦（近40+方向，顶会/顶刊/SCI/EI/中文核心/申博等）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

行人检测SOTA！MambaST: 即插即用新模块，无痛涨点~

1. 写在前面

相关工作总结

跨模态融合方法

Mamba 和 Vision Mamba 的基础

时序融合

2. 方法论详细总结

模型架构概述

多头层次化分块和聚合（MHHPA）

顺序感知的拼接和平展（OCF）

用于时间融合的递归结构

3. 实验结果详细总结

数据集和评价指标

实现细节

与其他跨模态融合方法的比较

小目标检测的评估

效率评估

与当前最先进方法的比较

消融研究

4. 可视化结果