利用时间信息提高3D检测在自动驾驶领域最近取得了巨大进步。
传统的基于 Transformer 的时空融合方法随着帧序列长度的增加,计算成本呈平方增长,且信息衰减。
在本文中,作者提出了一种新颖的方法MambaDETR,其主要思想是将时空融合实现于高效状态空间。此外,作者还设计了一个运动消除模块,用于移除相对静止的目标进行时空融合。
在标准的nuScenes基准测试中,作者提出的MambaDETR在3D目标检测任务上取得了显著的结果,在现有时空融合方法中展现出最先进的性能。
1 Introduction
多视图3D目标检测是自动驾驶领域的一个基本任务,它使车辆能够利用传感器数据感知周围环境。最近的研究利用图像帧序列的时间信息来提高检测性能。具有注意力机制的Transformer在处理顺序输入时具有很好的效果,这导致许多方法采用基于Transformer的时空融合方法来探索3D检测中的时间信息。
现有的基于 Transformer 的时间融合方法,如[33, 36],使用相邻的历史帧与 Transformer 解码器中的当前帧进行交互,可以有效提高3D检测性能。然而,这些方法在序列长度增长时,计算成本呈平方增加,限制了它们采用更多帧进行时间交互的能力。为了解决这个问题,后续的方法通过在时间融合模块中以循环(参见图1a)而不是顺序方式将多个帧融合,将多个帧引入时间融合模块。长期的历史信息通过帧逐帧传播,允许每个帧的特征整合前帧的信息。然而,这种循环融合过程可能导致信息随时间衰减,使模型更注重当前信息而不是长期帧[28, 31]。
为了解决这些问题,作者提出了一种名为MambaDETR的新颖方法,该方法将时间融合候选项表示为从2D Proposal 初始的3D Query ,并在使用基于SSM(Structured State Space Model)的模块的隐藏空间中进行时间融合,如图1(b)所示。这种方法用SSM(Structured State Space Model)模块替换了传统的 Transformer 模块,使得时间融合能够以顺序方式有效建模长程信息,同时仅保持线性记忆和计算成本。具体而言,给定一个帧序列,作者首先使用一个2D检测器独立地为每个帧生成高质量2D Proposal 。
然后,将这些 Proposal 通过3D投影生成3D目标 Query ,如前述方法[21]所示,结果是在每个时间步都有一个3D目标 Query 序列。此外,根据运动定律,相邻帧中的同一3D目标不会显著移动。因此,将相邻帧的所有 Query 融合起来可能导致不必要的计算成本。基于这一洞见,作者引入了一个运动消除模块,通过自变换将前帧的目标与当前帧对齐,并根据目标之间的相对运动生成运动 Mask 。因此,从前帧中移除自己车辆坐标系中的简单和相对静止的目标,保留移动目标,从而实现更有效的时间融合。
经过优化的3D目标 Query 序列随后被输入到 Query Mamba模块中,该模块在状态空间中执行基于 Query 的时空融合。通过利用结构化状态空间层, Query Mamba模块能够在无需配对比较的情况下实现长程建模。因此,MambaDETR可以有效地应用于图像帧的长程序列。
总结来说,作者的贡献包括:
提出了一种名为MambaDETR的全新时间融合方法用于3D目标检测,该方法在状态空间中实现了高效的时间融合。该方法依次融合帧序列,从而充分利用长程信息,同时避免二次复杂度。 该运动消除模块的设计旨在在保留自身车辆坐标中的移动物体的同时,去除相对静止的物体,从而提高融合效率并降低计算成本。 综合实验已在标准nuScenes数据集上进行,评估结果表明MambaDETR在3D目标检测方面具有优越性能,与基于 Transformer 的StreamPETR等方法相比,计算成本呈线性增长。
2 Related Work
Temporal Modeling in Multi-view 3D Object Detection
多视角3D检测在自动驾驶领域至关重要,需要处理多个摄像头图像并预测3D边界框。Pioneer的研究集中在将各种视角转换为单个帧内的凝聚3D空间的有效方法。转换过程可以分为两组:基于密集BEV(鸟瞰视角)表示和基于稀疏 Query 的方法。
近年来,许多研究将时间信息融入模型,以解决遮挡问题并提高速度预测的准确性。BEVFormer[28]首先将序列时间建模引入多视图3D目标检测并应用时间自注意力。
BEVDet4D[14]提出了一种从仅空间3D空间提升到时间4D空间的范式。首次,基于视觉的方法与使用雷达或LiDAR的方法具有可比性。
Sparse4D[31]通过逐步融入稀疏空间-时间融合来迭代优化 Anchor 框,以提高稀疏3D检测。此外,DETR4D[36]引入了一种新颖的混合方法,通过跨帧融合过去目标 Query 和图像特征,实现高效且鲁棒的时序信息建模。最近,StreamPETR[46]通过逐帧 Query 传播和运动感知 LayerNorm ,有效地模拟时间数据和目标跟踪。
State Space Model
状态空间模型已经成为了传统序列建模方法的有前景的替代方案。传统注意力机制的一个关键问题是,相对于序列长度,它们的时间和空间复杂度是线性的。为了克服这一限制,[10]提出了线性状态空间层(LSSL),这是一个受到控制系统启发的模型,它结合了循环神经网络、时间卷积和神经微分方程。
[9] 引入了结构化状态空间序列模型(S4),它提供了一种更高效的计算方法,同时保持了长序列建模任务的理论优势。状态空间模型的进一步发展包括引入S5层[42],探索使用门控状态空间进行长程语言建模[38]。最近,通用的语言模型骨架Mamba[8]在大型规模的真实数据上超过了Transformer,并具有线性序列长度的扩展性。
这些进展已经集成到更大的表示模型中,进一步展示了结构化状态空间模型在各种应用中的灵活性和可扩展性。状态空间模型还在视觉任务中得到了扩展。
[18] 使用一维S4来处理视频分类的长期时间依赖性。 TranS4mer [19] 结合了S4和自注意力,实现了电影场景检测的最先进性能。V Mamba [34] 引入了一个具有线性时间复杂度的视觉背包装视觉状态空间(VSS)块与2D选择扫描(SS2D)模块。
3 Method
图2说明了所提出的MambaDETR的整体结构,该结构遵循DETR3D[48]的架构,其中目标表示为从多视图图像特征中提取的 Query 。MambaDETR通过以下设计发展了DETR3D:2D-先验- Query 初始化(第3.1节),运动消除 和 Query Mamba 。
对于2D-先验- Query 初始化,作者输入图像特征,并利用2D检测器获得2D Proposal 。然后,通过3D投影从这些2D Proposal 初始化3D Query 。运动消除模块从之前的帧中删除冗余、无运动的3D Query ,保留只有移动的3D Query 进行时间融合。对于 Query Mamba,作者利用多个时间步的3D Query 序列作为输入,并在状态空间中实现时间融合。然后,输出 Query 与transformer解码器中的当前图像帧进行交互,并生成最终3D预测。
Query Generator
之前的方法[52]通过在图像热力图中应用最大池化操作生成许多 Query ,这既低效又耗计算资源。为了解决这个问题,现有的基于 Query 的3D目标检测方法[20, 21, 50]引入了2D Proposal 以提高3D检测性能。受到这些方法启发,提出的2D先验 Query 生成器使用2D检测器在特定区域内定位物体。因此,2D检测器不仅通过减少 Query 数量提高了计算效率,还为在3D空间中定位物体提供了有价值的2D先验。据作者所知,MambaDETR是第一个利用2D检测器增强时间融合性能的3D目标检测方法。
具体而言,在图像骨架特征之后,作者将这些特征输入到Faster-RCNN检测器[50]和轻量级深度估计网络[27]中,从而得到一组2D边界框和深度分布。2D检测器头遵循原始设计,而深度分布则表示为离散的bins[21]。对于视图中的每个2D边界框,作者从中心点初始化2D Query 。为了聚合2D边界框的语义信息,作者通过变形注意力[24, 29, 51, 56]与周围像素交互,以获得语义嵌入。像素候选的选择基于 Query 的位置和视图中图像特征的采样偏移。整个过程如下所示:
其中, 和 分别表示 Query 、参考点和图像特征, 表示注意力头, 是总的注意力头数量。 对应采样 Key , 是每个 Head 采样的 Key 数量。 表示预测的注意力权重, 和 是可学习的权重。向量 表示预测到参考点 的偏移量。术语 表示位置 的特征。
为了进一步将2D Query 提升到3D空间,每个2D边界框的中心点 与相应的预测深度分布 相结合,并投影到3D Proposal 的中心点 :
其中,, 分别表示第 架摄像机的内外矩阵。
生成3D Proposal 的中心点 后,作者使用正弦变换和MLP来获得3D位置嵌入 ,并按照上述过程将其与结合,最终得到3D Query :
Motion Elimination
运动消除(ME)模块被应用于通过丢弃后续时间融合过程中的相对静态目标 Query 来优化计算成本。更具体地说,作者在图3b中呈现了ME模块的结构,它由三个部分组成:零填充、帧对齐。对于零填充部分,给定3D Query 序列,作者选择第i帧的3D Query 中具有最大3D Proposal 数量K的3D Query 。
然后作者在剩余帧中的所有3D Query 中添加零填充,得到更新后的3D Query 序列,其大小为。
对于帧对齐,作者选择当前 Query ,第帧中的 previous Query 及其对应的 3D 中心点 ,。然后,通过自变换,将第帧中的 previous Query 对齐到当前帧。根据当前帧和 - 帧中的 和 ,作者首先计算自变换矩阵,并将 - 帧中的物体中心对齐到当前帧。整个过程可以表示为:
在获得对齐的中心点后,作者利用物体的L2中心距离来创建成本矩阵,用于衡量物体在不同帧之间移动的距离。
然后作者用两个标准来区分物体之间的相对静态位置:物体的L2距离低于阈值α,且帧和-中的物体类别相同。
之后,作者可以获得第t-j帧的运动 Mask 。作者将上述过程扩展到所有前帧,并收集运动 Mask 。需要注意的是,作者将 中的所有元素设置为1,这意味着当前帧的所有 Query 都将保留。最后,作者将3D Query 序列与运动 Mask 相乘,得到相对运动 Query 序列:
Query Mamba
3.3.1 Background
结构状态空间模型(SSM)可以被视为线性时不变系统,它将输入刺激 映射到响应 通过隐藏状态 。使用以下方程,可以在连续时间中定义SSM:
和 是加权参数。
将持续的SSM应用于深度模型中,作者引入了一个时间尺度参数,并将其离散化为:
论文中提到: 和 是 和 的离散表示。方程(10)也可以表示为卷积运算:
3.3.2 Query Mamba
如图2所示,是所提出的 Query Mamba的概述。对于第t-i帧的 Query ,作者在通道维度D上 ConCat 所有 Query ,得到融合候选。然后,遵循Mamba的标准1D输入,作者将融合候选序列输入到 Query Mamba模块。
首先,作者将序列传递到Layer Normalization层。接着,作者应用一个深度卷积(DW Conv)以及一个残差连接,这提高了CNN的效率,并在VMamba [34]中使用。然后,作者再应用另一个Layer Normalization和Gated S4(GS4)层,也带有残差连接。最后,序列经过一个带有残差连接的线性层,该层连接到Query Mamba的初始输入:
在作者的Mamba DETR方法中,基于SSM的模型起着重要作用,就像在基于 Transformer 的时间融合方法[28, 46]中的交叉注意力一样。对于输入序列,交叉注意力与SSM的计算复杂度可以表示为:
当固定为16时,如作者所见,交叉注意力在序列长度上的计算复杂度为平方,而SSM在上的计算复杂度为线性。这种计算优势使得基于SSM的方法在大规模序列建模方面具有可扩展性,因此对于长程探索具有益处。
4 Experiments
Dataset and Metrics
NuScenes数据集是一个全面的3D目标检测资源,涵盖了1000个场景,每个场景持续约20秒,并以2Hz的频率进行标注。该数据集包括来自六个摄像头的图像数据,以及来自五个雷达和一台激光雷达系统(LiDAR)的数据,提供了完整的360°视野范围。标注包括十个类别下的多达140万个3D边界框:汽车、卡车、公共汽车、拖车、建筑车辆、行人、摩托车、自行车、路障和交通锥。
场景被分为训练(700)、验证(150)和测试(150)集。在评估中,作者使用了包括平均精确度(mAP)、NuScenes检测得分(NDS)在内的多种指标,如平均翻译误差(ATE)和平均速度误差(AVE)等。mAP是基于地面平面上两个中心点之间的距离确定的,而NDS通过聚合其他相关指标,提供了对检测性能的整体衡量。
Ablation Study
4.2.1 2D Detector and Semantic aggregation
作者分析了2D检测器和语义聚合(SE)模块对生成物体 Query 的影响,如图1和图2所示。具体而言,为 Query 生成添加2D检测器实现了显著的改进,mAP增加了0.6%,NDS增加了0.4%。这一结果表明,2D检测器可以为 Query 生成提供可靠的2D先验,从而有益于3D目标检测。此外,作者还可以看到,2D检测器对推理速度和GPU内存使用产生了负面影响。作者认为,2D检测器引入的额外计算成本超过了减少 Query 数量带来的节省。语义聚合也被证明在改善 Query 质量方面有效,这表明在 Query 生成中语义信息的重要性。
4.2.2 Motion Elimination
MambaDETR通过运动消除(ME)模块减少了非关键 Query 。表2显示,ME模块可以通过1.2 FPS的速度提升和0.6 GB GPU内存的节省,显著改善推理速度。这表明ME模块成功地去除了非关键 Query 。此外,提出的ME模块在mAP上实现了0.1%的有限提升,在NDS上实现了0.3%的降低。这表明减少冗余 Query 不仅可以提高计算效率,还能有益于检测性能。
4.2.3 Query Mamba
作者尝试了不同的S4变体(表3)以及更改层数的影响(表4)。在表3中,作者评估了几个S4变体,包括标准S4、S6、对角线S4(DS4)和门控S4(GS4)。作者的发现表明,GS6实现了最高的mAP为50.8,超过了其他变体。
Results and Analysis
4.3.1 Main Results
作者将提出的Mamba DETR与先前的基于视觉的3D检测器进行了比较,这些检测器在nuScenes验证和测试集上进行了评估。如表5所示,Mamba DETR在验证集上表现出色,与其它方法相比在NDS、mAP和局部化指标上取得了显著的改进。具体来说,使用ResNet101 Backbone 网络和8帧输入的MambaDETR在NDS上比StreamPETR提高了0.7%,在mAP上提高了0.4%。此外,Mamba DETR的mATE值也显示出显著的改进,与大多数竞争对手相比,局部化误差降低了。这表明了Mamba DETR的目标检测和跟踪能力的有效性。
在对比表6中测试集上的性能时,Mamba DETR再次取得了令人印象深刻的结果。使用ViT-Large Backbone ,Mamba DETR在mAP达到68.2%,NDS达到60.7%,比StreamPETR提高了0.6%的mAP,并展示了在mASE和mAOE指标上的可比性能。值得注意的是,Mamba DETR还实现了比许多竞争方法更低的mAVE,这表明了改进的速估计和更好的时间一致性用于跟踪移动目标。此外,作者在图4中展示了检测结果的视觉化,这也有效地证明了所提出的MambaDETR的优越性能。
4.3.2 Temporal Extent Analysis
为了验证输入图像序列的长期探索,作者评估了不同的训练帧数量(即1、2、4、8和12帧)的StreamPETR和MambaDETR。结果如图5(a)所示。首先,作者发现2帧的短期时间窗口产生了次优的性能,即40.7% mAP。将时间范围扩展到8帧,性能提升到50.8% mAP,提高了10.1%。进一步扩展到12帧,mAP继续提升,达到52.2%,表明增加帧数并不能获得明显的改进。与作者的 Baseline StreamPETR相比,MambaDETR在所有训练帧上始终优于 Baseline ,特别是在扩展时间窗口方面表现出色。这表明作者提出的利用长程时间信息的方法具有显著更好的检测性能。
4.3.3 Computational Efficiency Analysis
在图5b和c中,作者分别从推理速度和内存成本两个方面分析了MambaDETR的计算效率。在图5b中,作者观察到随着序列长度从35.9%增加到26.0%时,推理速度从FPS降低到26.0%。与此同时,StreamPETR的推理速度由于具有重复的时间融合机制而保持稳定,约为27%。
然而,除了帧数等于12的情况外,作者的MambaDETR的推理速度仍然比StreamPETR快。此外,图5c表明,随着序列长度的增加,MambaDETR的内存消耗显著低于StreamPETR,且仅呈现线性内存增长。在12帧的情况下,MambaDETR需要约15GB的内存,而StreamPETR的内存需求要高得多,峰值接近40GB。
5 Conclusion
在本文中,作者提出了MambaDETR,这是一个针对长序列时间融合的有效3D物体检测框架。与之前的方法不同,作者的方法采用状态空间模型(SSM)来实现高效、顺序的时间融合,同时保持线性的内存和计算复杂度。
此外,作者引入了运动消除模块,该模块有选择性地仅保留移动对象,从而提高了融合效率。
MambaDETR在nuScenes数据集上达到了最先进的性能,与基于变换器的方法相比,在计算效率上实现了显著提升,同时保持了检测的准确性。
作者希望MambaDETR能为自动驾驶应用中长序列时间建模的进一步发展提供有价值的参考。
参考文献
[0]. MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection.