SimpleBEV: 改进的LiDAR-摄像头融合架构用于3D目标检测 !

文摘   2024-12-13 09:39   中国香港  

自动驾驶之星




点击上方蓝字关注 自动驾驶之星

点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入
       

越来越多的研究将激光雷达(LiDAR)和相机信息融合,以提高自动驾驶系统的3D目标检测。最近,一种简单而有效的融合框架已经实现了出色的检测性能,将激光雷达和相机的特征融合到统一的鸟瞰视角(BEV)空间中。

在本文中,作者提出了一种名为SimpleBEV的激光雷达-相机融合框架,用于精确的3D目标检测,该框架遵循基于BEV的融合框架,并分别改进了相机和激光雷达编码器。

具体而言,作者使用级联网络进行基于相机的深度估计,并将激光雷达点提供的深度信息用于校正深度结果。同时,作者还引入了一个辅助分支,该分支仅使用相机-BEV特征实现3D目标检测,以在训练阶段利用相机信息。

此外,作者还通过将多尺度稀疏卷积特征进行融合,改进了激光雷达特征提取器。

实验结果证明了作者提出的方法的有效性。作者的方法在nuScenes数据集上实现了77.6% NDS精度,展示了在3D目标检测方面的优越性能。

1 Introduction

3D目标检测在自动驾驶感知系统中起着不可或缺的作用,该系统能够识别并定位3D交通环境中的物体。自动驾驶车辆上配备了多种传感器,以获得足够的和准确的环境感知结果。在车载传感器中,摄像头和激光雷达传感器受到了广泛的关注。激光雷达点提供了精确的定位和几何信息,而摄像头[14, 35, 7]提供了丰富的语义信息。由于这两种传感器提供了互补的特征,许多研究将激光雷达和摄像头数据融合,以提高3D目标检测性能。

最近,基于BEV的感知方法受到了广泛关注,因为它能直观地表示驾驶场景[3, 21],并且对于多视图摄像头和不同类型的传感器具有融合友好性。一系列方法利用基于 Transformer 的架构,通过在LiDAR特征和图像特征上进行交叉注意力来融合LiDAR和摄像头信息。相反,一些工作基于对齐的BEV特征图实现LiDAR-摄像头融合。尽管简单,基于BEV的融合框架实现了出色的检测性能。在本论文中,作者通过进一步利用摄像头信息和改进LiDAR特征提取器,基于BEVFusion构建了一个LiDAR-摄像头融合框架。

为了利用摄像头信息,作者增强了深度估计模块并引入了辅助检测分支。深度估计模块在基于相机的3D目标检测中起着关键作用。精确的深度结果在融合激光雷达和摄像头BEV特征图时,有助于特征对齐。因此,作者引入了两个阶段的级联网络进行更好的基于图像的深度估计,并使用从激光雷达点衍生出的深度信息校正估计的深度图。激光雷达模式在整合激光雷达和摄像头数据时,相对于摄像头模式起着重要作用。为了在整体模型联合训练过程中进一步利用摄像头信息,作者引入了一个辅助分支,该分支仅利用摄像头BEV特征实现3D目标检测。

此外,作者通过融合多尺度稀疏卷积特征,改进了LiDAR特征提取器。为了减少计算和内存成本,首先将3D Voxel 特征编码到BEV空间。然后,将多尺度LiDAR-BEV特征图融合生成一个表达式丰富的BEV特征图。

实验结果表明,所引入的辅助分支和优化的摄像头/LiDAR特征提取器可以有效提高3D目标检测性能。此外,通过模型集成和测试时增强,作者的模型在nuScenes排行榜上实现了最佳NDS评分。

作者的工作贡献可以总结如下:

  1. 作者构建了一个多模态检测模型,用于3D目标检测。它遵循BEVFusion[16]的框架,但在训练阶段增加了一个辅助分支,用于利用相机信息。此外,作者还改进了基于相机的深度估计器和基于LiDAR的特征编码器,以提供更多有效的特征,用于多模态融合。

  2. 提出的SimpleBEV方法在nuScenes数据集上实现了最先进的3D目标检测性能。

2 Related Works

基于相机的3D目标检测。早期工作[11, 35]提出了单目3D目标检测。通常,它们基于图像实现2D目标检测,然后使用第二阶段将2D结果投影到3D空间。然而,这种直观的检测策略在处理周围相机的输入时,需要进行复杂的后处理才能实现鲁棒的结果。最近,视觉BEV感知方法在工业和学术界引起了巨大的关注。这些架构将来自多个图像的特征转换为统一的BEV帧[10]。BEV特征可以直接用于许多下游任务,并且是融合友好的。这些方法可以根据转换模式[21]分为两类:"基于几何的转换"和"基于网络的转换"。代表性的"基于几何的方法"[7, 12, 25]采用显式深度估计,并根据物理原理将提取的特征投影到3D空间。[12]应用激光雷达数据来监督深度预测训练,[6]引入时间线索以提高3D目标检测性能。而"基于网络的方法"使用神经网络将图像特征隐式映射到BEV空间。许多工作[8, 14, 17]使用变形器将图像特征转换到BEV空间。它们都使用变形器[43]来减少计算和内存成本。

基于LiDAR的三维目标检测。主流的三维目标检测方法可分为基于点的[27, 28]和基于体的[4, 38, 41]方法。基于点的方法[27, 28]直接操作不规则的LiDAR点并利用空间信息。相反,基于体的方法[4, 38, 41]首先将无序的LiDAR点转换为具有预定义网格大小的体模式,然后将2D/3D CNN应用于规则 Voxel 以获得检测结果。近年来,一些方法[23, 29]将三维 Voxel 网络和基于点网络集成在一起,以实现更具有代表性的特征。

为了实现自动驾驶车辆的准确三维目标检测,许多研究行人致力于有效地融合摄像头和激光雷达的信息。根据融合操作,摄像头-激光雷达融合方法可以分为三类:“早期融合”、“中期融合”和“晚期融合”。

“早期融合”方法主要首先实现图像信息(特征[34],语义标签[33],或边界框[26])并将其结果输入到激光雷达分支以实现最终检测。这些方法需要额外的复杂2D网络,并遭受具有少量激光雷达点目标的检测。

“晚期融合”方法将来自独立摄像头和激光雷达分支的结果进行融合。尽管其效率高,但这种方法限制了从不同模态中丰富而互补信息的开发利用。

“中期融合”方法在业界和学术界受到最多关注。早期的研究工作[3, 9]基于激光雷达或激光雷达-摄像头信息生成三维物体 Proposal ,并融合基于物体 Proposal 提取的激光雷达和摄像头特征。近年来,许多与BEV相关的融合方法[1, 16, 13, 19]被提出,灵感来自于视觉BEV表示。这些方法使用LSS[25]提取摄像头BEV特征,并将其与激光雷达BEV特征进行融合。使用激光雷达特征作为 Query ,融合图像和激光雷达特征。构建一个两阶段的流水线,第一阶段产生初始三维边界框,第二阶段将物体 Query 与图像特征进行关联和融合,以获得更好的检测结果。将图像和激光雷达特征视为 Token ,并直接使用 Transformer 实现三维目标检测。为了在融合过程中进一步开发利用摄像头信息,[39]应用两个独立的分支进行表示交互和顺序模块进行预测交互。

作者的方法基于BEVFusion[16]方法,并加强摄像头和激光雷达分支,以实现更好的三维目标检测性能。

3 Method

作者设计了一个基于摄像头和激光雷达数据的跨模态3D目标检测器SimpleBEV,其框架如图1所示。作者首先介绍了与摄像头相关的分支和激光雷达分支。与摄像头相关的分支包括一个摄像头分支,用于提取图像特征并将其投影到BEV空间,以及一个辅助分支,在训练阶段更好地利用摄像头信息。然后,作者提出了BEV编码器和解检测Head,用于最终检测任务。

Camera related branches

相机分支。输入的多视图图像首先通过一个共享的图像编码器进行深度特征提取,该编码器包括一个图像 Backbone 网络用于特征提取和一个简单的FPN颈用于融合多尺度特征。具体而言,作者采用ConvXt-Tiny [18]作为图像 Backbone 网络来提取代表性的图像特征。图像 Backbone 网络不同阶段的特征图被输入到FPN颈中,以利用尺度变量的表示。然后,指定层的特征图被用于生成相机BEV特征图。

在给定第i张图像特征图的情况下,作者遵循LSS [25]中类似的工作流程,将图像特征转换到BEV空间。首先,利用图像特征估计每个像素的深度分布,其中表示离散化的深度bin数量。然后,每个图像特征根据不同深度bin的概率进行加权,并将其投影到3D坐标以形成frustum特征。多个摄像头的3D特征都转换为LiDAR坐标,并通过voxelization和沿高度的sum pooling形成相机-BEV特征图分别表示BEV坐标中x轴和y轴的网格大小。

上述特征变换过程中的深度估计在基于相机的3D目标检测中起着关键作用。一个更好的深度预测器有利于摄像机BEV和激光雷达BEV特征的对齐。为了提高深度估计的精度,作者修改了深度估计网络,并引入激光雷达数据生成精确深度。

构建了一个两阶段的级联结构,以获取基于摄像机的深度图。第一阶段的输出深度图与第一阶段特征图拼接,然后将融合特征图输入到第二阶段。同时,激光雷达点被转换为第i个摄像机坐标并投影到图像坐标,形成深度图。由于特征图上的投影点稀疏,作者引入了一个二进制 Mask 图,以表示特征图上的像素是否被激光雷达点 Token ( Token 为1)或未被 Token ( Token 为0)。

最终深度图中像素的深度计算为

换句话说,最终深度图是由在稀疏激光雷达基础深度图上的孔隙中填充基于图像特征的估计深度图生成的。融合深度图用于图像特征投影。


辅助分支。 在训练阶段激活的摄像头信息被进一步利用,引入了辅助分支。摄像头分支编码来自摄像头的BEV特征。引入了基于 Anchor 点的检测Head以实现3D目标检测任务。摄像头BEV编码器由多层卷积和多尺度特征融合模块组成。辅助检测Head遵循CenterHead [40]的结构,仅使用摄像头BEV特征进行3D目标检测。

LiDAR branch

激光雷达分支遵循SECOND [38]的类似流程来提取3D特征,并融合不同尺度的多尺度特征。框架如图3所示。原始点首先转换为 Voxel 特征。然后,依次应用多个稀疏3D卷积层到特征上,以生成多尺度3D特征。为了增强激光雷达基于特征捕获多尺度物体的能力,作者引入了多尺度特征融合策略。不同阶段的多个多尺度3D特征首先转换为多个2D BEV特征。

作者应用多个3D卷积来压缩z维度,并沿着z维度将特征连接起来,将3D特征转换为2D BEV特征。然后,利用多个上采样和卷积操作来融合多个BEV特征图。最终,将激光雷达BEV特征输入到相机-激光雷达特征融合模块。

BEV encoder & Detection head

融合的BEV特征  是由摄像头BEV特征  和激光雷达BEV特征   ConCat 得到的。然后,融合的特征在BEV空间中进一步编码。BEV编码器通过多次卷积增强BEV特征,并合并多尺度特征。

作者在最终的检测任务和辅助检测任务中分别采用了成熟的基于transformer的head [1]和中心热力图head [40]。具体来说,基于transformer的head使用融合的BEV特征,而中心热力图head利用相机的BEV特征。

Training

该模型通过最小化以下损失的总和进行训练:


在这里,表示基于融合BEV特征的检测损失。作者使用与[1]中相同的损失函数。表示仅使用相机-BEV特征来自助分支的检测损失。

是相机分支中训练深度网络的深度损失,其 GT 来自激光雷达数据。

4 Experiments

Experimental setup

数据集 实验基于nuScenes数据集[2]进行。该数据集使用1×32束LiDAR,捕捉频率为20Hz,以及来自6个周围相机的图像信息,捕捉频率为12Hz。

每个相机提供的图像具有相同的分辨率:1600×900。该数据集包括1000个场景,带有标注的3D边界框,这些场景被划分为训练/验证/测试子集,分别为700/150/150个场景。作者在10个目标检测结果上评估模型,使用的指标为平均平均精度(mAP)和nuScenes检测分数(NDS)。

实现细节:作者根据代码基础mmdetection3d [5]实现作者的方法。在评估期间,输入图像被缩放和裁剪到256704分辨率,摄像头分支生成具有输入分辨率的特征。

作者分别将X、Y、Z轴的 Voxel 大小设置为(0.075m,0.075m,0.2m)。检测范围分别设置为X轴[-54m, 54m],Y轴[-5m, -3m],Z轴[-5m, -3m]。BEV网格大小设置为0.6m。

作者使用AdamW [20]优化器,采用一循环学习率策略[30]训练模型。模型训练20个周期,其中在个周期后停止使用GT-Pasted数据增强策略。不使用CBGS [42]。

在测试阶段,作者将图像分辨率放大到6401600。对于在线提交,作者采用测试时的增强(TTA)策略,包括多个偏航旋转和全局尺度。同时,作者使用额外的 Voxel 大小(0.05m,0.05m,0.2m)和BEV网格大小在0.3m和0.6m之间训练多个模型。结果通过加权 Box 融合(WBF)策略[31]进行融合。

Comparison to the state-of-the-art methods

作者将作者的方法与最先进的在nuScenes测试数据集上的方法进行了比较。结果如Tab.1所示。作者的模型在mAP和NDS指标上取得了最佳结果。同时,作者还与在nuScenes验证集上的最先进方法进行了比较。

如Tab.2所示,作者的方法在mAP上比作者的方法(BEVFusion [16])提高了3.5%,在NDS上提高了2.5%。在mAP和NDS上的出色表现证明了作者的方法的有效性。

Ablation experiments

关于LiDAR分支的消融结果。作者评估了仅使用LiDAR数据的检测器的性能。结果如表3所示。与CenterHead基于的检测器相比,基于 Transformer 头的检测器性能更好。

同时,作者发现,在最后5个epoch中禁用GT-paste增强策略[38]可以显著提高检测性能,这在[34]中被称为衰退策略。如最后两行所示,将多尺度BEV特征融合并增加通道数量可以提高检测性能。

消除相机分支。作者在表4中展示了改进的相机分支的优势。首先,仅使用相机数据评估具有不同 Head 的检测器的性能。中心 Head 性能更好。因此,辅助分支利用中心 Head 作为检测Head。首先,使用激光雷达数据训练一个深度校正模型。结果见第四行。

然后,禁用上述模型的深度校正,并显示第三行的性能。没有深度校正,mAP检测性能下降2.08%,NDS检测性能下降1.22%。激光雷达数据提供的深度信息可以提高图像特征的定位精度,进一步带来更好的融合检测性能。同时,辅助分支可以提高最终检测性能。

作者还在nuScenes验证集上评估了具有不同图像分辨率和BEV网格大小的检测器。结果如图5所示。显然,提高图像的分辨率和BEV特征图的尺寸可以提高3D目标检测性能。

5 Conclusion

在本文中,作者提出了一种有效的多模态融合框架SimpleBEV,用于在自动驾驶环境中检测3D对象。

它遵循基于BEV的融合方法架构,在统一的BEV空间中融合激光雷达和摄像头特征。

实验证明了作者方法的有效性。改进的摄像头深度估计模块和多尺度激光雷达-BEV融合模块可以有效提高检测性能。

此外,引入的辅助分支在训练期间有利于摄像头信息的利用。

未来,作者将把更多传感器集成到框架中,并探索基于融合特征的更多下游应用。

参考文献

[0]. SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection.

知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。









知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章