低成本的、以视觉为中心的自动驾驶3D感知系统近年来取得了显著进展,缩小了与昂贵激光雷达(LiDAR)方法的差距。要成为完全可靠的替代品,主要挑战在于强大的深度预测能力,因为基于相机的系统在长距离检测以及恶劣的光照和天气条件下存在困难。
在这项工作中介绍了HyDRa,一种用于多种3D感知任务的新型相机-雷达融合架构。基于密集的鸟瞰图(BEV)架构的原则,HyDRa引入了一种混合融合方法,在两种不同的表示空间中结合了相机和雷达特征的优点。高度关联Transformer模块利用雷达特征在透视视图中生成更稳健和准确的深度预测。在BEV中通过雷达加权深度一致性改进了初始稀疏表示。
HyDRa在公开的nuScenes数据集上实现了相机-雷达融合的新纪录,NDS达到64.2(提高了1.8)和AMOTA达到58.4(提高了1.5)。此外,我们新的富含语义且空间准确BEV特征可以直接转换成强大的占用表示,在Occ3D基准测试中,相比所有之前的基于相机的方法,大幅提高了3.7 mIoU。
代码和模型:https://github.com/philwol/hydra
1 Introduction
可靠的且负担得起的3D感知是自动驾驶车辆安全高效运行的重要基石,使代理能够在动态环境和复杂场景中导航。在这个快速发展的领域,基于深度学习的摄像头-激光雷达融合已成为从多个传感器进行3D重建的事实上的标准,它在3D目标检测、语义分割和目标跟踪方面有着可靠的记录。
尽管激光雷达传感器能提供高度精确的几何感知,但它们对于大规模部署仍存在高成本障碍。为了普及自动驾驶系统的接入,近年来和无激光雷达、以视觉为中心的系统获得了显著关注。特别是在基于鸟瞰视角(BEV)的架构出现后,仅使用摄像头的方法已取得了显著进展。摄像头提供密集且高分辨率的语义信息,从理论上讲,这使得能够检测到远距离的物体。然而,主要的实际挑战在于,在2D投影后保持空间信息,这导致了不稳定的深度估计和定位误差。另一个被动传感器的难点是由遮挡的动态物体造成,而这些物体对于安全决策仍然至关重要。
在这个研究领域中,雷达传感器的融合仍然没有得到足够的重视。尤其是摄像头-雷达融合技术一直被学术界忽视。作为一种基于飞行时间原理的低频主动传感器,雷达在恶劣的天气和光照条件下表现出显著的鲁棒性,能够为高达300米的感知范围提供度量测量。此外,通过利用多普勒效应,雷达反射可以提供关于移动和被遮挡物体的有价值速度信息,强调了其作为摄像头补充传感器的潜在好处。将这两种传感器类型结合起来,是发挥可访问3D感知系统全部潜能的关键。
然而,将这两种传感器类型集成到一个连贯且健壮的感知系统中的任务是一项具有挑战性、非平凡的任务。雷达数据的独特特性使得有效地将雷达检测与相机特征关联起来变得复杂。缺乏高度信息、雷达返回的稀疏性、多路径反射产生的噪声、假阳性的出现以及整体较高的测量不确定性,使得雷达数据处理和与相机特征的关联变得困难。
因此,在本质上稀疏的雷达数据上直接应用最先进的类LiDAR架构已被证明是无效的。尽管以点云形式存在,Yan等人强调,在当前的nuScenes 3D目标检测任务领先方法中,CMT在将雷达数据整合到其流程中时性能下降。因此,我们认为在采用雷达时需要显著改变融合范式。
传统上,融合方法严重倾向于LiDAR,网络的绝大部分能力用于处理LiDAR点云,而相机数据仅作为补充的语义信息来源。在新方法中,将LiDAR传感器排除在外,极大地优先从相机馈送中提取密集的语义信息并将其投影到BEV网格中。这种方法严重依赖于先进的2D特征提取技术以及高效的视图变换和提升模块。在这种新配置中,雷达数据扮演的角色类似于之前的基于相机的方法,用稀疏的度量信息增强主要模态,并成为一个指导模块。
现代实践集中在了BEV中的自适应融合,以减少特征聚合过程中的空间错位。尽管有了这些改进,它们仍然在稳健的深度估计上存在困难,并且在特征转换中部分依赖于单目深度线索。现有的技术虽然创新,但没有完全利用雷达在统一稳健深度感知方面的潜力,常常导致一个双阶段投影过程,其中每种模态阶段都依赖于其自身可能不一致的深度估计。我们认为,为了完全释放潜力,我们必须将融合阶段提前
欢迎加入自动驾驶实战群
在这项工作中提出了HyDRa,这是一种先进的相机-雷达融合架构,非常适合解决各种3D感知任务。我们的贡献及实现无需激光雷达的自动驾驶车辆和高级驾驶员辅助系统的重要步骤如下:
介绍了高度关联Transformer(HAT)模块,并解决了先前生成鸟瞰图(BEV)的深度网络的局限性。通过在透视视图中创建统一的几何感知特征,我们显著减少了现有方法的转换误差。
提升了“反投影即细化”的概念,并建立了一种雷达加权深度一致性(RDC),用以增强在鸟瞰图(BEV)中的稀疏融合特征,解决特征错位、未关联以及遮挡物体的问题。
广泛消融了设计选择,并显示我们的每项贡献都能显著提高模型在nuScenes检测与追踪挑战上的性能,但所有组件的协同作用对于达到同类最佳结果是至关重要的。
HyDRa 在 Occ3D 基准测试上为基于摄像头-雷达的3D语义占用预测建立了开创性的模型,推动了现有以低成本视觉为中心方法的性能上限。
2 Related Work
Camera-based Architectures
密集基于BEV的架构。 从基于透视视角的3D目标检测转变为基于鸟瞰图(BEV)的感知,基于BEV的架构已成为3D目标检测和跟踪的新标准。通过引入可微提升方法,标准的2D卷积神经网络或基于Transformer的特征提取器 的图像输出被转换成更适合下游任务友好的BEV地面平面表示。BEVDet系列及其后续工作提高了高效强大的前向投影管道的标准,预测了一个明确、密集、逐像素的深度分布,并在BEV空间中池化相机视锥特征。
BEVDepth ,SoloFusion 和BEVStereo 通过在训练过程中利用激光雷达监督来专注于定位,研究长期4D融合和时间立体匹配以获得更好的深度估计。BEVFormer 表明,视图变换的逆向建模是前向投影管道的有效替代方案;通过将一组预定义的BEV网格查询进行后向投影。空间可变形交叉注意力隐式地学习通过与多个图像特征图中的感兴趣区域交互来建模3D关系。
FB-BEV将这两种方法结合到前向-后向投影范式中,建模更精确的投影关系。它通过确保两个模块之间的深度一致性,来解决两种投影类型中固有的稀疏性和不准确性问题。我们将基于这个有前景的概念进行构建,并将其扩展到多模态领域,通过引入一种新颖的雷达加权深度一致性,并在补充表示空间中融入雷达数据,以强制执行更准确的深度估计。
稀疏基于BEV的架构。 与建模整个周围环境相比,一项并行的研究已经建立了将场景建模为一系列稀疏的目标查询,通过隐式注意力解码3D提案。除了长期时间融合之外,StreamPETR引入了目标级别的时间机制和查询去噪,以建立一种高效且强大的检测与跟踪范式。SparseBEV通过尺度自适应的自我注意力和受到AdaMixer启发的时空采样重新构建了设计。
在没有明确的密集BEV特征构建的情况下,该模型在检测前景物体方面表现出色,具有可比较的较高平移误差。这些稀疏架构不能轻易应用于完整环境理解,例如可驾驶区域和道路边界。因此,专注于基于密集BEV的架构,因为它们最适合面向完整规划堆栈的端到端自动驾驶。
Multi-modal Architectures
最初关于摄像头与雷达融合的工作受到了传感器输入之间视差限制。GrifNet、CRAFT 和 Centerfusion 通常采用感兴趣区域池化的晚期融合方法,在透视视图或鸟瞰视图中进行处理。它们专注于生成基于摄像头的检测结果,并通过与相关雷达点检测的偏移进行细化。其他研究直接将视图对齐的雷达特征图与高级图像特征连接起来,并将融合后的特征输入到标准的3D检测头中。
由于缺少高度信息,它们依赖于基于简单启发式的雷达点复制。我们通过设计一个端到端可训练的与图像特征高度维度关联的方法来解决这些缺点。X3KD 探讨了一个知识蒸馏框架,跨模态地从基于激光雷达的教师模型中提取知识,而 BEVGuide 和 FUTR3D 采用基于鸟瞰查询的特征采样器与变压器解码器,但它们都没有在视图变换中利用雷达。
通常,将雷达以自然的三维表示形式即鸟瞰图(BEV)网格进行融合,迄今为止已被证明是最为有效的方法。RCBEV 实证显示,使用专门的或繁重的点云处理特征主干网络并不会带来性能提升——这就是为什么我们最先进架构采用了高效的柱编码体素化方法。
前者在雷达-相机融合领域的先进技术,CRN采用了与BEVDepth相同的底层架构。Kim等人引入了一种多模态可变形注意力机制,以及一个比简单拼接具有更大感受野的BEV融合特征算子。此外,他们还提出了一个雷达辅助视图转换(RVT),通过基于雷达占用率的视图投影来补充单目深度估计网络,该方法在两个独立的流中工作。他们首次在nuScenes数据集上证明,当感知范围增加到100m时,基于雷达融合的方法在远距离上优于激光雷达。
尽管CRN的RVT是朝着正确方向迈出的一步,但它仍然依赖于两个平行但独立的视图转换。我们提出了一种更统一的方法来解决这种由单目深度线索引入的空间错位问题,通过将融合移动到更低的层次,并设计了一种混合融合方法。
Occupancy Prediction
占用预测是三维感知背景下新兴的一项任务,旨在预测周围三维环境中每个体素(voxel)的占用情况和语义类别。它是面向规划的端到端自动驾驶全栈中的一个重要中间任务,对规划L2误差和碰撞率有积极影响。语义占用预测甚至有助于超越基于激光雷达(LiDAR)的规划器。密集架构(2.1)能很好地预测动态和静态前景以及背景体素的三维状态,因为此任务严重依赖于深度估计的质量。与在2D BEV空间上工作不同,地面平面网格扩展到3D体素,然后由3D卷积编码器进行预测。我们展示了,融合了摄像头和雷达的BEV表示最适合这项任务,并且优于所有之前的仅摄像头方法。
3 HyDRa Architecture
我们介绍了HyDRa,一种新颖的摄像头雷达融合架构,旨在减少深度预测误差,并在3D目标检测和语义占有率预测方面达到最先进的表现。整体架构在图1中进行了可视化,并包括以下关键组成部分:
特定模态特征编码器: 多视角图像被输入到一个2D编码器并转换为高级特征图。雷达点云通过点Pillar进行体素化并编码为一个高度层次的特征。
统一深度预测:我们新提出的Height Association Transformer利用交叉注意力机制将相应相机视锥中的Pillar特征(缺失的高度,稀疏的深度)与图像列(缺失的深度,密集的高度)相关联。这种几何感知特征以残差方式添加,并转换成密集的深度分布。
BEV融合:前向投影模块生成初始的BEV表示,并与雷达Pillar通道进行拼接,通过一个简单的Squeeze-and-Excitation层进行融合。可选地融合缓存的历史特征。
雷达引导的逆向投影:逆向投影模块通过由雷达BEV特征计算出的雷达加权深度一致性来细化初始稀疏特征,同时引导其隐含编码的位置和雷达感知的深度分布。
下游任务头: 融合的BEV表示通过附加的残差块进行编码,并输入到相应的任务头中。
Vision-Centric Foundation
在HyDRa中,我们提出了对现有以视觉为中心的3D感知系统的扩展。因此,我们在基于相机的高性能目标检测(BEVDet系列)的最新进展以及简单但有效的在BEV空间融合雷达和图像特征的概念基础上进行构建。该设置遵循我们的基线方法CRN。图像编码器、多分辨率特征金字塔网络、Context-Net、Depth-Net和BEV-Encoder采用了与之前工作相同的架构选择。
Height Association Transformer
HyDRa利用了每种模态的优势来克服以视觉为中心的深度预测的主要挑战。我们提出了一种新的基于Transformer的插件模块,以利用雷达Pillar特征的互补性(见图2)。
主要的挑战是将雷达特征与透视视图中的相应图像特征相关联。作为对比,CRN的RVT由于在高度维度上信息缺失而坍缩了图像特征,并且使用视锥内稀疏编码的仅雷达占用情况在BEV空间中涂抹特征。我们不是使用单独的视图变换或者将噪声深度图作为输入,而是旨在学习下采样特征图的哪部分应该从沿整个图像高度的扩展感受野中的噪声和模糊雷达编码中受益。
令 表示2D图像骨干输出的结果,而 描述了相应相机视场中的雷达Pillar特征。 是批处理大小, 是相机视图的数量, 是降采样特征的高度维度, 是降采样特征的宽度, 是相机视场中的深度区间数量, 是同等大小的嵌入维度。为了提高效率,我们针对每个雷达特征Key和Value 在地面上查询单一列 的离散单目高度特征 。因此,我们将特征张量重塑为新的批处理大小 。
对于每个'sequence',我们应用一个可学习的位置嵌入。接下来,我们用自注意力编码高度区间并通过交叉注意力解码和融合雷达特征。在深度区间平面上激活峰值的比较与有前景的高度提案一起,将几何关系编码在注意力中,从而在密集特征空间中引入稀疏但强烈的度量线索。任何一种模态都缺少另一个传感器可以提供的关键信息。
为了稳定学习,我们在融合特征上应用零初始化的层归一化,并将它们残差式地添加到原始图像特征中。产生的特征图 是深度和上下文网络的输入,生成最终更加鲁棒的深度分布。
Radar-Weighted Depth Consistency
在HyDRa中,我们解决了在整合来自多个传感器的深度信息时遇到的两个挑战:空间错位和投影不一致。CRN 尝试通过其多模态可变形交叉关注(MDCA)模块,利用全局感受野来补偿空间错位,这个模块仅在鸟瞰图(BEV)内操作。
相反,提议将初始一组提升和溅射的鸟瞰图特征与雷达Pillar通道连接起来,并通过我们的雷达加权后投影流水线进行细化。将后投影作为细化扩展到多模态领域,在视图差异两端的两个投影空间之间强制执行一致性。我们将深度一致性全周期提升三倍,以增强投影质量,利用HAT模块和一个轻量级雷达引导网络(RGN)的协同作用。通过一个小型的 卷积后接sigmoid函数,RGN将仅雷达的鸟瞰图特征编码为额外的注意力权重 (参见图3)。
整个概念依赖于将3D BEV点通过经典投影方式映射到2D图像坐标,并使用投影矩阵。每个BEV提议位置隐式地编码了一个对应的深度值。
通过将交叉注意力[85]与预测的深度分布 和隐含的查询深度值 (转换为分布)的一致性 (标量积)加权,我们丰富了否则会稀疏、不对齐,尤其是不匹配的单模态特征。
我们的HAT模块通过增强显式深度(雷达的推动效应)来解决方程1的左侧。BEV融合为方程1的右侧(雷达的拉动效应)激活了更好的提议位置 。可变形交叉注意力使它们更接近,并在方程的两边实施深度一致性。我们遵循[36]的表示法,并适应雷达加权的空间交叉注意力(SCA):
用表示可变形注意力,动态地在图像特征图上的投影点周围采样特征,通过深度一致性权重和雷达注意力进行加权。方程式3突显了互补的混合融合方法对于更稳健的深度预测是有益的。
此外,我们通过将反投影模块在时态融合之后移动,重新设计了模块的顺序,以利用部分遮挡物体,这些物体不仅由雷达反射指示,也由传播的历史特征指示。
Down-stream Tasks
我们的最终鸟瞰图(BEV)表示可以用于多个3D感知任务,泛化性能良好,适用于3D目标检测、3D多目标跟踪(MOT)以及3D语义占用预测。为了将特征解码为边界框特性(3D位置、3D大小、偏航方向和2D速度向量),我们遵循密集架构的标准做法,并使用了一个简单的无锚点基于中心的Head。与[23]类似,我们采用了CenterPoint基于框的跟踪检测方法,该方法依赖于基于速度的贪婪距离匹配。
我们强大的融合鸟瞰图(BEV)特征可以直接转换成丰富的语义占用输出,无需将特征向前投影到完整的3D体素立方体或基于3D卷积的BEV编码器中。我们使用一层11的通道到高度卷积为占用Head创建最终表示。我们简单地将最终的BEV特征在通道维度扩大到,并将特征图重塑到新的高度维度,得到。这种新的未堆叠表示被送入低成本的占用Head。
4 Experiments
Dataset and Metrics
我们在nuScenes数据集和Occ3D基准上对HyDRa进行了广泛的实验和消融研究,并在三个不同的任务上,将我们的模型与其他相关的基于相机和雷达的方法进行比较挑战。
nuScenes 数据集是基于摄像头-雷达的大规模3D感知研究的主要基准测试。该数据集包含了来自波士顿和新加坡城市环境的1000个多样且复杂的环境,包括左右行驶的交通和不利条件,如夜间和雨天。
该数据集以2Hz的频率进行标注,提供了6个RGB摄像头、5个毫米波雷达传感器和1个激光雷达传感器。nuScenes提供了一组丰富的指标来评估3D感知算法的质量:平均精度,平均平移、缩放、方向、速度和属性误差。NDS是所有其他指标的加权平均值。AMOTA评分对基准上的追踪器进行排名,并评估整体的3D多目标追踪性能。
Occ3D nuScenes Occ3D基准测试评估任意形状的3D前景和背景物体的质量。目标是预测包含18个类别体素化表示的ego-car周围的完整3D场景几何。该基准测试报告了真实阳性、假阳性和假阴性体素预测数量的平均交并比(mIoU)。
Implementation Details
参考文献中,我们按照前人工作的最佳实践,在三种不同的缩放设置下训练我们的模型。我们将默认的骨干网络设置为ResNet50,输入分辨率为256×704,118个深度类别,以及0.8m的Pillar体和鸟瞰(BEV)网格大小,从而得到128×128的BEV空间。采用AdamW优化器,批处理大小为64。将模型骨干网络和图像分辨率提升到ResNet101(512×1408)和V2-99(640×1600),BEV空间加倍至256×256的标准。为了与测试集上最新的基于相机的方法进行比较,我们选择了更小且更高效的V2-99骨干网络。
我们基于BEVDet系列的代码库进行构建,特别是采用了BEVPoolV2的高效实现作为前向投影视图Transformer。我们遵循[55]的记忆效率顺序采样和设置进行20个周期的训练,不使用CBGS。这减少了步骤之间的采样多样性,但显著加快了训练时间。
关于反向投影模块,我们遵循FB-BEV的配置。为了权衡参数数量,将骨干网络输出和深度网络中间通道数量减半。HAT模块通过一层普通的自注意力层和交叉注意力层实现,这些层在16倍下采样的高度查询上工作。这导致了三种模型大小的高度箱序列分别为16、32和40。对于时间融合,我们遵循[36, 39, 67],并使用最后8个历史帧。数据增强与BEVDet和CRN相同,但未使用测试时增强。为了公平评估,每个模型只在其相应的任务上进行训练,并采用与基线方法相同的任务头和监督信号。
Main Results
3D目标检测
在表1中报告了HyDRa模型在nuScenes验证集上的结果。使用ResNet50作为基础网络,取得了新的最佳成绩,即58.5的NDS,超过了之前由CRN创下的56.0 NDS最高分,提高了2.5 NDS。将模型和图像分辨率扩展到ResNet101和512×1408,我们保持了较大的领先优势,将NDS提升至61.7,在验证分割上超过了所有其他基于摄像头和雷达的方法。
我们要强调的是,平均平移误差(mATE)的显著改善,达到了0.416,这归功于HyDRa模型强大的深度估计概念。我们提出的HyDRa模型,借助更强大的ConvNext-Base基础网络,在平移和速度估计方面的加强,使得在nuScenes测试集上比CRN高出1.4 NDS,达到了新的最佳成绩64.2 NDS(见表2)。采用更大的基础网络,例如Vit-L,HyDRa甚至可以超越基于体素的CenterPoint 。定性结果已发布在附录中。
3D多目标追踪
在表4中总结了追踪结果。得益于精确的目标定位和高品质的速度估计,HyDRa的基于中心的追踪性能与最先进的方法具有竞争力,在nuScenes测试集上实现了错误阳性(FP)、错误阴性(FN)和身份切换(IDS)之间的最佳折中,再次缩小了与基于LiDAR的CenterPoint之间的差距。
三维占用预测
具有强大深度预测能力的密集架构在占用预测方面表现出色。我们的基于鸟瞰图(BEV)的架构在Occ3D基准测试中展示了卓越的性能,以3.7 mIoU的较大优势超过了所有其他基于相机的方法(见表3)。它在具有挑战性的动态目标上的表现尤为出色,如图4所示。
相辅相成的相机-雷达融合是释放以视觉为中心的3D感测潜力的关键。尽管稀疏表示在检测方面表现良好(参见表2中的SparseBEV),但在占用预测方面表现不佳(参见表3中的Sparseocc)。这强调了对于完整的3D场景理解来说,密集表示的重要性。
Ablation Studies
为了验证我们提出的每个设计和组件的个别贡献,我们进行了详细的消融研究。消融研究及表5、表6和表7中的基准训练都是在前视图设置中进行的。模型的输入是三个向前面向的摄像头及相应的雷达传感器,这使数据和计算量减少了一半。消融研究是在nuScenes验证集上进行的。
范围视图融合效果。 我们开发了一个类似于Radiant的简单基线,以展示在统一的深度网络中使用雷达比单独的分支能带来更多的性能提升。我们在BEVDepth的基础上增加了一个额外的ResNet18,以在相同的图像视图中编码雷达信息。通过将雷达点投影到图像平面上,我们创建了一个雷达点云的范围图像,将3D点转换成像素位置。不是使用RGB通道,而是使用雷达通道,并将每个非雷达像素设置为0。这个伪图像被输入到一个较小的ResNet18编码器中,并且每个输出阶段都与相应的RGB编码器输出连接起来。
在表5中展示了这种统一的方法已经超过了CRN的RVT。我们指出,与纯粹基于雷达占用引导的语义特征变换相比,速度估计也从视角融合中受益。使用2D卷积处理大多数稀疏的雷达点带既不有效也不高效。
为了克服这种朴素基线的局限性,我们提出了一个更复杂的方法——HAT模块,这是一种在透视视图中融合雷达和相机特征的新方法,能够显著提高基于相机的模型的深度估计。与相关工作相比不必依赖于启发式的高度扩展或者完全忽略它并通过折叠图像特征。
雷达加权深度一致性的影响。 雷达信息深度一致性是HyDRa架构的一个重要概念,它在CRN的基准架构上展示了显著且一致的改进。特别是将HAT模块加入这一范式,发挥了协同效应,导致了强大的度量深度理解(参见表5)。在没有时间或深度监督的情况下,如表6中消融实验所示,HyDRa在增加深度和速度感应方面是优越的概念,比仅使用摄像头的基线有了相当大的改进。这对于时间紧迫的情况(例如避免碰撞)可能很重要。
顺序很重要。 在表7中展示了融合的顺序是重要的。雷达的鸟瞰图(BEV)特征应该在任何4D聚合和反向投影之前进行融合。通过将雷达和时序信息丰富到查询中,为细化提供了更有意义的线索,而且由于这些模块都在相同的BEV通道维度上工作,所以无需额外的计算成本。
Limitations
在未来研究中希望探索在密集范式下目标级运动建模的潜力,因为自我运动补偿并没有考虑到高度动态的目标。此外,方向性也构成了一个瓶颈,因为稀疏雷达点仅能给出目标位置的粗略估计。因此,4D成像雷达提出了一个有趣的研究机会。
5 Conclusion
我们介绍了HyDRa,这一新的混合融合范式达到了最新的技术水平,在各类3D感知任务中表现出色,并为基于雷达检测领域未来的研究指出了充满希望的道路。HyDRa在摄像头-雷达融合方面明显优于之前的技术水平,以1.8 NDS的较大优势领先,并且自然地扩展到首个雷达增强的占用预测模型,相较于最佳的摄像头基线提高了3.7 mIoU。
通过这项工作,我们希望为更安全的自动驾驶做出贡献,这得益于对低可见度物体的更好处理、更稳健的深度估计以及准确的速率估测。
参考
[1].Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar.
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。