自动驾驶之星
点击上方蓝字关注 自动驾驶之星
随着自动驾驶中仅依靠相机的3D目标检测受到关注,基于鸟瞰视角(BEV)表示的方法,特别是从前视转换范式派生出的lift-splat-shoot(LSS)方法,近年来取得了显著进展。
由基于深度分布预测的截面基于的BEV表示的理想,可用于从多视图图像学习道路结构和场景布局。
然而,为了保持计算效率,如分辨率和轴向的压缩BEV表示必然在保留个体几何细节方面较弱,这削弱了方法论的通用性和适用性。因此,为了弥补缺失的细节并利用多视图几何约束,作者提出LSSInst,这是一个结合BEV和实例表示的两阶段目标检测器。
所提出的检测器利用可以灵活集成到现有LSS-基于BEV网络的细粒度像素级特征。
然而,由于两个表示空间之间的固有差异,作者设计BEV到实例语义连贯的实例 Adapter ,而不是直接传递 Proposal 。
在大量实验中,作者提出的框架表现出出色的泛化能力和性能,这提高了现代LSS-基于BEV感知方法的性能,而无需增加复杂的元素,并在大规模nuScenes基准上超过了当前的LSS-最先进的工作。
代码可在 https://github.com/WeijieMav/LSSInst。
1 Introduction
作为3D感知的重要组成部分,3D目标检测可以在各种领域得到应用,如自动驾驶和机器人技术。尽管基于LiDAR的3D检测方法已被证明具有显著的性能,但近年来基于相机的检测方法也受到了越来越多的关注。这的原因不仅在于部署成本较低,而且还在于长距离距离和视觉道路元素识别的优势[27, 34]。然而,与LiDAR传感器提供的直接、准确深度信息不同,仅基于相机传感器图像检测物体面临巨大的挑战。因此,如何利用多视图图像构建有效表示已成为关键问题。
最近,在利用鸟瞰视角(BEV)的方法中取得了重要进展,其视图转换主要可以分为基于提升-溅射(LSS)[35, 24, 25, 34]的前向类型和基于可学习BEV Query 的[27, 49]的后向类型。由于其纯粹的隐式聚合通过不可解释但强制密集的 Query ,后向类型表现出较低的性能和可扩展性,使得基于LSS的正向类型成为目前仅针对相机进行3D检测的主流BEV范式。基于LSS假设和场景中大多数物体接近地面的事实,基于LSS的BEV提供了一个具有最小平行视差歧义和信息损失观察物体的视角。如图1(I)所示,这些方法根据深度分布预测将图像提升到截面中,并将它溅射到BEV空间,从多个2D视图收集信息以获得场景的全局表示。这种表示形式是平面视图,压缩了高度(z轴)并降低了分辨率以确保计算效率。BEV特性受益于其整体表示和密集特征空间,使其非常适合捕捉场景的结构和数据分布。
然而,BEV表示的几何压缩特性,如分辨率和轴的减少,固有地限制了其提供精确3D物体位置描述的能力,或者在需要准确预测3D物体边界框的3D检测任务中充分利用详细特征。同时,如图1(II)所示,基于稀疏的方法跳过BEV公式,直接利用物体级表示和利用3D几何先验从3D视角回归物体边界框。然而,由于初始化语义分散[22],尤其是在更复杂的3D感知中,它们无法同时捕捉到与BEV特征相比从图像中获得的丰富的物感特征,导致整体性能低于同时期的BEV-基于方法。
接下来,作者发现在两种方法之间的每个类别AP比较中,有一些有趣且相互验证的结果,如图1所示。值得注意的是,考虑到数据增强和训练策略等实际多样性,同一组中选定方法的总体mAP值之间的差异严格小于0.5%,这确保了两种检测能力相等。作者可以观察到不同类别之间存在相同的AP趋势。具体来说,BEV表示似乎对具有明确运动或场景中常见位置的常规目标(汽车、公交车、卡车、屏障)更加敏感,而对具有不确定轨迹或分散位置的目标(行人、自行车、交通锥)相对不敏感,这进一步证明了其适应数据分布并倾向于场景级关注的特性。
受到这一启发,作者受到启发,为了增强两种方法的互补协同作用,弥补当前基于LSS的BEV感知表示的缺失细节,并利用多视图几何约束,作者提出LSSInst,它将基于场景级表示的稀疏实例级表示结合起来,以查找更详细的特征并进行几何匹配。如图1(III)所示,基于全局场景级预特征,实例级特征被推回到图像的局部,专注于更精细的像素特征,并允许进行灵活的几何匹配,最终生成一个结合全局语义和局部几何信息的最终感知结果。
然而,这种合作也存在挑战,因为最直接的共享边界框建议在直观和实验上都是失败的1。正如前面提到的,传统的稀疏检测方法受到初始化语义分散和场景语义理解不足的影响,上述解决方案将削弱与密集表示的一致性。因此,作者提出了实例 Adapter 模块,以建立场景和实例之间的语义一致性,并设置一个实例分支进行检测。实例 Adapter 模块通过多级自适应聚合生成多个稀疏 Query 及其对应的3D框。实例分支专注于使用准备好的输入(如框嵌入和时空采样与融合)进行细粒度稀疏特征提取和几何匹配。在nuScenes数据集上,作者的LSSInst方法展示了强大的泛化能力。与典型的LSS方法相比,LSSInst在mAP方面取得了显著的改进。具体来说,它比BEVDet提高了5.0%,比BEVDepth提高了2.2%,比BEVStereo提高了2.6%,并超过了最先进的LSS方法SOLOFusion(提高了1.6%)。
作者主要的贡献可以总结如下:
i)作者提出了LSSInst,这是一个两阶段的框架,通过实例表示改善了基于LSS的BEV感知中的几何细节;
ii)作者提出了实例 Adapter ,以保持BEV到实例的语义连贯性,并设计了一个新的实例分支,用于回溯并空间时间聚合特征以提高性能;
iii)通过大量实验结果验证,该框架具有出色的泛化能力,并超越了最先进的基于LSS的方法。
2 Related Work
LSS-based BEV Perception
随着BEV已被证明是多视图3D检测的有效表示,利用显式公式过程和优越性能的LSS(线性规划)方法已成为最近的主流范式。LSS [35] 提出了一种端到端视图转换架构,通过预测深度分布并将图像提升到 Frustum 中,然后将其转换为BEV表示。接下来,BEVDet [17] 集成了一些独特的数据增强技术来扩展检测。BEVDepth [25] 和BEVStereo [24] 通过引入额外的单目深度网络,由相应的激光雷达深度监督,以及相邻帧之间的多视图立体匹配,提高了深度精度。BEVDistill [5] 选择从激光雷达进行模型 Level 的蒸馏。OA-BEV [6] 和SA-BEV [52] 增强了深度利用,分别集成了一个基于2D检测网络的额外 Proposal 的三维 Voxel 网络和深度与语义融合模块,以实现更强的特征。此外,一些工作开始 Aware 到当前视图转换假设的不足。AeDet [11] 引入了现有的坐标投影位置补偿,而FB-BEV [28] 集成了一种新颖的前向-后向视图转换模块,部分缓解了投影问题。SOLOFusion [34] 进一步基于短期的 temporal 优化与高斯 top-k 采样来统一长期时间信息,从而提高性能。
尽管这些方法努力从LSS过程中获得完美的BEV表示,但由于避免的深度误差和池化操作的压缩特性,生成的BEV表示在保留个体几何细节方面较弱,因此作者不同地关注将BEV表示调整为更好的几何建模。
Instance-level Representation Integration in Camera 3D Detection
将实例级表示进行集成是提高相机3D检测感知能力的一种普遍方法。FQNet [30] 是一个单目检测的三阶段框架,首先在局部搜索潜在框,然后遵循类似于Fast-RCNN的方法 [12] 将大量物候选全局聚合进行位置预测。 [23] 他们在立体3D检测中采用类似的方法。他们首先借用DSGN [4] 在局部搜索可能 Proposal ,然后建立Vernier网络,基于立体对进行全局形成置信图。
在多视图3D检测中,对于基于稀疏的方法 [31, 46] 仅依赖于 Query 解码,由于视角不一致,前景 Token 和 Query 之间往往存在较弱的相关性和缓慢的收敛速度。Focal-PETR [44] 采用额外的2D实例级监督,自适应地将物 Query 聚焦在判别性前景区域。对于基于BEV Query 的方法,BEVFormer V2 [49] 使用额外的3D视角网络,如[33, 46] 生成粗粒度的实例特征作为辅助 Proposal 。
与他们在局部到全局(即从下到上)的方式中借用实例级特征不同,LSSInst 使用完全不同的全局到局部(即从上到下)的方式进行改进。
Two-stage 3D Object Detector
两阶段设计在3D检测领域得到了广泛研究,并证实其有效,其多步骤工作流程有利于更精确的预测。对于LiDAR 3D检测,受到2D检测 的启发,两阶段LiDAR检测器通常在第一阶段生成感兴趣区域(RoIs),然后在第二阶段优化这些初始预测。为了解决编码 Proposal 几何信息的能力降低的问题,在RoI上进行点云池化操作[39]或使用具有边界偏移的虚拟点[26]。取而代之的是,Voxel R-CNN[9]设计了一个从 Voxel 和BEV特征空间直接池化的 Voxel RoI池化模块。
为了提高速度,CenterPoint[51]通过双线性插值从BEV特征中采样五个关键点来简化池化模块,而RSN[41]使用前景分割作为第一阶段来稀疏化点云,从而增强第二阶段稀疏卷积的效率。对于摄像头3D检测,MonoDIS[40]从2D边界框中提取特征,用于随后的3D边界框回归,并引入解混化变换来分别监督2D和3D的检测损失。SimMod[54]利用DETR3D头[46]迭代优化从单目网络输出的2D级物体 Proposal 。
BEVFormer v2 [49]将BEVFormer[27]扩展到第二阶段,通过结合第一阶段直接监督图像 Backbone 网络的第一阶段3D视角检测网络,利用BEV和视角信息。在当前的两阶段方法中,由于第一阶段主要依赖视角视图,因此它们更注重对粗粒度样本进行联合聚合的细调。相反,作者关注从场景级布局共同推导出整体语义的 Proposal 的后续细调。
3 Methodology
利用基于场景的BEV的实例级表示来挖掘更详细的特征和几何信息对于泛化的3D感知具有实际意义。在本工作中,作者提出了LSSInst,它回归到更几何感知和细粒度的目标特征提取,以弥合场景级和实例级3D表示之间的适应性。作者框架的概述如图2所示,其余部分如下组织。首先,3.1b简述BEV分支。接下来,3.2介绍了实例 Adapter 模块,实例分支在3.3中给出。
BEV Branch: Looking around for scene-level representation
首先,将之前帧的多视图连续图像输入到2D图像 Backbone 网络进行特征提取。然后,BEV分支接收到提取的图像特征,并将其从2D相机视图转换为初步场景级表示,其中和分别表示相机视图和缩放次数。该分支可以简化为BEV生成的时间共享视图转换和BEV序列融合。2D到BEV视图转换(VT)自然基于LSS范式,可以主要总结为深度细化模块(DRM)、特征提取网络和 Voxel 池化。对于该框架的最佳版本,作者采用了高斯间隔的Top-k立体[34]用于在 Voxel 池化之前更好的深度分布图。在共享VT之后,一系列BEV表示将按时间顺序对齐到当前时间,并输入到BEV时间编码器,以形成最终当前BEV。其中,编码器设计为仅用于降维的非常轻量级的残差网络。
Instance Adaptor: Scene-to-instance adaptation
为了在BEV(bird's eye view)和实例表示之间保持一致性和坚实的语义一致性,作者提出实例调整模块以消除位置描述和空间差异的间隙。由于BEV特征是围绕自车构建的场景级表示,因此建模实例级特征存在冗余和灵活性不足的问题。为此,所提出的调整模块首先通过BEV Proposal 头获取 Proposal 框坐标,并将其重投影回BEV识别的位置,以重采样与目标相关的特征。这里表示BEV Proposal 的数量。已知BEV点云范围,相应的 Voxel 大小和上采样因子,作者可以将2D重投影坐标表示为:
在此, 表示 z 轴的均匀项,实际上是一个常数 1。此外,由于 BEV 中的过拟合偏差,聚焦区域可能会偏离实际物体的位置。受到变形注意力 [56] 的启发,自适应模块引入了基于原始聚焦特征 的可学习偏移量,以通过探索更多语义感知的区域进行失配补偿。假设 表示 的任意元素索引,其聚合的实例特征 可以表示为:
其中, 是线性投影的权重矩阵, 表示重采样键的总重采样键数量 K。
尽管如此,BEV编码空间与适合回顾图像特征的3D稀疏空间之间仍然存在固有的空间差异。因此,作者首先引入了一个非常浅层的卷积特征 Transformer ,用于重参化跨空间叙述的聚合特征。
同时,尽管基于BEV关注的特征进行了广泛的聚合和增强,但由于常规目标对BEV的过拟合以及相对粗糙的感知粒度,部分不规则或分离的目标无法检测到。因此,作者引入了额外的可学习 Query 和与BEV Proposal 无关的参考框,称为潜在3D实例和框,旨在捕捉潜在的BEV无关目标并学习BEV无关的3D空间先验。这样,作者可以得到乘积稀疏特征,并在这里作者为了简单起见,令。的整个形式可以推导如下:
Instance Branch: Looking back for instance-level representation
该分支可以大致看作是一个多层Transformer-decoder-like [42]模块,用于3D检测,它简化为两个部分:框级偏移和嵌入,以及时空采样和融合。
盒级偏移和嵌入与之前的DETR类3D方法(如DETR3D[46],Polarformer[20],VEDet[3])不同,这些方法仅通过3D坐标偏移回归逐步优化。实例分支采用基于的盒级偏移回归。通过这种方式,作者可以编码整个 Box 的所有几何感知信息,以取代过渡位置编码,从而扩展和丰富特征表达的空间,而不仅仅是表面的位置级。结合稀疏实例特征,后续的注意力交互将具有更多的几何先验和隐性补偿。
具体而言,作者首先根据盒维度的元素语义将分为四个部分:位置(即),尺度(即),速度(即),和方向(即)。然后,作者引入了五个分开的线性投影,和进行综合编码,其中前四个局部嵌入每个类别,最后一个全局嵌入它们。最终的 Box 嵌入可以通过以下公式计算:
,其中 分别表示三维和二维的类别元素。
在将稀疏特征 和框嵌入 输入多头自注意力块[42]进行更新之前,它们会经过空间和时间采样。给定来自 的对应 3D 坐标 ,作者首先通过内参和外参矩阵将 从 3D 系统转换到当前时间的 2D 对应 。
在空间方面,为了访问目标区域,作者采样原始特征,中间回归从 到目标的现有偏移。为了扩大搜索范围,作者按照公式2类似地扩展采样点,并增大残差加权比例 。在另一方面,随着时间推移,在自动驾驶场景中存在自车的运动和物体的运动,这需要在采样之前进行补偿。
考虑到这种稀疏时间立体短期的限制,即 是一个小正整数,作者将物体运动近似为均匀的直线运动。因此,作者首先用当前速度 补偿 ,然后将其通过全局世界坐标系中的中等转换映射到每个坐标系统中的 ,其中 表示历史时间。然后,通过全局世界坐标系中的中等转换,作者将每帧采样特征 形成。
首先,作者定义为相邻帧之间的时间间隔,是从当前时间到前时间的自身体动变换矩阵。
然后,多帧特征被输入到稀疏时间编码器,这是一个简单的三层MLP(多层感知器)。接着,根据作者的近似,投影误差会随着的增大而增大。因此,作者用表示一个在[0,1]范围内的常数,用于长期抑制。通过迭代融合,作者可以从得到最终的稀疏采样特征。整个 Box Level 的偏移可以按照以下方式计算:
这里 是每个层的边界回归函数。值得注意的是,作者省略了 的尺度和视图级的计算以简化说明。
4 Experiments and Analysis
Experimental Settings
作者在自动驾驶场景下的大规模数据集nuScenes 3D检测基准上进行了广泛的实验 [1]。该基准包括1000个自动驾驶场景,每个场景大约跨越20秒。该数据集分为850个用于训练(train)或验证(val)目的的场景和150个用于测试(test)的场景。数据集中的每个帧包含六个捕获周围视角的摄像头以及由激光雷达生成的点云。该数据集为10个不同类别的140万多个3D边界框提供了标注。
作者利用PyTorch的开放源代码MMDetection3D [7]实现了作者的网络框架。学习率、优化器和数据增强方法与BEVDepth中的相同。默认为图像大小256 704,使用预训练于ImageNet [8]的ResNet50 [14]作为图像backbone。
所有实验中BEV特征的大小都设置为128 128。在这里,作者设置,,。特征维度为256,盒状维度为10。和轴的感知范围分别为[-51.2m, 51.2m],每个BEV网格的分辨率0.8m。时间间隔为0.5s,长期抑制为0.6。
Benchmark Results
作者将作者的方法与基于LSS的以及两阶段最先进的方法在nuScenes的val和test集上进行了比较。主要结果分别呈现于表2和表3中。在val集上,作者对LSSInst与其他具有相同设置且没有CBGS策略和未来帧使用的模型进行了评估。结果明显显示了LSSInst的优势,因为它在mAP上超过了当前基于LSS的最先进SOTA,SOLOFusion 1.6%,在NDS上超过了当前两阶段最先进,BEVFormer v2 3.4%,在mAP上超过了当前两阶段最先进,BEVFormer v2 1.6%。
在测试集上,作者的LSSInst在没有任何额外增强的情况下,实现了54.6%的mAP和62.9%的NDS,超过了所有基于LSS的方法。这样的改进证明了作者的LSSInst在提高基于LSS的BEV感知与实例表示的有效性。
在mATE 2、mASE和mAOE方面的改进,表明LSSInst可以利用细粒度的像素级特征,在翻译、尺度和方向等方面更好地增强感知能力,这些方面在几何感知中都是相关的。
Noise Resistance for Practical Robustness
尽管作者在nuScenes [1]上验证了LSSInst的高性能,但大规模自动驾驶数据集在传感器收集大量数据时不可避免地会引入外延误差。在实际自动驾驶场景中,检测器需要对由小测量误差引起的环境噪声具有抵抗力。因此,作者在外延中添加了一组随比例增加的随机旋转噪声,以探索LSSInst在非准确外延下的鲁棒性。在这里,基准模型是BEVDepth4D [25],具有4帧。如表5所示,作者证明了LSSInst具有良好的鲁棒性,表现出更高的性能和更小的总衰减。
Multiplicate Queries Ablations
为了进一步研究多重 Query 的影响,如表6所示,作者探索了两种场景:仅使用 Proposal Query (称为)或可学习势 Query (称为),并合并两种 Query 。在这里,作者遵循了[46]中 Query 最大数的默认设置为900的古典设置。作者可以观察到,一方面,仅依赖势 Query 不能发挥重要作用,即使使用全部900个 Query ,性能也只能达到中等水平,这表明由于没有BEV提供的场景级信息基础,初始化语义分散导致收敛速度较慢。另一方面,虽然BEV提供的 Proposal Query 可以实现整体良好的结果,但增加更多 Query 并不能实现更好的改进,这证明了该模型对场景的过拟合特征以及忽视场景中缺失物体的检测事实。然而,当合并两种类型的 Query 时,性能进一步改善并达到新的水平。可以得出结论,这两种类型的 Query 各自发挥着独特的作用,它们的不可分割和互补协同效应使模型能够从全局场景 Level 到局部实例 Level 进行全面理解。
BEV-to-Instance Semantic Coherence
为了确认BEV到实例的语义一致性,作者在两个方面进行了相关实验。假设只有一个前景类别,作者将语义分割与真实值和 Baseline 相比的mIoU指标进行计算,结果如表7所示。根据真实值的结果,LSSInst被观察到在语义维护方面优于LSS Baseline ,这表明场景中除BEV外的不敏感目标的感知能力得到了提高。对于LSS Baseline 的mIoU,值66.21%超过50%,这也表明BEV到实例的语义一致性具有前景。值得注意的是,相关定性结果可参见附录材料。
5 Conclusion
现有的基于LSS的方法努力构建理想的BEV表示,但他们忽视了在其公式中固有的几何损失,抑制了其在3D感知中的泛化能力。
在本文中,作者提出LSSInst,这是一个两阶段的检测器,通过实例表示改善BEV感知的几何建模。为了应对两个表示空间之间的挑战,作者提出实例 Adapter 以保持BEV-到-实例语义连贯性。
然后,作者引入了一个新的实例分支,以查找细粒度的几何匹配和特征聚合。
大量实验结果表明,作者的框架在现代基于LSS的BEV感知中具有很强的泛化能力,并具有出色的性能,超过了当前最先进的工作。作者希望作者的工作能激发在更复杂、更细粒度的户外场景任务中进一步探索通用3D感知的兴趣。
参考文献
[0]. LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation.
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧