摘要
精确的多视角3D物体检测对于自动驾驶等应用至关重要。研究人员一直致力于利用激光雷达的精确空间信息来增强基于相机的探测器,例如通过深度监督和鸟瞰视图(BEV)特征蒸馏等方法。然而,现有方法往往因激光雷达和相机数据表示之间的固有差异而面临挑战。在本文中,我们提出了一种名为TiGDistill-BEV的新方法,该方法有效地弥合了这一差距,通过利用不同传感器(如激光雷达)的优势来增强基于相机的学生探测器。我们的方法通过目标内几何学习方案,从多种模态(例如激光雷达)中蒸馏知识,以增强基于相机的BEV探测器,通过深度和BEV特征同时利用多种模态。具体来说,我们提出了两个关键模块:内部深度监督模块,用于学习目标内部相对深度关系,使探测器对目标级空间结构具有更深层次的理解;以及内部特征BEV蒸馏模块,用于转移前景目标内不同关键点的高层语义。为了进一步缓解域差距,我们结合了跨通道和跨关键点的蒸馏来模拟特征相似性。在nuScenes基准测试上的广泛实验表明,TiGDistill-BEV显著提升了仅基于相机的探测器,达到了62.8%的NDS,并超越了以往的方法。 代码地址:https://github.com/Public-BOTs/TiGDistill-BEV.git
欢迎加入自动驾驶实战群
I. 引言
多视角3D物体检测在使智能系统准确感知周围环境方面发挥着至关重要的作用,在各种应用中取得了显著进展。基于激光雷达的方法由于能够捕捉丰富的空间结构而表现出色。相比之下,基于相机的方法虽然成本低廉,但缺乏直接获取几何深度信息的能力。为了解决这些性能差异,现有的多模态3D物体检测方法利用激光雷达的空间线索来增强基于相机的探测器。这种增强主要分为两种方案,如图1中的(a)和(b)所示。密集深度监督,例如BEVDepth,这些方法将输入的激光雷达点投影到图像平面上作为深度图,并显式地监督前景和背景区域的分类深度预测。BEV特征蒸馏采用教师-学生范式,例如BEVDistill,迫使基于相机的探测器模仿预训练的基于激光雷达的探测器(教师)的BEV表示。学生通过直接模仿教师的BEV特征来继承编码的高级BEV语义。
然而,现有方法在捕捉前景目标的内几何特性方面存在不足。物体的内几何包括其低级别的空间轮廓和高级别的部分语义关系,这对于精确的物体识别和定位至关重要。例如,BEVDepth仅使用像素级的深度监督,没有考虑物体内部的相对深度,而BEVDistill应用前景引导的蒸馏,但忽略了BEV特征的内部关系。此外,方法[17]、[18]中强制执行的直接通道级对齐可能会因相机和激光雷达BEV特征之间的模态差异而产生不利影响。为了缓解这个问题,我们提出了TiGDistill-BEV,这是一种新颖的多模态蒸馏学习方案,它将前景目标的内几何集成到基于相机的探测器中,用于多视角BEV 3D物体检测。如图1(c)所示,我们同时对深度预测和BEV表示学习进行目标内几何学习。
III. 方法
TiGDistill-BEV的整体架构如图所示,并在第III-A节中采用了视点相关的掩码。接下来,我们在第III-B节和第III-C节中介绍了所提出的目标内几何学习方案,详细阐述了TiGDistill-BEV如何通过内部深度监督和内部BEV特征蒸馏来蒸馏内部几何特征。最后,在第III-D节中,我们提出了框架的整体损失函数。
A. 基线模型
1. 基于相机的学生探测器:我们采用BEVDepth作为学生模型,该模型从多视角图像中提取C通道视觉特征 ,和分别表示相机输入的数量和特征图的大小。这些特征被输入到一个共享的深度网络中,以生成分类深度图,其中,K表示预定义的深度区间数量。在训练过程中,BEVDepth采用密集的绝对深度监督来预测深度图,该方法将配对的激光雷达输入投影到多视角图像平面上,以构建逐像素的绝对深度真实值,其中。然后,多视角特征通过预测的深度图投影到一个统一的BEV表示中,并进一步由BEV编码器编码,表示为。最后,检测头在此基础上预测3D物体。我们将学生模型的两个基本损失表示为和 ,分别表示密集绝对深度值的二元交叉熵损失和3D检测损失。 2. 教师探测器:我们研究了不同教师模型对知识蒸馏的影响。这里,我们采用Centerpoint[1]、PillarNeXt[3]和BEVFusion[68]作为教师模型,它们分别代表基于激光雷达和相机-激光雷达融合的探测器。我们通过编码模块从教师模型中获得C通道教师BEV特征 ,其具有与学生探测器相同的特征大小。当教师模型经过良好预训练时,尤其是在目标前景区域, 可以为学生BEV特征提供足够的几何和语义知识。请注意,教师模型仅在训练期间用于跨模态学习。
B. 内部深度监督
除了密集的绝对深度监督外,我们还提出指导学生模型学习不同目标前景区域内的内部深度度量。如图5所示,对于实例级别,现有的绝对深度监督使用分类表示忽略了每个对象内部的相对结构信息,并且没有提供明确的细粒度深度信号。因此,我们提出使用来自激光雷达投影深度图的连续值进行内部深度监督,这有效地增强了网络捕捉对象目标内部几何形状的能力。
1. 前景目标定位:为了准确获得内部深度值,我们首先通过在深度图中将相应的3D激光雷达点投影到不同平面上,定位每个对象目标的前景像素。该过程产生了预测和真实深度图中对象前景区域内的像素 。这些前景像素大致描绘了不同目标对象的几何轮廓,并很好地促进了随后的内部深度学习。我们以第i视图为例,并在以下文本中省略了索引i。假设有M个目标对象在图像上,我们将第j个目标的前景深度值集表示为 ,其中每个 包括第j个目标的前景分类深度预测和真实深度值。 2. 连续深度表示:与用于绝对深度的分类表示不同,我们使用连续值表示前景目标的预测内部深度,这反映了更细粒度的几何变化。对于第j个目标对象的第(x, y)像素,第k个深度区间的预测可能性表示为 ,其中 。然后,我们计算像素(x, y)的连续深度值 如下:
其中 表示第k个区间中心的深度值。通过这种方式,我们将每个目标对象的分类深度预测 转换为连续表示,表示为 。
3. 自适应深度参考:我们提出了一种自适应深度参考,用于不同前景目标计算相对深度值。具体来说,基于预测的连续深度值 ,我们选择深度预测误差最小的像素作为每个目标的参考点,并相应地将其深度值设为深度参考,如图5所示。对于第j个目标,其真实内部深度 ,我们通过以下方式计算深度参考点 :
然后,预测和真实的参考深度值分别表示为 和 。通过自适应选择误差最小的参考点,内部深度分布可以动态适应不同形状和外观的对象,这稳定了对一些被截断和遮挡对象的学习。
4. 内部深度计算:使用参考深度值,预测和真实的内部深度分别表示为如下:
我们用L2损失监督内部深度预测,公式如下:
C. 内部特征BEV蒸馏
除了用于低级空间线索的深度监督外,我们的TiGDistill-BEV还采用内部几何学习从预训练的教师探测器中提取高级BEV语义。以前的BEV蒸馏工作直接迫使学生在BEV空间中逐点模仿教师的特征,这可能会因背景区域(由稀疏点云引起)中的潜在噪声而产生问题。尽管BEVDistill利用前景掩码来缓解这个问题,但这种密集的特征蒸馏仍然不能为学生模型提供集中和有效的指导。另一方面,强制BEV特征在两种模态之间完全一致并不是最佳选择,考虑到语义差距。为了克服这些限制,我们提出了一个内部特征BEV蒸馏(图6),包括通道间和关键点间的学习方案,进行有针对性的目标特征蒸馏并缓解跨模态语义差距。
1. 目标关键点提取:为了从教师探测器中蒸馏稀疏前景区域内的知识,我们专注于提取每个目标对象的BEV区域,并使用一系列关键点特征表示它。给定每个目标的真实3D边界框,我们在BEV空间中稍微扩大它以覆盖整个前景区域,例如对象轮廓和边缘。然后我们在BEV边界框内均匀采样N个关键点,并使用双线性插值从编码的BEV表示中获取关键点特征。从基于相机的 和 分别提取所有M个目标对象的关键点特征。 2. 通道间BEV蒸馏:以第j个目标对象为例,我们首先应用通道间BEV蒸馏,指导学生关键点特征模仿教师的通道间关系。这种通道监督意味着两种模态的整体几何语义,我们的通道间蒸馏可以保留两种模态的独特方面,同时有效地转移教师探测器的预训练知识。具体来说,我们计算了基于相机和激光雷达的关键点特征的通道间相似性,公式如下:
其中 表示不同模态之间不同C通道的特征关系。对于场景中的所有M个对象,我们采用L2损失在两个通道间相似性之间进行特征蒸馏,公式如下:
3. 关键点间BEV蒸馏:虽然通道间蒸馏指导学生模型学习教师的通道间多样性,但它忽略了目标内部不同关键点之间的内部相关性,这对于理解不同前景部分之间的局部几何形状至关重要,例如汽车的前后。为此,我们利用教师的BEV特征的关键点间相关性,并将这种内部几何语义转移到基于相机的探测器中。类似于上述通道间模块,对于第j个目标对象,我们以转置方式计算两种模态的关键点间相似性,公式如下:
其中 表示相机和教师的不同N个关键点之间的特征关系。我们也对所有M个目标采用L2损失:
随后,通道间和关键点间特征的蒸馏损失公式如下:
其中两项分别是通道间多样性和关键点间语义相关性的正交项。
D. 总体损失
为了总结,我们通过两个互补的方面增强基于相机的探测器:内部深度监督的低级信号和内部特征BEV蒸馏的高级语义,这两个方面分别贡献了损失 和 。结合BEVDepth的原始深度监督损失 和3D检测损失 ,我们的TiGDistill-BEV的总体损失公式如下:
E. 实验结果
在本节中,我们将介绍数据集并介绍我们的实现设置,进行一系列实验并进行消融研究,以展示我们框架TiGDistill-BEV的有效性。
A. 数据集和评估指标
nuScenes数据集。我们在nuScenes[69]数据集上评估我们的TiGDistill-BEV,该数据集是自动驾驶领域最受欢迎的大型户外公共数据集之一,提供从32束激光雷达以20Hz和六个相机以12Hz覆盖水平360度的同步数据。我们采用官方评估工具箱,它报告了nuScenes检测分数(NDS)和平均精度均值(mAP),以及平均平移误差(mATE)、平均尺度误差(mASE)、平均方向误差(mAOE)、平均速度误差(mAVE)和平均属性误差(mAAE)。它包括700、150、Ta 150个场景用于训练、验证和测试。
评估指标(检测)。nuScenes与KITTI完全不同,它们提出使用平均精度均值(mAP)和nuScenes检测分数(NDS)作为主要指标。与原始mAP定义不同[70],nuScenes考虑与阈值为{0.5,1,2,4}米的BEV中心距离,而不是边界框的IoUs。NDS是mAP和其他指标得分的平均平移误差(ATE)和平均尺度误差(ASE)的加权和。有关评估指标的更多详细信息,请参阅[69]。
评估指标(深度估计)。为了评估和比较不同深度估计网络的性能,一种广泛接受的评估方法论,在[71]中提出了五个评估指标:RMSE、RMSE log、绝对相对(Abs Rel)、平方相对(Sq Rel)和精度。这些指标的公式如下:
· 绝对相对 ,
其中 是预测的深度值, 是深度的真实值。此外,N表示具有真实深度值的像素总数,thr表示阈值。
B. 实施细节。
我们在8个NVIDIA A100 GPU上使用BEVDet代码库实现了我们的TiGDistill-BEV。预训练的教师模型CenterPoint、BEVFusion的体素大小分别为[0.1,0.1,0.2]和 的PillarNext。基于相机的学生包括BEVDepth、BEVDet和BEVDet4D。参考BEVDepth,我们在BEVDet和BEVDet4D的基础上额外添加了密集深度监督,以及我们的TiGDistill-BEV。我们默认遵循它们的官方训练设置,包括数据增强(随机翻转、缩放和旋转)、训练计划(2倍)等(AdamW优化器、2e-4学习率和批量大小8)。表1中采用了CBGS策略[72]。我们在nuScenes测试集上使用ConvNeXt-base[73]骨干网和输入图像大小为 的TiGDistill-BEV进行了实现。在蒸馏过程中,我们利用冻结教师模型并训练学生模型20个周期,采用CBGS进行评估,不使用测试时增强。对于其他结果,我们没有使用CBGS来更好地突出其重要性。
所提出的框架已在nuScenes数据集的"val"和"test"分割上进行了评估。
1. 在nuScenes Val Set上:为了证明所提出的TiGDistill-BEV框架的有效性,我们在nuScenes验证数据集上进行了实验。我们采用了BEVDet4D和BEVDepth作为基线探测器。e展示了结果,显示在平均精度均值(mAP)和NuScenes Detec-上取得了显著提高。评估指标分别达到了2.2%、4.2%和2.4%的mAP和2.9%、2.8%和2.3%的NDS。此外,TiGDistill-BEV与基线探测器相比,一致地产生了更低的误差指标(e.g., mATE),表明其在物体定位方面的优越性。值得注意的是,我们的框架与BEVDepth相比,平均速度误差(mAVE)降低了13.2%。这一结果表明,成功地将来自激光雷达数据的先前知识蒸馏到了基于相机的框架中。Centerpoint[1]作为这些验证实验的基于激光雷达的探测器教师网络。 2. 在nuScenes Test Set上:我们进一步在nuScenes测试集上评估了TiGDistill-BEV,使用BEVFusion[68]作为教师模型提供多样化的多模态监督。如表.II所示,TiGDistill-BEV取得了最先进的性能,超过了其他基于相机的3D探测器,NDS为62.8%,mAP为53.9%。与基线BEVDepth相比,整体性能提高了3.9%的NDS和4.8%的mAP。使用基于激光雷达的教师模型带来了4.1%的mAP和3.0%的NDS的提升。此外,将激光雷达和相机模态都作为教师模型纳入,带来了额外的0.7%和0.9%的NDS,e分别为像素i的深度预测值 和深度真实值 。这些结果强调了我们的目标内部几何学习方案在增强多视角3D物体检测中的有效性。
D. 消融研究
在本节中,我们进行了广泛的实验来分析和理解TiGDistill-BEV中提出的组件和相关设计选择。除非另有说明,否则以下实验使用Centerpoint和BEVDepth分别作为教师和学生模型。
目标内部几何学习的消融研究。 和 分别表示内部深度监督的损失和内部特征BEV蒸馏的损失。
1. 内部几何学习:通过仅装备其中一个来检查两个主要组件的单独有效性。表III检查了内部深度监督和内部特征BEV蒸馏的单独贡献。
内部深度监督的消融研究。我们比较了相对深度的不同设置。
结论
TiGDistill-BEV的贡献总结如下:
● 我们引入了一个内部深度监督模块,使我们能够捕捉每个前景目标不同部分之间的内部深度关系,并导致更好的目标深度图预测,这对于获得BEV特征至关重要。
● 我们提出了一个内部特征BEV蒸馏模块,它将多样化模态中学习到的知识转移到基于相机的BEV表示中,通过内部几何学习而不是直接特征对齐来传递高级别BEV语义。
广泛的实验证实了我们增强基于相机的多视角BEV 3D物体检测的有效性。在nuScenes验证集上,强大的BEVDepth在NDS上提升了+2.3%,在mAP上提升了+2.4%,并且在测试集上进一步提升了+3.9%的NDS和+4.8%的mAP。
文章名字:TiGDistill-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning Distillation
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。