单目3D目标检测由于其简单性和低成本而受到广泛关注。现有方法通常遵循传统的2D检测范式,首先定位物体中心,然后通过相邻特征预测3D属性。
然而,这些方法主要依赖跨尺度特征聚合,仅关注局部信息,可能导致缺乏全局 Aware ,并遗漏小规模物体。此外,由于不同场景和深度下的物体尺寸存在巨大变化,不准确的感受野通常会导致背景噪声和特征表示降低。
为了解决这些问题,作者提出了一种名为MonoASRH的单目3D检测框架,包括高效的混合特征聚合模块(EH-FAM)和自适应尺度感知3D回归头(ASRH)。具体而言,EH-FAM采用全局感受野的多头自注意力机制来提取小尺度物体的语义特征,并利用轻量级卷积模块在不同尺度上高效聚合视觉特征。
ASRH首先编码2D边界框尺寸,然后通过尺度特征与EH-FAM聚合的语义特征通过尺度-语义特征融合模块进行融合。
尺度-语义特征融合模块指导ASRH学习动态感受野偏移,将尺度先验引入3D位置预测,以实现更好的尺度感知。在KITTI和Waymo数据集上的大量实验表明,MonoASRH实现了最先进的性能。
I Introduction
近年来,3D目标检测已成为研究的重要领域,特别是在自主系统、机器人学和增强现实中的关键作用推动下。在三维空间中准确检测和定位物体对于需要高度空间感知能力的应用至关重要,尤其是在自动驾驶系统[1,2]中。
传感器如激光雷达(LiDAR)、雷达和立体摄像头在点云数据、雷达信号和深度图方面,提高了3D目标检测的性能。然而,激光雷达的高分辨率点云[3, 4, 5, 6]和立体方法的深度图[7, 8]需要额外的校准。计算机辅助设计(CAD)[9, 10]和多帧[11]方法改进了形状和运动跟踪,但它们也具有计算密集性。与上述方法相比,单目视觉系统提供了一种更经济高效且可部署的解决方案,尽管由于缺乏直接深度感知,它们在从2D图像中准确提取3D信息方面存在困难。
因此,当前单目3D检测的进步主要集中在提高深度估计的准确性。遵循CenterNet [18]范式的方法,如,使用直接回归估计目标物体的3D中心深度。将几何约束引入深度估计,以增强目标深度恢复。有效地将几何深度与回归的深度相结合,提高网络的泛化能力。然而,这些方法通常将2D和3D特征回归解耦,分别预测2D属性(x,y,w,h)和3D属性(x,y,z,w,h,l,yaw)独立地。这种分离忽视了2D先验和物体在场景中的3D位置之间的潜在关系。简而言之,较远的物体通常在图像中占据较小的区域,而较近的物体则占据主导地位,这导致在固定感受野中提取相关特征存在挑战。
这一问题在图1中网络的注意 Heatmap 对比中尤为明显。可以看出,DEVIANT [22]和MonoLSS [17]在关注较小、较远的物体方面存在困难,尤其是在行人类别中。此外,DEVIANT [22]倾向于不经意地关注无关的背景噪声。一些先前的研究试图解决这个问题。Chen等人提出了一种形状感知的辅助训练任务 [28]。 [29]集成变形卷积 [30]以提高模型对特征的适应性。尽管这些方法在某种程度上实现了感受野的动态调整,但它们并没有明确考虑场景中的物体尺度,也没有根据不同尺度动态调整模型的注意力。
欢迎加入自动驾驶实战群
为了克服上述限制,本文提出了一种新颖的 EfficientHybridFeature Agregation Module (EH-FAM) 和 AdaptiveScale-Aware 3D Regression Head (ASRH)。受到RT-DETR在2D检测方面的成功启发,EH-FAM将视觉 Transformer 与卷积神经网络相结合,以高效地聚合视觉特征,相比传统方法如DLAUp[32],模型复杂度显著降低。EH-FAM在最高层特征上利用自注意力机制进行特征交互,有效地捕获了小尺度物体的语义信息。然后,使用卷积操作进行特征融合,提供了一个更细粒度的跨尺度特征表示。
接着,ASRH编码2D边界框尺寸以捕捉尺度特征,这些特征与从跨尺度特征中提取的语义特征通过一个专门设计的尺度-语义特征融合模块进行融合。融合后的特征指导了感受野偏移的学习,然后将这些偏移应用于变形卷积,从而增强模型适应不同物体尺度的能力。此外,ASRH利用基于空间方差的注意力机制自适应地区分语义特征中的前景物体和噪声。此外,作者引入了选择性置信度引导的热力图损失,以帮助ASRH优先考虑高置信度的检测,并减轻困难样本的影响。
作者所做贡献可以概括如下:
作者引入了一个即插即用模块,名为高效混合特征聚合模块,该模块旨在实现跨尺度特征聚合的效率。 作者提出了一种新颖的适应性尺度感知3D回归头,该头动态地根据物体尺度调整网络的感知场。通过利用2D先验信息,ASRH简化了3D边界框回归。
大量的实验在KITTI 3D目标检测基准测试[33]和Waymo Open数据集[34]上表明,作者的单步ASRH方法相比以前最先进的方法取得了更好的结果。
II Related Works
单目3D目标检测旨在从单张图像中估计物体的3D属性。在本节中,作者总结了之前的单目3D目标检测算法。总体而言,这些方法可以分为三个主要方法:基于深度图的方法、基于中心的方法和基于 Transformer 的方法。
Depth Map-Based Methods
基于深度图的方法[35]旨在通过利用独立深度估计网络来补偿单目视觉中空间深度信息的不足,从而从单目图像中回归深度图。这些深度估计分支通常在监督下使用真实深度图[36, 37]进行训练,或者通过顺序图像[38, 39, 40]的自我监督学习。其中,[41]通过结合多尺度深度特征和图像特征来解决尺度变化问题,而[42]则直接将3D坐标融入输入数据中。此外,其他工作将图像般的深度图转换为点状的伪LiDAR表示,以模拟LiDAR点云。技术[46]利用外部深度估计网络[47]来对齐3D边界框。其他方法[48]将 disparity 预测模块集成在双网络结构中,以生成2D区域 Proposal 并预测3D属性,尽管它们可能存在潜在的性能偏差。随后的模型[49]和[44]提高了深度准确性并集成RGB特征以增强3D定位。
然而,这些方法通常缺乏3D信心估计组件[50],限制了它们的性能。此外,依赖预训练的深度估计网络,这些网络针对像素级精度进行了优化,而不是3D检测,在准确确定前景物体的深度方面也存在挑战。最近的研究[51]也强调了由于训练和验证数据集之间的重叠,导致结果存在偏差,这使得基于深度图的方法在单目3D检测中的有效性复杂化。
Center-Based Methods
许多基于中心的方法是流行 Anchor-Free 中心网络[18]的扩展,它通过将各种3D边界框属性映射到单一的中心点来简化检测过程并提高效率。 [13]继承了这个基于中心的框架,并消除了估计2D边界框的需要。 [14]将深度误差视为限制单目3D目标检测准确性的主要因素。 [16]通过引入辅助学习任务来增强网络泛化。同时,[14, 20, 22]在回归深度之上将几何约束引入深度估计,其中[14]进一步提出了一个分层任务学习策略以确保更稳定的训练。 [24]利用多个深度属性,将它们组合以生成各种深度估计,然后通过多任务学习优化它们。 [56, 57]利用称为同构损失函数的损失函数来平衡不同物体的位置关系。
[27]引入了互补深度概念,利用多个深度线索之间的几何关系来实现正式互补性。 [28, 58]分别提出了形状感知方案和平面约束3D检测框架,分别解决单目视觉中的遮挡问题。 [59]提出的框架通过逐渐放松正则化约束来解决单目3D目标检测中的过度正则化问题。 提出了一种新颖的可学习样本选择模块,使用Gumbel-Softmax概率采样[60]在深度图中区分正负样本,有效地减少了与无关的前景和背景信息的干扰。尽管中心方法具有许多优点,但它们往往忽视了回归3D检测属性的2D先验信息提供的指导。因此,当预测检测目标的3D属性时,网络可能会忽略检测目标的距离和尺寸。
Transformer-Based Methods
最近,端到端基于 Transformer 的检测器(DETRs)在2D目标检测领域取得了显著的成功。随后,一些工作将基于 Transformer 的检测框架扩展到单目3D目标检测,提高了模型的全局感知能力。[64]使用 Transformer 实现端到端3D边界框预测,通过在2D图像中投影可学习的3D Query 。 [5]利用激光雷达进行辅助监督,将全局深度信息注入到 Transformer 中,以指导检测。另一方面,[65]通过深度交叉注意力层与解码器中的深度和视觉特征进行完全交互,而不依赖任何额外数据。
为了提高推理效率,[66]引入了一种自适应 Token Transformer ,允许将更多的 Token 分配给图像中更关键的区域。然而,引入全局感受野必然导致这些网络专注于背景噪声,导致训练收敛速度慢且不稳定。此外,基于 Transformer 的单目3D检测器的计算复杂度和推理速度使其在实时自主驾驶系统中不太适合部署。
III Proposed Methodology
在本节中,作者介绍了作者的 MonoASRH 架构。如图2所示,该整体框架主要由 Backbone 网络、高效的混合特征聚合模块、2D回归头和自适应尺度感知的3D回归头组成。作者的流水线主要依赖于 GUPNet [21]。后续将详细讨论实现细节。
Overall Architecture
对于一个给定的RGB图像,作者使用预训练的DLA-34 Backbone 网络[32]提取多尺度深度特征。这些特征,表示为,经过进一步的细化和跨尺度融合,得到提出的EH-FAM。最终聚合的特征表示为。类似于[21],作者的2D检测器基于CenterNet[18]。作者将深度特征输入到三个2D检测Head中,以回归热力图。2D偏移,以及2D大小,以预测2D物体中心和尺寸。
深度特征也被输入到ASRH进行3D属性预测。具体来说,RoI-Align根据2D框从中提取局部语义特征,其中是RoI-Align的大小,是感兴趣区域(ROI)的数量。然后,作者将每个感兴趣区域对应的2D边界框的大小表示为,并进一步编码为缩放特征。通过缩放-语义特征融合模块,将缩放特征和语义特征融合在一起。
最后,ASRH输出3D边界框大小,3D中心偏移,偏航角,直接深度和深度不确定性。此外,还使用深度注意力图来降低无关信息的影响,从而提高3D检测的准确性。
Efficient Hybrid Feature Aggregation Module
为了高效地将不同尺度下 Backbone 网络提取的特征聚合为深度表示,作者提出了一种可插拔的多尺度特征聚合方法EH-FAM。该方法中的"混合"模块将基于注意力的内尺度交互与基于卷积神经网络的跨尺度融合相结合,以提高性能和计算效率。EH-FAM的详细实现如图3所示。
Iii-B1 Self-Attention Block
EH-FAM接收四个具有不同下采样比例的特征图作为输入。为了确保对小规模目标的丰富语义信息进行全局提取,作者对最高层特征应用多头自注意力。作者使用单独的线性投影来处理 Query (queries)、键(keys)和值(values):
在此,作者提供一篇AI学术论文的简体中文翻译。请注意,这里只提供翻译后的结果,不包含原文内容。
在深度学习中,卷积神经网络(Convolutional Neural Networks, CNNs)已经取得了显著的成功。然而,传统的CNN模型通常需要大量的计算资源和时间来训练。为了解决这个问题,许多研究行人提出了许多改进的CNN模型,例如移动卷积神经网络(Mobile Convolutional Neural Networks, MCNNs)和深度可分离卷积(Depthwise Separable Convolution, DSConv)。
本文提出了一种名为MobileNet的移动卷积神经网络模型,该模型可以实现高效的模型压缩和部署。MobileNet模型采用深度可分离卷积,取代了传统的卷积操作,从而在保持高精度的同时,大大降低了计算复杂度。此外,MobileNet模型还引入了模块化的设计,使得网络结构更加灵活,可以适应不同的应用场景。
在实验部分,作者对MobileNet模型进行了详细的评估。实验结果表明,MobileNet模型在保持较高的精度的同时,具有较快的收敛速度和较低的计算复杂度。此外,作者还通过与其他CNN模型的比较,进一步证明了MobileNet模型的优越性。
总之,本文提出了一种名为MobileNet的移动卷积神经网络模型,该模型在保持较高的精度的同时,具有较快的收敛速度和较低的计算复杂度。实验结果表明,MobileNet模型在许多应用场景中具有优越的性能。
最后,将拼接的输出通过线性层进行处理,将多个头合并为一个单一的输出:
其中, 表示上采样和跨尺度融合操作。
Adaptive Scale-Aware 3D Regression Head
如图4所示,提出的自适应尺度感知3D回归头将3D边界框回归过程分解为三个阶段。首先,通过编码2D边界框尺寸来捕获尺度特征。接下来,尺度语义融合模块将这些尺度特征与感兴趣区域提取的语义特征相结合,动态调整3D回归头的感受野。
由于前景物体的图像空间占用有限(例如,KITTI中的汽车类只覆盖了深度像素的11.42%),作者还引入了一个注意力 Mask ,以确保3D回归头关注相关的前景区域。最后,3D回归头输出3D边界框属性。
Ii-C1 Scale Encoder
级联编码器利用MLP将2D几何属性转换为高维表示。通过学习这种转换,级联编码器有效地编码了缩放信息。对于每个感兴趣的区域,对应的2D边界框大小被映射到高维特征空间:
同时,作者在感兴趣的区域应用一系列卷积层,以进一步优化局部语义特征 ,得到最终的局部语义特征 :
其中 , 是 RoI-Align 大小。然后对 进行重排,使其与 的空间维度相匹配,表示为 。
Iii-B2 Scale-Semantic Feature Fusion Module
本模块包括两个关键组件:偏移特征生成和注意力 Mask 生成。对于偏移特征生成,将比例特征 和局部语义特征 ConCat 。
将组合特征通过一个堆叠卷积层处理,该层包括 3x3 和 1x1 卷积,产生一个比例感知的偏移 ,该偏移用于在后续的可变形卷积中动态调整感受野。
其中 , 其中18表示变形卷积核中每个空间位置的偏移量。
在注意力 Mask 生成组件中,受[69]启发,作者设计了一个基于空间方差的注意力机制。这个机制强调那些与均值有显著偏差的区域,这些区域通常是对兴趣区域的预测。首先,在空间维度上计算局部语义特征的平均值:
然后,作者计算每个像素相对于特征图在空间维度上的平均值之差的平方:
利用来自方程10的平方差,可以计算注意力权重:
λ 是一个小的正常数。σ 是一个通过卷积后接 sigmoid 实现的项目函数。通过归一化方差,可以衡量相对于总体偏差分布,某个特定偏差的重要性。
最后,应用一个使用 sigmoid 激活函数的卷积层来生成 Mask :
其中 , 且 表示元素乘法。
Iii-B3 3D Regression Head
为了实现可伸缩的动态感受野调整,3D回归头的第一层使用了变形卷积[30]。如公式13所示,由Scale-Semantic Feature Fusion Module生成的偏移量和注意力 Mask 被应用到这一层,使得模型能够更好地检测和定位不同尺度的物体:
在3x3核的局部邻域中,枚举了该邻域中的位置,是卷积核中每个位置学习的偏移量,是位置的卷积核权重,控制了相应核位置的贡献。
接下来,作者使用注意力正则化层[70]对特征图进行归一化,该层是一个轻量级模块,集成特征正则化和通道级特征注意力:
由于AN采用了混合建模方法对仿射变换进行特征重标,并在回归 Head 中使用这种方法来促进学习更富有表达力的潜在特征表示,因此它在回归 Head 中得到应用。最后,特征图经过一个LeakyReLU激活函数和一个1x1卷积进行通道映射,最终回归3D边界框属性。
Loss Function
Iii-D1 Selective Confidence-Guided Heatmap Loss
易于识别的样本(通常完全可见,距离相机更近),其缩放复杂性较小。因此,作者的缩放感知机制在针对这些目标时很难提供额外的关注。为了解决这个问题,作者提出了一种选择性置信度引导的热力图损失,该损失鼓励模型在网络倾向于给易识别样本分配更高的置信度(如图5所示)的情况下,更多地关注高置信度的样本。具体而言,这种损失函数使用改进的Focal Loss [17]作为主要损失,并引入了选择性置信度引导(SCG)损失作为辅助损失(方程15)。
其中 是批量大小, 是每张图像可检测的最大可识别目标数量, 是在预测热力图中具有最高置信度的前 个顶点, 是置信阈值。
焦度损失引入了热力图回归的动态加权。SCG损失鼓励ASRH优先考虑高置信度的样本,这对于准确检测较近的物体至关重要。同时,优化高置信物体可以在一定程度上减轻低置信样本中的噪声过拟合。最终的热力图回归损失是这两种损失的加权组合:
在实验中, 设置为0.9, 设置为0.01。
Iii-D2 Total Loss
整体网络损失 包括两个组成部分:2D物体损失 和 3D物体损失 。从数学上表示,组合损失函数可以表示为:
2D物体损失遵循CenterNet的设计[18]。它包括选择性置信引导热力图损失,2D中心偏移损失和2D大小损失。
该句的中文翻译为:
和 使用标准的 L1 损失。
遵循MonoDLE范式[14],3D物体损失训练网络预测关键3D属性。它包括3D中心偏移损失 和3D尺寸损失 ,使用L1损失,以及使用多分箱损失[72]的定向损失 ,以及由Laplacian aleatoric不确定性损失[52]监督的深度损失 :
IV Experiments
Setup
Iv-A1 Dataset
为了评估作者提出的方法的性能,作者在KITTI 3D目标检测基准测试[33]和Waymo Open数据集[34]上进行了实验。KITTI数据集包括7,481张训练图像和7,518张测试图像。它包括三个主要目标类别:汽车、行人和自行车,根据目标大小、遮挡和截断等因素分为不同难度等级( Easy 、Moderate_和_Hard_)。遵循先前的研究[73],训练图像进一步分为训练集3,712张和验证集3,769张。
谷歌的Waymo开源数据集[34]是自动驾驶场景理解的重要资源,包括798个训练序列和202个验证序列,分别产生约160,000和40,000个样本。在作者的实验中,作者采用了[73]中的方法,通过从训练序列中每帧选取三分之一的帧来生成52,386个训练图像和39,848个验证图像。这个数据集捕捉了多种真实的驾驶场景,并根据激光雷达点密度将物体分为 LEVEL_1和LEVEL_2。
Iv-A2 Evaluation metrics
在KITTI数据集上,模型的性能通常使用3D空间中的平均精度()和鸟瞰视角()进行衡量,在40个召回位置处。
的计算基于预测的3D边界框和真实地面目标之间的交集与并集,对于每个目标类别有特定的IoU阈值 - 0.7用于汽车,0.5用于行人和自行车。遵循官方协议[33],作者在_Moderate_类别中使用和作为主要指标。在Waymo上,评估使用两个IoU阈值(0.5和0.7),跨越四个距离范围:总体上,0 - 30m,30 - 50m,和50m - 。
Iv-A3 Data augmentation
为了提高模型的泛化能力,作者在目标检测中常用的几种数据增强技术中选取了一些,并在训练过程中应用了它们。这些技术包括随机水平翻转(概率为0.5)、随机裁剪(概率为0.4)和随机缩放(概率为0.1)。此外,作者还利用了MonoLSS [17]中的MixUp3D技术作为额外的数据增强策略,以进一步提高模型在遮挡情况下的鲁棒性。
Iii-A4 Implementation details
作者的提出的单语义ASRH模型在两块RTX 3090 GPU上进行训练,批处理大小为16。对于EH-FAM,作者在多头自注意力中设置Vi的通道维数d_v为128。参考[21],RoI-Align的大小d×d设置为7×7。对于KITTI,作者使用Adam优化器[74]训练模型450个周期,权重衰减为1e-5。
初始学习率设置为1e-3,在250和370个周期后衰减到10倍。对于Waymo Open数据集,作者只训练了80个周期,批处理大小为32,同时保持所有其他设置与KITTI相同。在测试阶段,每个图像可检测到的最大目标数量K设置为50。
Main Results
作者将作者提出的单目3D目标检测方法MonoASRH与最先进的单目3D目标检测方法进行了比较,这些方法在KITTI测试集上针对汽车类别进行评估。
如表1所示,作者的方法在不需要额外数据的情况下超过了基于CAD模型的DCD [10]方法。与其他不使用额外数据的方法相比,MonoASRH在所有三个难度水平上,都取得了0.65%,2.03%和1.82%的改进。此外,它在方面超过了表现最好的FD3D [75]方法,取得了0.64%,2.17%和1.72%的改进。实验结果验证了作者在检测汽车类别物体方面的方法的有效性。
行人及自行车类别在KITTI测试集上的结果如下表2所示。对于行人,单目ASRH在所有难度 Level 上都取得了最佳性能,超过了基于激光雷达的单目DTR方法[5]。在自行车类别中,单目ASRH在_Easy_ Level 上排名第三,但仍表现出有竞争力的性能,与基于Transformer的单目DETR相比[65],在_Moderate_ Level 上的轻微下降。然而,它在 Hard Level 上取得了最佳性能,达到了3.51%的。这些结果突显了检测像行人这样的较小、非刚体物体的挑战。然而,单目ASRH的尺度感知动态感受野调整能力使这些类别表现出色,验证了模型的泛化和可扩展性。此外,EH-FAM中的解耦卷积层更适合捕获这些具有大宽高比的类别特征。
如图3所示,MonoASRH在KITTI验证集上进行了评估。在0.7 IoU阈值和_Moderate_难度类别中,MonoASRH实现了最先进的性能,其和得分分别为20.75%和27.26%。图6展示了在KITTI测试集上的部分定性结果。得益于EH-FAM中的全局自注意力机制,该模型能够有效地捕获较小物体的远程依赖,例如远处车辆。
表4在Waymo Open Val Set数据集上比较了各种方法在“车辆”类别下的指标。在30-50m和50m-Inf范围内,作者的模型实现了最先进的性能。与MonoRCNN++[78]相比,MonoASRH在0.5和0.7的IoU阈值下,在30-50m范围内分别提高了的2.09%和0.10%,在LEVEL 1设置下。此外,在LEVEL 2设置下,在30-50m范围内,指标在不同IoU阈值下分别提高了1.97%和0.08%。这些结果进一步验证了MonoASRH在检测远距离和小型物体方面的有效性。
Ablation Studies
在本节中,作者评估了所提出框架中每个组件对网络性能的影响。作者在KITTI验证集上进行消融研究,使用Car类别作为指标,使用和进行评估。作者的 Baseline 模型基于GUPNet [21],并采用了MonoLSS [17]中的可学习样本选择进行初始训练。作者比较了不同组件的效果,包括自适应尺度感知3D回归头、高效的混合特征聚合模块和选择性信心引导热力图损失。表5中的结果展示了每个模块对作者方法总体性能的贡献。
V-C1 Adaptive Scale-Aware 3D Regression Head
在表6中,作者进一步探讨了Adaptive Scale-Aware 3D回归头中每个组成部分对模型性能的贡献。具体来说,作者在三种设置下评估了ASRH: "w/o Scale-Aware Offset",在该设置中,感受野偏移仅从语义特征中推导,而不使用目标尺度信息;"w/o Adaptive Attention Mask",在该设置中,注意力 Mask 随机初始化;"w/o Attentive Normalization",在该设置中,不应用AN层[70]来对特征图进行归一化。实验结果显示,在ASRH中结合尺度信息至关重要,使模型能够对感受野进行动态的尺度感知调整。这显著提高了检测效果,尤其是对于_Moderate_和_Hard_难度水平的小型和被遮挡的物体。
此外,作者将ASRH与标准变形卷积[30]进行了比较。作者将变形卷积插入到 Baseline 模型中每个3D回归头的第一个层,并与ASRH进行了比较实验。如表7所示,在单目3D检测任务中,ASRH始终优于标准变形卷积。
Iv-B2 Efficient Hybrid Feature Aggregation Module
为了进一步验证EH-FAM作为单目3D目标检测可插拔模块的泛化能力,作者在不同的 Baseline 模型上进行了消融研究,结果如表8所示。在这些实验中,作者将每个 Baseline 模型中的原始特征聚合模块(例如,DLAUp [32])替换为EH-FAM,并比较了替换前后(计算时批次大小为1)的分数、参数和计算成本。表8的结果表明,EH-FAM在所有三个 Baseline 上都带来了性能提升和参数减少。具体而言,在_Moderate_ Level 上,MonoDLE [14]、GUPNet [21]和MonoLSS [17]的分数分别提高了0.75%、0.05%和0.91%,而它们的参数数量减少了8.76%、8.74%和8.48%。此外,计算成本减少了5.71%、7.25%和7.17%。这些结果证实了EH-FAM可以广泛应用于各种 Baseline ,显著提升性能和计算效率。
Visualization
在图7中,作者将所提出的单人ASRH与基于Transformer的单人DETR[65]和中心基的单人LSS[17]进行了比较。每组图像显示了摄像机视图和BEV视图。与其他方法相比,单人ASRH在各种场景下生成了更高质量的3D边界框。值得注意的是,它擅长检测和定位小而远的目标,如第三组图像中的右侧白色车辆,证明了引入尺度信息的好处。单人ASRH对于完全可见物体的结果也提供了更准确的结果。此外,它在第二组图像中的部分遮挡物检测效果更佳。
V Conclusion
作者提出了MonoASRH,它引入了高效混合特征聚合模块(EH-FAM)和尺度感知3D回归头(ASRH),用于单目3D检测。
即插即用EH-FAM采用混合架构,有效地聚合不同尺度的特征,使模型具有更丰富的尺度感知语义信息。ASRH根据物体的尺度动态调整网络的感受野,从而提高3D检测的准确性。
在KITTI和Waymo基准测试上的实验结果表明,MonoASRH实现了最先进的性能。
然而,当检测截断物体时,MonoASRH可能会表现不佳,因为这些物体通常会导致ASRH获取尺度特征的不准确。未来的研究将致力于克服这一挑战。
参考文献
[0]. Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection.
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。