标题:Filter Fusion: Camera-LiDAR
Filter Fusion for 3-D Object Detection With a Robust Fused Head
期刊:IEEE Transactions on
Instrumentation and Measurement, 73: 2528812, 2024作者:Yaming Xu, Boliang Li, Yan Wang and Yihan Cui单位:Harbin Institute of
Technology and the Army Armored Corps Academy
1、研究背景:
本研究聚焦于三维物体检测领域,特别是在自动驾驶和空间非合作物体跟踪等应用中,对快速且稳健的检测技术提出了迫切需求。传统的基于光探测和测距(LiDAR)的三维检测器虽然在捕捉物体几何特征方面具有优势,但在检测宽视场内小物体,如街道行人时,能力受限。为克服这一局限,研究者探索了深度感知激光雷达点云与语义丰富的相机图像的融合,以增强检测小物体的能力并提升三维物体检测网络的整体鲁棒性。本文提出了一种基于特征二次滤波的相机-LiDAR滤波融合框架,通过两种不耦合的物体检测结构提取图像和点特征,并利用稳健的相机-LiDAR融合头融合多源异构传感器特征,旨在实现更精确的三维物体检测,特别是在宽视场中小物体的检测。1)四阶段融合策略:文章提出了一种新颖的四阶段融合策略,用于充分利用从两个非耦合的三维物体检测器中提取的独特特征。这种策略通过专用探测器充分提取异质结构特征,使得提取的信息更加充分,尤其是在对于较小物体的检测上表现出色。2)差分函数的提出:为了更有效地融合来自非耦合物体提取器的独立特征,文章提出了一种差分函数。该函数用于衡量特征之间的差异,并在特征融合过程中起到关键作用,提高了特征融合的效率和准确性。
在三维物体检测领域,相机与激光雷达数据融合面临多重挑战。首先,图像与点云在表现形式上的根本差异导致融合困难,影响检测性能。其次,基于激光雷达的检测在识别宽视场内小物体时存在明显局限性。此外,现有融合检测方法的鲁棒性有限,尤其在缺乏有效二维物体建议时。映射和定位误差在将图像像素与激光雷达点云统一到同一坐标系时,也会导致不精确的检测结果。特征级融合方案虽然有助于复杂设计,但也增加了实现的复杂性。大多数融合策略依赖单一的合并指标,如IoU成本函数,这在处理激光雷达未检测到的物体时会忽略相关像素信息。最后,如何有效融合来自独立非合作品体检出器的特征,即基于图像和基于点云的特征,也是一个技术挑战。文章提出的基于特征二次滤波的相机-激光雷达滤波融合框架,旨在通过四阶段融合策略和差分函数,解决上述挑战,以提高三维物体检测的准确性和鲁棒性。图1 基于特征二次滤波的相机-LiDAR滤波融合框架
激光雷达网络分支首先负责从原始激光雷达点云数据中提取特征。这一过程涉及到对点云的预处理,包括将点云场景划分为体素,并从体素特征中提取几何结构和深度信息。接着通过三维卷积神经网络(CNN),网络为不同降采样率的体素(1×、2×、4×和8×)生成特征。这些体素特征随后被转换为二维鸟瞰图(BEV)特征图。再利用二维CNN从BEV特征图中生成三维检测方案,这是为了完善三维边界框建议。网络包含一个基于点的检测头,用于对物体进行分类和盒式回归输出。该检测头负责输出激光雷达分支的最终特征,包括二维边界框区域、三维边界框区域以及置信度得分。即,其中rj是Rj投影的二维边界框区域,Rj是三维边界框区域,sj3D是置信度得分。图2 激光雷达网络分支这一分支的设计旨在充分利用激光雷达点云数据的几何优势,为后续的相机-激光雷达融合提供丰富的三维结构信息,以实现更准确的三维物体检测。图像网络分支在三维物体检测中的核心任务是通过图像像素估计物体的三维信息。该分支首先将单目三维检测问题转化为实例深度估计问题,并构建预测对象的几何关系图以促进深度估计。同时,通过概率深度估计分支对不确定性深度进行建模,而几何深度则由深度传播图推导得出,最终整合得到深度预测结果。利用ResNet101作为特征提取骨干网,结合特征金字塔网络生成多级预测,以捕捉不同尺度的物体特征。深度估计和三维边界框回归结合关键点和回归分支信息,以预测物体的三维边界框。在训练过程中,应用焦点损失、softmax分类损失、二元交叉熵损失、一致性损失、辅助关键点损失和深度损失等多种损失函数,优化网络性能。这些方法共同提高了从二维图像中提取三维信息的能力,为与激光雷达数据融合实现精确的三维物体检测提供了基础。
图3 图像网络分支
1)生成提案预分类:融合头模块的第一阶段是生成提案预分类,其中提取特征并输出未耦合的提案边界框。基于激光雷达和摄像头的探测器探测到物体,并计算这两个探测器之间的每个三维边界框投影的二维IoU,并将结果分为两组,如下图所示:2)初步特征融合:第二阶段是初步特征融合,根据计算出的IoUs,设计合理的策略来平衡不相关探测器的分数权重,并执行不同的融合方法。将IoU作为摄像机和激光雷达的三维物体边界框的相关性标准,两个传感器对同一物体的相关函数由下式给出:
基于相关函数φ(ci,rj ),最优匹配满足下式:最后从相机和雷达两个来源获得最优特征匹配:式中,n∗∈N和m∗∈M下标表示最优值,其中n∗和m∗表示许多最优匹配项,而不仅仅是一个解决方案的单集。
将特征被收集到一个集合中,称为预处理特征。特征集合将在此阶段融合,并输出融合特征使用差分函数计算特征量之间的相关性,差分函数如下所示:
其中,的特征分数差异。最佳预融合特征按融合策略分为三种情况,如下图所示:图5 鲁棒融合头第二融合阶段3)提案二次筛选:第三阶段是对非最佳匹配特征进行第二次筛选,并采用非线性方法降低其分数权重,以准备最终融合。对特征组的置信度分数进行有限度的降低的公式如下:最后得到的用于第四阶段的最终融合。4)最终融合:在这个阶段整合了第二阶段的预融合特征和第三阶段的二次筛选特征。鲁棒融合头四阶段流程图如下图所示:图6 鲁棒融合头四阶段流程图第四阶段首先在最高维度完全连接特征,可以写为;又由于摄像头和LiDAR对视野有不同的感知,删除了视野非重叠部分的特征,删除后的特征属于;接着使用非最大抑制方法在此特征上消除重复检测的部分,获得最终融合特征;最后基于这些特征输出最终的对象边界框和类别。1)kitti数据集实验
实验旨在验证所提出的相机-激光雷达滤波融合框架和鲁棒融合头在三维物体检测任务中的有效性,特别是在检测KITTI数据集中的行人等小物体时的性能。该数据集包含7481个训练帧和3712个训练样本以及3769个验证样本。实现细节:实验使用PGD和SMOKE作为图像特征提取骨干,而体素CNN(包括PV-RCNN)作为LiDAR骨干,对于KITTI数据集,X轴的检测范围在[0,70.4]m以内,Y轴为[−40,40]m,Z轴为[−3,1]m,。实验将图像大小设置为448×800,体素大小为(0.05,0.15,0.1)m。图像是用SGD优化器训练的,学习率为0.001,PGD和SMOKE的整体框架建立在MMDetection3D之上。结果如下表一、表二、表三所示。表一展示了滤波融合方法在KITTI验证集上3-D检测的性能,包括不同IoU阈值下汽车和行人的mAP结果,以及与其他方法的性能对比,强调了帧率和计算效率。表二则聚焦于与KITTI验证数据集上最先进的相机-激光雷达融合方法的性能比较,突出了三维检测精度和处理速度。表三专门针对行人的BEV检测,提供了不同方法在BEV检测中的mAP和APR40结果,特别强调了在行人检测方面的性能提升。这些表格共同体现了所提出方法在不同检测场景下的综合性能和优势。这些表格共同提供了对所提出方法在不同方面性能的全面评估。
2)消融实验
进行了消融实验以分析鲁棒融合头的各个组成部分的影响,包括差分函数Z(·)、二次筛选策略和统一感知视觉策略。实验结果表明,这些组件对于提升三维物体检测的准确性至关重要,差分函数Z(-)在特征融合中表现出比线性函数更优的性能,而二次筛选和统一感知视觉策略的引入则进一步提升了检测的mAP指标。此外,损失函数的消融分析揭示了一致性损失、深度损失和分类损失对于网络性能的重要性。总体而言,这些消融实验验证了所提出滤波融合框架中各个组成部分的有效性和对提高检测性能的贡献。
在实际的视觉融合旋转平台上评估了滤波融合框架的物体检测性能,并与纯激光雷达检测结果进行了比较,结果如下图所示。
图7 鲁棒融合头四阶段流程图
其中红色、蓝色和绿色边界框分别代表正确检测、滤波器融合结果和仅LiDAR探测器的结果。实验观察到,滤波器融合模型比仅使用LiDAR模型更好地估计了物体的尺寸和方向。通过比较绿色和蓝色边界框,看到仅LiDAR模型在单个目标检测测试中正确预测了卫星模型的位置,但无法预测被遮挡的卫星或杂乱场景中的正确目标。实验的测试结果表明,在使用Filter Fusion的实际场景中,该检测方法具有更强的鲁棒性。
提出了一种新颖的稳健相机-LiDAR特征融合框架,用于高质量的3-D目标检测。利用多源异构传感器的解耦特征融合策略来融合原始点和图像。通过提出的四级融合方案,鲁棒融合头有效地融合了来自不同独立探测器的特征。设计了一个差分函数来有效地求解融合特征中不同探测器的评估。实验结果表明,本文提出的方法可以显著提高目标检测精度。