ADAS Laboratory
点击上方蓝字关注 自动驾驶之星
在自动驾驶中,目标检测是感知环境的关键任务,通过定位和分类物体来实现。大多数目标检测算法都依赖于深度学习以实现卓越性能。
然而,其黑箱性质使得确保安全性具有挑战性。
在本文中,作者提出了一种前所未有的方法,用于对与要检测的物体或环境相关的各种因素进行统计分析,以比较基于激光雷达(LiDAR)和相机的3D目标检测器的检测性能。
作者分别分析每个因素与检测误差之间的关系,以比较其影响力的大小。
为了更好地识别潜在的检测误差来源,作者还分析了依赖性因素的性能,并检查了不同影响因素之间的相互依赖性。
识别出影响检测性能的因素有助于识别训练中的目标检测器的鲁棒性问题,并支持目标检测系统的安全性评估。
I Introduction
自动驾驶(AD)感知的基础是各种传感器的目标检测,如RGB摄像头、激光雷达(LiDAR)和雷达[1]。为了充分发挥自动驾驶车辆(AVs)在减少事故和提高道路交通安全的潜力[2],除了其他因素外,AVs必须能够准确、可靠地感知其环境[3]。
基于深度神经网络(DNN)的目标检测器在定位和分类物体方面实现了高性能[4]。然而,DNN存在一些安全问题,如对小扰动的敏感性和黑箱性质导致的未知行为[5],因此,为DNN提供安全保证具有挑战性[6],这是基于DNN的目标检测器在AD安全相关领域应用的主要问题。提供AD感知系统安全性的一个步骤是在设计阶段识别DNN的弱点并理解检测错误的原因。
因此,本工作识别并分析了环境与物体提供的元信息对基于DNN的目标检测器检测性能的影响。元信息是指场景的特征,如天气条件或特定物体属性。通过分析基于相机的目标检测器和基于LiDAR的目标检测器,作者还研究了两种传感器模态之间的差异。作者的开发方法确定了不同目标检测器的特定弱点,并支持了复杂测试目录的开发。
作者工作的主要贡献包括:
(i)对检测器的依赖性进行统计比较, (ii)识别出基于激光雷达和基于相机的单传感器检测器之间影响因素的差异, (iii)确定特定类别的依赖性。
II Related Work
虽然有研究分析了感知链中的危险,但大多数研究专注于特定传感器属性产生的危险,或者仅研究对感知算法的特定影响。然而,考虑影响3D目标检测的各种因素的全面统计分析仍然缺乏。
Zendel 等人引入了CV-HAZOP,用于识别基于相机的计算机视觉系统中的多个危险。他们在一款通用的基于相机的计算机视觉模型上应用了危险与操作性分析(HAZOP)分析。在计算机视觉专家确定并指定危险之后,相应的危险手动标注在公共数据集中。
随后,实验应用了几种传统的立体视觉算法到测试数据,并基于图像中错误检测的像素与实际 GT 像素进行评估。在[8]中,Zendel等人通过将HAZOP应用于LiDAR传感器,实现了摄像头和LiDAR的共同危险分析。在A2D2数据集[9]的摄像头图像上应用危险检测器,然后专家根据这些危险评估相应的LiDAR数据的质量。这识别出了摄像头和LiDAR的共同危险,例如物体的反射性和透明性属性。
Linnhoff等人提出了一种感知传感器协作效应和原因树( PerCoLLECT ),其中开发了摄像头、RADAR 和 LiDAR 的因果链。他们的工作涵盖了整个感知链,从发射到物体识别。在这些工作中没有进行基于深度学习的目标检测器上的危险显式统计分析。
在论文[11]中,李等人对基于深度学习的2D摄像头行人检测的公平性进行了统计分析,评估了在诸如年龄和性别等属性上的检测器性能。他们的观察结果揭示了与儿童相关的目标检测性能存在负偏差,对于具有较小边界框的目标,观察到了更高的错误率。此外,他们还观察到在低对比条件下,女性和儿童的性能退化更大。
最后,Ponn等人是第一批根据目标或环境中的元信息进行基于深度学习的目标检测性能分析。他们训练了一个随机森林( RF )模型,该模型将元信息作为输入,并相应地预测目标检测器的错误。随后,他们将SHapley加性解释应用于解释训练好的RF的决策,并按重要性对特征进行排名。这使他们能够比较潜在错误源对检测性能的影响。然而,这种方法严重依赖已训练好的随机森林模型,可能无法准确代表基础数据的统计性质。此外,它仅分析了基于2D相机的检测器的性能。
论文作者 Liang 的论文探讨了3D目标检测错误的可解释原因。然而,仅对一个相机和一个基于激光雷达的检测器进行了检查,这限制了比较。此外,选择元数据和分析方法不足以实现准确识别错误原因的目标。
在作者的工作中,作者提出了一种统计分析方法,用于研究元信息对3D目标检测器性能的影响。此外,作者还分析了单一传感器 LiDAR 和摄像头检测器,以捕获两种模式之间的差异。
III Method
这一节描述了用于统计调查影响检测性能因素的整体方法。首先,介绍了元信息以及选定的目标检测器。最后,作者概述了作者的统计分析方法。
Meta-information
作者的分析需要一个包括LiDAR和摄像头传感器的数据集,并具有相应的3D边界框标注,涵盖场景和环境条件的高度变异性。如同Ponn等人 [12] 的工作一样,作者选择了一个多模态和开源的数据集 NuScenes [16]。NuScenes在白天和夜晚以及不同天气条件下记录了4万帧标注图像,此外,它包括不同类型的传感器,包括6个摄像头和1个LiDAR,共同提供了360°的传感器覆盖。
为了研究元信息的影响,作者从NuScenes中提取环境与真实场景的元信息。对于环境元信息,作者检查位置,包括波士顿的一个地区和新加坡的三个地区。接下来,作者考虑两个二进制变量,表示是否为夜间或白天以及是否下雨。
最后,作者考虑记录的月份,与Ponn等人[12]的研究中考虑的月份不同。待检测目标的元信息包括目标类别及其属性,其中属性定义了目标的实际情况,例如行人移动或汽车停车。
属性仅定义在“汽车”、“行人”、“自行车”和“摩托车”这四个类别中。此外,作者考虑自动驾驶车辆与真实场景物体之间的距离(以米为单位),物体的速度(以米/8为单位),以及物体的偏航角(以度为单位)。
此外,还包括物体的宽度、高度、长度和体积(以米或立方米为单位)。Ponn等人[12]进一步研究了摄像图像中的像素数和遮挡的影响,分别表示目标的可见性,这可以表示为所有6个摄像图像中可见标注的比例。由于作者还考虑了基于LiDAR的检测器,这两个因素不适合比较LiDAR和基于摄像头的目标检测器的性能。因此,作者考虑物体的垂直和水平角大小。这表示自动驾驶车辆视角下物体的实际大小。
Object Detectors
针对单目基于的目标检测,作者研究了两种单目检测器,它们将单张图像作为输入。这种类型的检测器将2D检测框架与几何先验相结合,以估计3D边界框[17]。在作者的研究中,作者分析了元信息对两阶段检测器MonoDIS [18]和一阶段检测器FCOS3D [19]的影响。
对于基于LiDAR的目标检测,作者分析了两种基于 Voxel 的目标检测器,分别是PointPillars 和 Megvii 。这两种检测器都将点云转换为3D Voxel ,从而提取3D目标检测的特征。选择这四种目标检测器是基于它们在单一传感器检测领域的重要性。此外,两种基于相机的检测器和两种LiDAR检测器之间的架构本质上并没有太大差异,这便于识别LiDAR和相机基础检测器之间的差异。
Statistics
在本研究中,作者旨在通过排名影响力度来比较元信息对目标检测性能的影响。特征排序后进行特征选择通常是监督机器学习中的一个重要预处理步骤。作者区分了基于过滤器、包装器、嵌入式和混合方法。后三类方法需要机器学习(ML)模型,因此具有特定性。然而,作者的目标是识别数据的固有特性,而不是训练一个ML分类器来根据元信息预测感知算法的错误。因此,作者选择了一个过滤器基础的方法,该方法与模型无关。
统计分析检测性能的元信息面临的一个挑战是数据的混合性质,即具有分类和数值因素,分别作为特征[23]。许多方法通过离散数值特征或将分类特征编码为数值来进行特征转换,这个过程通常不准确,可能导致信息损失[24]。
在这项工作中,作者使用单变量互信息(MI),它衡量两个变量之间的相互依赖性[25]。这种方法在医学数据分析中得到广泛应用[26]。从两个随机变量的条件熵的并集中推导出的MI值,作为衡量两个变量之间统计依赖性的指标。为处理混合数据,作者使用了一个k近邻熵估计器来处理数值变量[27]。在[28]和[29]中,已经证明相比于通过分箱来离散化数值变量,最近邻方法具有较低的系统误差。k的选择对估计的统计误差有影响。较高的k导致系统误差,而较低的k则表现出更高的随机误差。
如 Kraskov 等人所提出的,作者选择了一个较小的k值=3,以表示在作者的分析中随机误差可以忽略不计。此外,作者通过计算两个随机变量的个体熵来归一化MI值。MI值的优势在于它能够捕捉到线性和非线性依赖性,但其缺点在于它无法评估两个变量之间依赖的精确方向。由于作者的工作主要比较不同因素对检测性能的影响强度,检测性能与元信息之间的MI值是一个合适的度量。检测误差与特定因素之间的MI值较高,表示该因素对检测性能有强烈的影响,而MI值较低则表示两个变量之间的依赖较弱,最小MI值0表示无依赖。对于目标检测器的结果,作者只考虑真正阳性(TP),表示物体被正确检测和分类,以及假阴性(FN)。FN是一个错误,可能是由于错误的边界框定位或错误的物体分类导致的。尽管检测器的性能还取决于假阳性(FP)率,也称为幽灵检测,但只能分析环境元信息,这使得确定潜在错误原因变得困难。
Evaluation
正如上面提到的,MI 值的一个缺点是它没有显示影响力的方向。此外,MI值是一个单变量度量,没有考虑元信息的相互依赖性。这使得从结果中推导因果解释变得困难。因此,作者进一步分析了检测器的召回值与元信息之间的关系,以辨别影响力的方向。此外,作者还检查了不同元信息之间的MI值,以验证作者的结果的可信度。
IV Results
分析基于NuScenes的验证数据集。表1显示了每个目标类别的百分比份额,表2显示了所有目标检测器的召回值。正如Ponn等人[12]的工作一样,作者分析了元信息对所有目标类别检测性能的影响。此外,作者单独考察了数据集中最具代表性的两个目标类别,“Car” 和 “Pedestrian” 对检测性能的影响。
All Object Classes
图1显示了目标检测器与元信息之间的MI值。红色和蓝色条对应于基于相机的目标检测器FCOS3D和MonoDis。相反,绿色和橙色条表示LiDAR基检测器PointPillars和Megvii的MI值。首先,可以观察到所有检测器之间检测误差与边界框参数(边界框大小和偏航角)之间的依赖性最强。尤其是体积显示出最高的强度。相反,位置以及夜间和雨天的存在几乎不影响检测误差。此外,物体的速度、日期和时间具有相对较低的MI值。结果与Ponn等人[12]的研究观察到的结果相似。
值得注意的是,由于Ponn等人研究的是基于相机的2D目标检测,因此这些结果并不直接可比。用于更好地比较LiDAR和相机的垂直角大小(角大小v)和水平角大小(角大小h)均对所有物体类显示出相对较低的MI值。此外,除了PointPillars外,物体类对检测误差的依赖性相对较低。此外,PointPillars在元信息类以及边界框大小和偏航角方面显示出比其他检测器更高的MI值。此外,自车辆和要检测的物体之间的中心距离对两种相机基检测器的检测性能比对LiDAR基检测器有更强的影响。
同时,可以明显看出,FCOS3D和MonoDis这两种相机基检测器所研究的因素对检测误差的依赖性相似。
根据结果,可以观察到所有四个检测器的检测性能主要受物体边界框参数的影响。表3显示了物体类别与其他元信息的MI值。可以看出,物体类别强烈依赖于边界框的体积以及偏航角。因此,边界框参数对检测性能的强烈影响可能也来自于不同物体类别的影响。
除了PointPillars之外,物体类别与检测误差之间的MI值低于边界框大小和航向角,如图1所示。这可能表明,边界框参数的影响,无论物体类别如何,都是显著的。PointPillars的物体类别具有较高的MI值,表明PointPillars的检测误差相对于其他检测器更依赖于物体类别。如表2所示,PointPillars的召回值具有最大的标准差。
值得注意的是,夜间和雨天对检测误差的影响相对较小。在Ponn等人[12]的工作中,考虑了雨因素,也没有明显影响检测误差。LiDAR和摄像头基础检测器之间最大的区别在于对距离的依赖性。图2显示了所有四个检测器在自车和待检测物体之间的离散中心距离上的召回值阶梯图。距离按照Doane[31]提出的离散方法进行离散。虽然所有四个检测器在较小距离上的召回值相似,但如图2所示,在大约20m处,摄像头检测器的召回值比Megvii和PointPillars更快地减小。这似乎是NuScenes中基于两个单目相机的检测器对于检测大于LiDAR基础检测器的物体的不适宜性。
Cars
图3显示了类别"Car"的MI值,与之前不同,作者分析的是属性而不是目标类。不同的属性可以区分汽车是否在运动、停止或停车。与图1中所有类别之前的结果相似,位置和属性对检测误差没有显著影响。物体的速度以及日期和时间也表现出对检测误差的小小依赖性。
此外,两种基于相机的检测器的MI值又相似了。距离与检测误差之间的MI值,尽管LiDAR基的Megvii检测器的对应值有所增加,但两种基于相机的检测器仍然较高。与图1中所有类别的结果相比,与边界框大小参数和偏航角相关的MI值有所降低。这种降低是合理的,因为可以查看表3,所检查的边界框大小和物体的偏航角高度依赖于物体类别。特别是,PointPillars的MI值显著减少,小于其他检测器的值。相反,对于所有除PointPillars之外的检测器,垂直和水平角大小的影响上升。
然而,边界框体积仍然具有最高的 MI 值。除PointPillars外,角大小的影响与物体的宽、长、高相当。值得注意的是,物体大小仍然对目标检测结果有显著影响,尽管边界框大小范围更小。然而,当只考虑汽车时,角大小的影响或从自车的视角看出的表观大小变得更为重要。PointPillars边界框参数的MI值降低支持了之前观察到的PointPillars检测性能高度依赖于类别的结论。此外,PointPillars与"Car"类所有检查因素之间的检测误差MI值是四个检测器中最低的。这可能归因于表2中看到的0.98的高召回值。对于"Car"类的验证数据集上的高绩效可能表明检测器对环境或物体的不同因素的鲁棒性。
Pedestrians
图4显示了类"Pedestrian"的结果。与图1和3中之前的两条 Pillar 图相似,最具影响力的因素是边界框参数,包括其大小和偏航角。对于基于摄像头的目标检测器,角大小和距离也呈现出与长度、宽度、高度和偏航角先前观察到的类"Car"中的MI值相似的高MI值。然而,与图3中的类"Car"相比,Megvii LiDAR检测器的距离有所减小。对于两个基于LiDAR的检测器,距离似乎并不那么重要。
相比之下,两种LiDAR检测器对边界框大小和偏航角的依赖性增加了。值得注意的是,与图1和3中之前的类"Car"的结果相比, GT 物体的速度以及其属性都有所增加。此外,小时因子对于两个基于LiDAR的检测器变得更加重要,而指示器夜晚仍然无关紧要。
如图3所示,与基于相机的检测器相比,两个激光雷达基检测器在目标类“Car”中的边界框参数的影响增加了。两个基于相机的检测器的检测性能主要取决于车辆与目标之间的距离、边界框参数以及从车辆视角看来的物体的角大小。相反,激光雷达检测器的性能相对严重依赖于边界框的大小和方向,以及行人的属性,即行人是否在移动、坐下、躺下或站立。表4显示了检测器在不同行人属性下的召回值。两个激光雷达检测器的召回值的标准差远高于基于相机的检测器。特别是,当行人坐着或躺着时,性能会有相对较大的下降。表5考虑了行人属性和其他元信息之间的MI值。如图5和6所示,行人的移动和坐着/躺着状态的召回值依赖于边界框体积。两个激光雷达检测器对于移动行人的召回值约为0.95,无论其体积大小,如图5所示。
然而,两个激光雷达检测器对于坐着或躺着行人的召回值在体积为1立方米之前波动在0.7左右,如图6所示。召回值波动的原因是坐着或躺着行人的数量较少,如表6所示。无论体积如何,图5和6都显示了两种属性之间存在很大的性能差异。这表明Megvii和PointPillars的行人检测性能受到的强烈影响不是由于体积分布的差异,而是与其他属性相关的特征。此外,这可能表明,属性导致了边界框参数和激光雷达行人检测性能之间的MI值增加,如图4中的行人类别相对于图3中的汽车类别。最后,表5显示速度和属性之间的MI值相对较高,这是合理的。属性的依赖性也解释了速度对Megvii和PointPillars检测性能的依赖性高于图3中物体类“Car”的结果。最后,表5表明属性对元信息时间的依赖性高于因子夜间。这可以解释为什么图4中两个激光雷达检测器在行人上的MI值增加,而夜间因子仍然表现出低影响力。
V Discussion
在对单传感器目标检测性能影响因素的统计分析中,作者得出以下结论。首先,待检测物体的边界框大小和偏航角对其检测性能有显著影响。即使在同一类别中,大小和航向也起着重要作用。此外,观察到基于相机的目标检测器受到长距离的影响大于 LiDAR 基检测器。这种差异可能是因为 NuScenes 中的 LiDAR 传感器具有比相应相机更高的检测范围。最后,作者发现 LiDAR 检测器受到的物体类别的不同影响很大。与“Car”类别相比,“Pedestrian”类别的元信息属性对 LiDAR 检测器的检测性能影响更大。此外,行人的尺寸、偏航角和速度对 LiDAR 检测器的性能影响更大。然而,在验证集上,两个 LiDAR 检测器的召回率相对较高,如表2 所示,但检测性能对上述行人元信息的变化敏感。这可能是因为 LiDAR 在检测小物体时存在一般问题。
由于表面面积较小,点云较稀疏,从而使检测性能复杂化 [32]。此外,Torres 等人 [33] 表明,3D 点云中反射和强度随人体姿态变化。由于不同属性下的人体姿态不同,这可能解释了行人属性对 LiDAR 基检测器性能的影响大于相机基检测器。与 Ponn 等人 [12] 的研究一样,雨因素对检测性能没有强烈影响。然而,一些研究显示雨对相机基和特别是 LiDAR 基目标检测有强烈影响 [34, 35]。雨的影响较小可能是因为 NuScenes 中雨强度较低的记录。
不幸的是,NuScenes 中的雨强度信息不可用。因此,具有更精确元信息的 datasets,如天气和照明条件,将有助于更精确地识别错误原因。在 Ponn 等人 [12] 的研究中,训练了一个元模型,该模型根据元信息预测检测误差。尽管模型准确性很高,但该方法严重依赖已训练的模型,不一定代表数据的真实统计特征。相反,作者的方法通过 MI 标准对数据进行统计分析,并比较元信息对检测错误的影响。此外,作者还检查了特定类别,以确定其特定影响因素。通过进一步研究不同元信息和 MI 值之间的关系,作者可以更深入地了解它们的影响。
为了进行更全面的调查,作者提出对目标定位和分类误差进行单独分析。特别是,元信息对检测物体和真实物体之间的交点(IoU)或中心距离的影响将额外支持分析。仅根据特定环境元信息进行虚假阳性错误分析将补充作者的研究。
最后,作者的分析仅在验证集上进行,因为NuScenes [16]测试集不公开。然而,目标检测器通常使用验证集进行优化,并在这些集上进行最终微调。进一步分析测试集上的检测性能可能得出不同结果。由于在设计阶段没有看到测试集,由于训练产生的目标检测器的系统误差可以更有效地识别。
VI Conclusion & Outlook
在作者的工作中,作者开发了一种方法来统计地研究来自环境和待检测对象的各种元信息对对象检测器性能的影响。
通过分析数据特征,作者的方法允许作者比较不同因素影响的大小和方向,并提取潜在的错误来源。作者开发的方法有助于识别训练对象检测器的弱点,因此有助于生成基于深度学习的对象检测器的挑战性测试目录。
这促进了更健壮和可靠的对象检测器的开发,从而支持了在自动驾驶(AD)中基于DNN的对象检测器的安全认证。然而,潜在错误原因的提取受到NuScenes [16]中包含的元信息的限制。
因此,一个包含更多关于对象及其环境标记信息的数据集将支持更全面的分析。在未来的研究中,作者将通过考虑更详细的元信息、进行多变量分析以及更详细地研究特定错误来源的影响方向来扩展作者的分析。
此外,作者还计划分析更先进的对象检测器,这些检测器融合了单个传感器,如激光雷达(LiDAR)和摄像头。
作者的方法还可以通过使用可解释的AI形式,如可解释的替代模型或辅助解释[36],来进一步扩展,这可能会改善对象检测器错误原因的识别。
参考文献
[0]. Methodology for a Statistical Analysis of Influencing Factors on 3D Object Detection Performance.
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧