北大/加州大学提出 OpenAD: 3D物体检测的开放世界自主驾驶基准！

文摘 2025-01-01 11:15 河南

自动驾驶之星

点击上方蓝字关注自动驾驶之星

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

开源自动驾驶涵盖领域泛化和开放词汇。领域泛化指的是自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇涉及在训练过程中未遇到的各种语义类别识别能力。

在本文中，作者介绍了OpenAD，这是首个针对3D目标检测的开源自动驾驶领域泛化基准测试。OpenAD建立在结合多模态大型语言模型（MLLM）的角点案例发现和标注 Pipeline 上。

所提出的 Pipeline 为五个自动驾驶感知数据集（每个数据集包含2000个场景）中的角点案例物体提供统一的标注格式。

此外，作者制定了一系列评估方法和评估各种2D和3D开源和专用模型。

此外，作者提出了一种以视觉为中心的3D开源目标检测 Baseline ，并进一步引入了一种集成通用和专用模型的增强方法，以解决现有开源方法在OpenAD基准测试中精度较低的问题。

数据、工具包代码和评估代码已在https://github.com/VDIGPKU/OpenAD上发布。

1 Introduction

随着自动驾驶系统的快速发展，开放式世界感知已经引起了研究界的广泛关注和日益增长的关注。开放式世界感知旨在开发一个能够在新颖领域、多种传感器配置和各种特殊情况物体上表现出强大性能的模型。开放式世界感知中最重要的两个因素是领域泛化和开放式词汇。

域泛化是指模型在面临训练域之外的新场景时的性能。要实现第四级自动驾驶，解决域泛化问题至关重要。在自动驾驶3D感知领域，当前评估场景泛化的方法[1, 29]包括在特定数据集上进行训练，然后将训练好的模型转移到不同的数据集进行后续测试。

开源词汇表示感知模型对于在训练领域中未出现或未标注的语义类别的识别能力。开源词汇感知是自动驾驶系统后续推理和规划的基础。例如，确定一个物体是否可碰撞、是否可能会突然移动，或者是否表示某些周围区域不可穿越，首先需要对物体进行准确的语义描述。

许多工作已经提出了解决这两个问题的方法。然而，在开发开放世界感知模型时，研究行人面临三个挑战。第一个挑战是自动驾驶的3D开放世界感知中缺乏评估基准。具体来说，目前缺乏一个用于跨域评估的统一基准，由于单个数据集的格式不同，研究行人必须在格式对齐方面投入大量的工程工作。此外，当前的3D感知数据集具有有限的语义类别，缺乏对当前开放词汇3D感知模型的有效评估。

第二个挑战是受限于公开可用的3D感知数据集的规模，训练开放世界感知模型存在困难。尽管近年来，一些开放世界自然语言模型和2D感知模型利用大规模互联网数据进行训练。如何将这些模型的能力或2D数据转移到3D开放世界感知是一个重要且及时的研究问题。

最后一个挑战是现有开放世界感知模型的相对较低的精度。虽然专门针对自动驾驶感知数据集训练的模型缺乏泛化到开放世界的能力，但它们对可见类别具有更强的预测能力，并取得了良好的性能。这表明，作为专门模型，开放世界感知模型的低精度限制了其在实际应用中的使用。因此，当前的开放世界感知模型尚不能在实践中替代专门模型。

针对上述挑战，作者提出OpenAD，一个面向3D目标检测的开放世界自动驾驶基准测试。作者将五个现有自动驾驶感知数据集的格式进行对齐，选择2000个场景，使用MLLM为数千个角点案例物体进行标注，并开发开放世界评估指标以克服第一个挑战，即评估基准测试的稀缺性。然后，作者通过利用现有2D开放世界感知模型，提出一个以视觉为中心的3D开放世界目标检测 Baseline ，以解决第二个挑战。最后，作者进一步设计一种融合方法，通过利用开放世界感知模型的优势（或通用模型）和专用模型来提高3D开放世界感知结果，以解决最后一个挑战。

本工作的主要贡献如下：

作者提出一个开放式世界基准，用于同时评估目标检测器的域泛化能力和开放式词汇能力。据作者所知，这是第一个针对3D开放式世界目标检测的真正现实场景自动驾驶基准。
作者设计了一个结合MLLM的标注流水线，用于自动识别特殊情况场景并为异常物体提供语义标注。
作者提出了一种基于2D开放世界模型的3D开放世界感知 Baseline 方法。此外，作者还分析了开放世界和专用模型的优势和劣势，并进一步引入了一种融合方法，以充分利用两者的优势。

2 Related Work

Benchmark for Open-world Object Detection

2D 基准。多种数据集被用于 2D 开放词汇目标检测评估。最常用的是 LVIS 数据集 [24]，包含 1,203 个类别。

在自动驾驶领域，如表1所示，许多数据集也被提出。其中，CODA [34] 是一个用于2D目标检测的自动驾驶道路拐角案例数据集，包含1,500个包含边界框标注的2D场景，共34个类别。然而，一些数据集只提供语义分割标注，没有具体实例或将物体标注为异常，缺乏语义标签。此外，从实际驾驶数据收集的数据集规模较小，而来自模拟平台如CARLA [18]的合成数据缺乏现实感，难以进行有效评估。相比之下，作者的OpenAD提供来自实际数据的大规模2D和3D边界框标注，以进行更全面的开放世界目标检测评估。

3D 基准测试可以分为两类：室内和室外场景。

对于室内场景，SUN-RGBD [54] 和 ScanNet [17] 是两个常用于开放世界评估的现实世界数据集，分别包含约700和21个类别。对于室外或自动驾驶场景，AnoVox [6] 是一个合成数据集，用于开放世界评估，包含35个类别的实例 Mask 。然而，由于模拟资产有限，合成数据的质量和实例多样性不如现实世界数据。除了 AnoVox 之外，现有的自动驾驶真实数据3D目标检测数据集 [9, 21, 46, 55, 58] 只包含几个物体类别，难以用于评估开放世界模型。为了解决这个问题，作者提出了 OpenAD，该数据集由现实世界数据构建而成，包含自动驾驶场景中出现的206个不同角落物体类别。

2D Open-world Object Detection Methods

为了处理跨分布（Out-of-Distribution，简称OOD）或异常检测，早期的方法通常采用决策边界，聚类等，以发现OOD目标。最近，方法采用文本编码器（例如CLIP[52]，下文简称文本编码器），将对应类别标签的特征与边界框特征对齐。具体而言，OVR-CNN[68]将图像特征与标题嵌入对齐。GLIP[35]将目标检测和短语定位统一用于预训练。OWL-ViT v2[47]使用预训练检测器在图像-文本对上生成伪标签，以扩充检测数据用于自训练。YOLO-World[15]采用YOLO型架构进行开放词汇检测，并实现了良好的效率。然而，这些方法在推理时都需要预定义的目标类别。

近年来，一些开放式方法[16, 40, 66]提出利用自然语言解码器提供语言描述，从而使它们可以直接从感兴趣区域（RoI）特征生成类别标签。更具体地说，GenerateU [16]引入了一个语言模型，可以直接从感兴趣区域生成类标签。DetClipv3 [66]引入了一个物体描述生成器，在推理过程中生成类标签和图像 Level 的描述，用于训练。VL-SAM [40]引入了一个无需训练的框架，使用注意力图作为 Prompt 。

3D Open-world Object Detection Methods

相比之下，3D开放世界目标检测任务更具挑战性，因为训练数据集有限且3D环境复杂。为了解决这个问题，大多数现有3D开放世界模型利用预训练的2D开放世界模型或利用丰富的2D训练数据集。

例如，一些室内3D开放世界检测方法，如OV-3DET [43]和INHA [30]，使用预训练的2D目标检测器来指导3D检测器寻找新目标。同样，Coda [10]利用3D框几何先验和2D语义开放词汇先验来生成新类别的伪3D框标签。FM-OV3D [69]利用稳定扩散来生成包含OOD目标的数据。对于室外方法，FnP [19]使用区域VLMs和贪婪 Box 寻求器在训练过程中为新类别生成标注。OV-Uni3DETR [57]利用其他2D数据集的图像和由开放词汇检测器生成的2D边界框或实例 Mask 。

然而，这些现有的3D开放词汇检测模型在推理时需要预定义的目标类别。为了解决这个问题，作者引入了一种以视觉为中心的开放式3D目标检测方法，该方法在推理过程中可以直接生成无限类别标签。

3 Properties of OpenAD

Scenes and Annotation

OpenAD中的2000个场景是从五个大规模自动驾驶感知数据集[58] Argoverse 2[21]、KITTI[9]、nuScenes[46]、ONCE[55]和Waymo[55]中精心挑选的。这些场景来自不同的国家和地区，具有不同的传感器配置。每个场景都包含时间相机和激光雷达输入，并且至少有一个原始数据集未标注的角点案例物体。如图2所示。

对于3D边界框标签，作者在这些2000个场景中标注了6,597个角案例物体，并结合原始数据集中的13,164个普通物体的标注，总共产生了19,761个物体。所有物体的位置和大小都使用3D和2D边界框手动标注，而它们的语义类别则使用自然语言标签表示，可以分为206类。图1中展示了部分角案例物体。OpenAD涵盖了常见物体的异常形式，如挂在汽车后部的自行车，门开启的汽车，带有雨罩的摩托车，以及地面上的敞口井盖，还包括不常见的物体，如敞开的井盖，水泥块，以及散落在地上的纠缠的电线。

同时，作者对每个目标都添加了“可见/不可见”的标签，表示目标的类别是否出现在每个数据集的训练集中。这个标签的目的是通过直接区分模型已遇到（可见）和未遇到（不可见）的目标，以便在指定训练数据集后简化评估过程。此外，作者还提供了一个工具包代码，将五个原始数据集的场景整合为一个统一的格式，转换为OpenAD数据，并简化了加载和可视化过程。

Evaluation Metrics

开源的AD（自注意力机制）提供了对2D和3D开放世界目标检测的评估。

平均精确度（AP）和平均召回率（AR）。计算AP和AR取决于真阳性（TP）。在OpenAD中，TP阈值融合了位置和语义得分。只有同时满足位置和语义阈值的物体预测才能被视为TP。对于2D目标检测，与COCO一致，采用交点与 Union（IoU）作为位置分数。作者使用CLIP模型的特征余弦相似度作为语义分数。在计算AP时，使用0.5到0.95的IoU阈值，步长为0.05，以及0.5、0.7和0.9的语义相似度阈值。

对于3D目标检测，作者采用中心距离作为位置得分，这与nuScenes的做法一致，并使用与2D检测任务相同的意义得分。类似于nuScenes，作者在计算AP时采用多阈值平均方法。具体来说，作者计算在12个阈值上的AP，将0.5m、1m、2m和4m的定位阈值与0.5、0.7和0.9的语义相似度阈值相结合，然后对这些AP值进行平均。

同样的原理也适用于计算2D和3D目标检测任务中的平均召回率（AR）。AP和AR仅针对前300个预测值进行计算。

平均翻译误差（ATE）和平均尺度误差（ASE）。遵循nuScenes，作者还将使用回归指标评估TP物体的预测质量。平均翻译误差（ATE）表示在2D中为像素测量，在3D中为米测量。平均尺度误差（ASE）在调整预测物体的中心和方向以及真实物体的中心和方向后，计算为。

内/外域 & 可见/未见 AR。 为了分别评估模型的域泛化能力和开放词汇能力，作者根据场景是否在训练域内以及训练期间是否见过物体语义来计算 AR。该指标的阈值如上所述，而语义相似度的阈值固定为0.9。

4 Construction of OpenAD

OpenAD 受到 CODA [34] 数据集的启发，该数据集专注于自动驾驶中的二维角点案例。然而，像电缆或靠近道路表面的钉子，以及挂在天花板上的标识牌等物体，无法仅通过 LiDAR 进行检测。因此，与 CODA 的基于 LiDAR 的流水线不同，作者提出了一种以视觉为中心的半自动化标注流水线，如图3 所示。

作者使用MLLM异常滤波器在五个自动驾驶数据集的验证和测试集内识别包含特殊情况的场景，然后进行手动过滤。接下来，作者对特殊案例物体进行了2D边界框标注。

对于由点云形成的相对完整的3D几何目标，作者采用类似于CODA的方法，利用点云聚类算法[7]。然后，作者使用相机参数将2D边界框投影到点云空间中，并识别相应的聚类。最后，边界框手动进行更正。对于那些通过点云聚类难以检测的目标，作者通过参考多视图图像手动标注3D边界框。

对于类别标签，作者将具有2D边界框的图像发送到MLLM进行语义标注，并针对每个目标表示其类别是否出现在每个数据集中。为了选择最佳MLLM和 Prompt 进行目标识别，作者手动选择了30个具有标注的图像样本，并评估了每个MLLM和 Prompt 的准确性。作者使用了GPT-4V [48]，Claude 3 Opus [2]，和InternVL 1.5 [14]，其中InternVL的表现最好。作者的实验还表明，封闭的图像 Prompt （如2D边界框或圆圈）产生最佳结果，而用箭头 Token 图像中的问题目标则产生稍逊一筹的结果。最终的MLLM和 Prompt 在30个具有挑战性的样本上的准确率约为65%，在所有数据上的准确率约为90%。对于现有的MLLM，像敞开的窨井和落在路上的电线等目标识别起来较为困难。

请注意，尽管作者尽可能利用如MLLM等工具自动化了尽可能多的步骤以减轻手工工作量，但作者仍在每个步骤中融入了手动验证，以确保标注的准确性。

5 Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detection

由于现有3D感知数据的规模有限，直接训练基于视觉的3D开放世界感知模型具有挑战性。为了解决这个问题，作者利用具有强大泛化能力的现有2D模型，并提出了一种以视觉为中心的3D开放世界感知 Baseline 。

如图4所示，首先采用任意现有的2D开放世界目标检测方法获取2D边界框及其对应的语义标签。同时，2D模型的图像编码器生成的图像特征图被缓存。随后，引入一个2D-to-3D Bbox Converter，它结合多个特征和一些可训练参数，将2D框转换为3D框。

具体来说，作者使用现有的深度估计模型，如ZoeDepth [4]，DepthAnything [65]，和UniDepth [49]，通过2D框获取裁剪图像的深度图。作者还包括一个可选分支，该分支利用激光点云和线性拟合函数将点云投影到图像上，从而通过插值精炼深度图。同时，为了消除2D边界框内不属于前景物体的区域，作者利用Segment Anything Model [33]（SAM）以2D框为 Prompt ，对物体进行分割，生成分割 Mask 。然后，作者可以构建伪点云，其像素坐标、深度图和相机参数已知。作者将伪点云投影到特征图和深度图上，并通过插值为每个点分配特征。接下来，作者采用PointNet [51]提取伪点云的特征。同时，将2D边界框内的深度图和特征图在通道维度上拼接，并通过卷积和全局池化计算其特征。最后，作者利用MLP预测物体的3D边界框，将和的拼接特征作为输入。

在这个基准中，只有2D-to-3D Bbox Converter中的少数参数可以进行训练。因此，训练成本较低。此外，在训练过程中，每个3D目标都作为这个基准的数据点，允许直接构建多域数据集进行训练。

General and Specialized Models Fusion

在实验中，作者发现现有的一些开放世界方法或通用模型在处理属于常见类别的事物时，表现不如闭合集合方法或专业模型，但它们具有更强的域泛化能力和处理特殊情况的能力。也就是说，现有的一般和专用模型可以相互补充。因此，作者利用它们的优势，提出了一种融合 Baseline ，通过结合两种类型模型的预测结果。具体而言，作者将两种类型模型的置信分数对齐，并使用双重阈值（即IoU和语义相似度）进行非极大值抑制（NMS）以过滤重复项。

6 Experiments

Evaluation Details

对于只能预测常见类别的专业模型，作者直接将它们的预测结果与相应类别进行匹配，并根据它们的置信度分数进行排序。

对于2D开放词汇方法，它们需要用户提供的预定义目标类别列表作为额外输入以检测相应的目标。作者将五个数据集的类别进行并集，并将其中的两个开放词汇 Query （即“影响交通的物体”和“其他”）合并到其中。作者分别采用OWLv2-CLIP-L/14-ST+FT、YOLO-Worldv2-XL、GLIP-L和GroundingDINO-B为OWL-ViT v2 [47]，YOLO-World v2 [15]，GLIP [35]和GroundingDino [42]。

2D 开放式的方法可以直接提供边界框和相应的自然语言描述，使得对于 OpenAD 的评估可以直接进行。作者采用了 GenerateU [16] 的 "vggrit5m" 版本。

对于3D开放词汇方法，原版Find n'Propagate [19]使用在完整nuScenes数据集上训练的2D检测器来提供伪标签。为了进行公平比较，作者使用YOLO-world v2来提供伪标签。

对于作者提出的3D开放式 Baseline ，作者使用了2D-to-3D Bbox Converter在nuScenes上进行训练。作者使用GenerateU [16]和YOLO-World [15]作为2D检测器，Depth Anything [65]作为深度估计模型，以及SAM [33]作为分割模型。所有这些2D模型均未进行任何微调并保持冻结状态。

Main Results

表格2和3中展示了作者针对各种2D和3D目标检测模型进行评估，包括2D和3D开放世界模型、专业模型以及作者的 Baseline 。

结果显示，无论当前的开源世界模型是2D还是3D检测器，它们倾向于预测与驾驶无关的目标（如天空）或者对同一物体的不同部分重复进行预测，导致低精度和AP。然而，这些模型展示了良好的域泛化能力和开放式词汇能力，这在当前的专业模型中是缺乏的。请注意，作者提出的集成 Baseline 可以有效地结合开源世界和专业知识模型的优势，在见过的和未见过的域和类别中都实现良好的性能。此外，在表3中，作者提出的3D开源世界目标检测的视觉中心 Baseline 利用了2D开源世界模型的能力。具体来说，通过利用Yolo-world v2的开放式世界能力，作者的方法与Find n' Propagate相比，获得了0.58的AP和6.2的AR改进。

此外，作者在 NuScenes 等数据集上的 3D 目标检测模型中发现，过拟合问题更为突出。一些模型在领域内基准测试上表现出色，但在跨领域泛化能力上表现较差。例如，SparseBEV 相比基于 Lift-Splat-Shot 的方法，在领域内结果上取得了令人印象深刻的效果，其领域内 AR 甚至超过了 LiDAR 方法。然而，SparseBEV 的跨领域泛化能力相对较差。通过增加参数数量（通过扩展 Backbone 网络，包括 BEVStereo 和 SparseBEV）的模型（包括 BEVFormer v2 或 HENet 同时提高领域内和跨领域召回率，表明方法固有的改进。因此，即使对于在单一领域训练的专用模型，在 OpenAD 基准测试上进行评估仍然有意义。

此外，如图5所示，作者为一些方法提供了可视化样本。橙色边界框包围的物体属于nuScenes中的未见类别。这些物体的识别依赖于开放世界模型。相比之下，专门针对常见物体，特别是远距离物体的模型具有显著优势。

Ablations of Proposed Baselines

作者对提出的 Baseline 进行了消融研究，结果如表4所示。作者发现，额外的伪点云输入可以带来9.9 mAR。此外，用不可学习的PCA方法替换MLP，性能会急剧下降，从45.1 mAR降至27.3 mAR。这些结果表明，简单的MLP可以从数据集中学习物体的边界，并预测更准确的3D Box 。

7 Conclusion

在本文中，作者介绍了OpenAD，这是第一个针对3D目标检测的开放世界自动驾驶基准测试。OpenAD是基于一个结合多模态大型语言模型的角点案例发现和标注 Pipeline 构建的。该 Pipeline 将五个自动驾驶感知数据集按格式对齐，并为2000个场景标注角点案例物体。

此外，作者制定了评估方法论，并分析了现有开放世界感知模型和自动驾驶专用模型的优缺点。为解决训练3D开放世界模型的挑战，作者提出了一种基于将2D开放世界模型相结合的3D开放世界感知 Baseline 方法。

此外，作者还引入了一种融合 Baseline 方法，以利用开放世界模型和专用模型的优势。

通过在OpenAD上的评估，作者观察到现有的开放世界模型在域内环境中仍然不如专业模型，但它们在域泛化和开放词汇能力方面表现更强。值得注意的是，某些模型在域内基准测试上的改进是以牺牲其开放世界能力为代价的，而其他模型则不是这样。这种区别不能仅仅通过在域内基准测试上进行测试来揭示。

参考文献

[0]. OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection.

知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！