学界前沿 | 无需人工标注的 3D 目标检测:基于视觉语言引导的无监督学习方法

文摘   2024-10-11 12:00   北京  


准确的三维目标检测对于自动驾驶系统至关重要。为了实现最先进的表现,检测器的监督训练需要大量的人工标注数据,但获取这些数据代价高昂且受限于预定义的物体类别。

为了减轻手动标注的劳动,一些 recent 无监督目标检测方法为移动目标生成无监督的伪标签,随后利用这些伪标签来帮助检测器进行增强。尽管这些方法取得了出色的结果,但这些方法没有提供分类标签,并且对静态目标适用性不强。此外,这些方法大部分受到与同一场景的多个行驶轨迹或来自精确校准和同步的摄像头设置的图像的约束。

为了克服这些限制,作者提出了一种名为 Vision-Language Guided Unsupervised 3D Detection 的视觉语言引导的无监督 3D 检测方法,它完全基于激光雷达点云运行。

作者将 CLIP 知识转移到分类静止和移动目标的点簇,作者通过利用激光雷达点云的内置时空信息进行聚类、跟踪,以及边界框和标签的细化来发现这些点簇。

作者的方法在 Waymo Open Dataset ( AP) 和 Argoverse 2 ( AP) 上击败了当前最先进的无监督 3D 目标检测器,并且提供的分类标签不仅仅依赖于物体大小的假设,这标志着该领域的重大进步。

代码将在 https://github.com/chreisinger/ViLGOD 可用。

Introduction

为了安全和有效率的路径规划,自主车辆依赖于3D目标检测,即它们必须准确识别周围交通环境中的目标(例如车辆、骑自行车的人、步行的人)的地点、尺寸和类型。最近的一些3D目标检测器在LiDAR点云上运行,需要通过大量手动标注的数据进行监督训练,这在获得足够质量水平的数据方面既耗时又昂贵。此外,尽管其性能令人印象深刻,但全监督的3D检测器缺乏应对不断变化的目标数据的灵活性,例如由不同的传感器设置。

然而,LiDAR测量的特征为将点集群投影到2D视觉语言模型中带来两个独特挑战(参见图1),这现有方法无法应对,这些方法只能处理CAD点云[42,43]:

  1. LiDAR扫描是2.5D的,即只有传感器可见到的表面被测量。这种不完整的重建限制了视点种类的多样性,而[42,43]需要完全利用2D视觉嵌入来充分利用。

  2. LiDAR扫描在与传感器距离变大时变得越来越稀疏,识别投影目标变得越来越困难。为了解决这些问题,作者利用LiDAR记录的连续性。作者设计了一个简单但有效的跟踪和传播模块,该模块可以生成相同目标的不同的时间视图。这个模块一方面可以增强目标的分类强度,另一方面可以传播类别。这使得作者可以在 tracks 内创建边界框并进行传播。

作者的贡献有四个方面:

(1) ViLGOD是第一个无监督但分类意识的三维目标检测方法,用于户外LiDAR点云,它不仅提供基于目标大小启发式的分类标签;

(2) ViLGOD运行在LiDAR点云的单一模态上,不需要在整个场景中进行多次驱动,也不需要额外的摄像头图像;

(3) 除了运动物体,ViLGOD还通过CLIP分类定位静态物体,从而在没有重复自训练周期的需要的情况下提供有价值的伪标签;

(4) 最后,作者在Waymo Open Dataset和Argoverse 2上进行了详细的评估,结果表明,即使在无类别设置中,ViLGOD也超过了当前最先进的无监督3D目标检测器。

2 Related Work

全监督基于LiDAR的3D目标检测。当前最先进的3D目标检测网络通常依赖于监督学习方法和对大量人工标注数据的广泛应用[44,45,46]来实现最佳性能。这些方法在处理稀疏且无序的LiDAR点云输入时,可以大致分为网格基、点基[44,45,46,47]和混合方法。

标签高效的3D目标检测。弱监督方法从辅助信息辅助的有限标注数据中学习,通常通过图像 Level 的标签、粗糙的目标位置或场景 Level 标注(而不是3D边界框)[44,45,46,47,48,49]进行间接监督。另一方面,半监督方法利用少量标记数据结合大量 未标注 数据[44,45,46,47,48]。最后,无监督方法直接从原始无标记数据中学习,利用数据固有的结构和分布以及几何属性。这些方法经常采用聚类技术[44,45],对比学习[44,45,46,47]或遮挡[44,45,46,47]来从数据中衍生出有意义的表示。

无监督3D目标检测。LiDAR数据中的早期3D目标检测方法[44,45,46]引入了通用 Pipeline  - 地面去除,聚类,边界框拟合和跟踪 - 它是所有最近无监督方法的初始检测基础[D

为了实现空间相关目标的 无监督聚类,作者首先从每个激光雷达扫描中删除地面点。具体而言,作者使用Patchwork++进行地面分割 。

作者将第i个边界框表示为,其中为中心坐标,为长度、宽度和高度,以及方向。Temporal coherence。为了区分_运动_和_静止_物体,作者在LiDAR序列中进一步利用时间一致性。首先,在每个分割内收集点级的运动信息,以确定相应边界框的运动状态。具体来说,如果内的点数量的百分位数%满足PP分数高于阈值,作者考虑为静止的,否则为运动的。其次,作者在LiDAR序列中针对所有边界框采用贪心分配进行多目标跟踪。因此,当一个跟踪在经过一段时间后没有被任何新来的边界框匹配时,该跟踪被终止,每个未分配的边界框开始一个新的跟踪。作者确定一个跟踪及其边界框为_静止_,满足以下两个条件:

  1. 其所有边界框与跟踪的最大边界框重叠, 2) 按照PP分数,没有一个边界框被认为_运动_。这种区分为作者提供了一组移动和静止的物体,作者在下一节中为它们分配类标签。

Vision-Language Guided Object Classification

CLIP初步.CLIP [] 是一个大规模的视觉语言模型,通过对比学习在400M的网页图像-文本对上进行大规模预训练,匹配网页图像和其语言描述。CLIP 具有双编码器架构,包括视觉编码器 和文本编码器 。给定输入 Query 图像 和一组类别文本提示 ,作者将归一化后的视觉和文本特征表示为 。零样本图像分类通过选择与视觉表示最大相似性的类别提示实现,即

为3D recognition转移CLIP知识。像CLIP这样的视觉语言基础模型不能直接应用于3D激光雷达点云上的识别任务。因此,作者将每个边界框内的零中心3D点映射到自然外观的2D深度图,以减少无序稀疏点云和基于网格的密集图像像素之间的模式差距。具体来说,作者遵循为密集CAD点云提出的形状映射方法,包括 Voxel 化、密集化和平滑,将3D目标实例映射到真实的深度图。为了保留3D信息,作者在对每个边界框内的点进行旋转和倾斜后,从多个视角生成深度图。图1中说明了项目化深度图的示例。作者命名为视角数量为 ,由第个边界框中的点生成的 个深度图作为 。对于类别文本提示 ,作者使用一个3D特定的提示模板,即 的3D点表示。然后,第个物体实例的第个视角的类别标签为

文本类别精炼。为了使用 CLIP 实现改进的零样本分类,作者精炼了原始的类别名称。特别是,作者将粗糙的类别名称 vehicle 替换为一系列细化的类,例如 car_、_truck_、_bus 和 _van_。同样,作者将抽象类别 background 替换为常见非参与者物体(如 traffic light_、_traffic sign_、_fencepole 等)的实例。最后,作者添加相关同义词,例如 _pedestrian_替代 _human body_。详细的文本精炼策略在附录中详细说明。在执行扩展的新类别空间的零样本分类之后,作者将预测结果合并到原类别空间中的较少的粗糙类别上。

多视图标签投票。为了提高预测准确性,文献[]提出将 CAD 点云上所有视图的加权类预测聚合。然而,由于传感特性不同,CLIP 预测 LiDAR  Baseline 投影的结果因视角而异。为了减轻这种影响,作者在物体 i 的 K 个视图中最经常预测的类别标签 中进行投票,并设置 为具有相同类别标签的 个视图的平均预测评分,即 ,其中 。如果投票数相等,作者分配具有最大均值分数的类别标签。

时间一致性标签精炼。对于无监督的 LiDAR 区域分割,由于聚类误差、远程物体的稀疏性和 2.5D 扫描的不完全目标,射线云图的质量受到损害,如图2的右上角所示。这导致错误的识别结果,尤其是在远程或不完全目标上。为了弥补这一不足,作者利用第3.1节的多目标跟踪结果,并针对移动和静态目标的运动轨迹传播类别标签和细化的边界框估计。对于每个运动轨迹,如果与轨迹的时间顺序可靠,作者将传播该轨迹上最可靠的 CLIP 类。作者观察到 CLIP 预测分

不仅正确分类物体很重要,而且其大小和位置也很重要。为了可靠地估计被遮挡或观察不完整的物体的边界框,作者应用了时间细化:作者首先计算包含跟踪中最多个聚类点的 个框候选物的中位数框。对于 静态 物体跟踪,作者将这个框估计沿着中位数位置传播,并从 个框中得到取向作为多数投票。对于 移动 物体跟踪,作者遵循 OYSTER [],沿着跟踪方向传播框,并将框与中心对齐,而与机动车辆最近的角落对齐。

Self-training

作者提供的无监督检测方法为作者任何任意3D目标检测架构的无监督训练提供了高质量的伪标签。作者通过利用无监督检测结果在无花哨的情况下将其作为有监督学习设置中的伪地面真相来实现这一点。特别地,作者在有监督和类感知的方式下使用作者的伪标签来训练Centerpoint。作者既不进行多次训练和精炼(即分配 GT 标签),也不使用多个迭代。最后,作者对作者的ViLGOD的单独组件进行了详细的消融分析。

数据集。作者在具有挑战性的Waymo Open Dataset(WOD)[[]和[ Argoverse 2 [].WOD包含1000个公开可用序列,每个序列约包含200帧。它分为798个训练和202个验证序列。作者遵循[[]的评估协议,评估位于自车的100m×40m区域,并报告在3D和BEV中的平均精确度(AP)和交集与并集(IoU)阈值0.4]]。根据[[],]遵循],对于移动速度超过1m/s的物体,作者将其视为_移动_。完整的评估和额外的APH(平均精确度和航向)分数包含在补充材料中。Argoverse 2包含700个训练和150个验证序列,每个序列约为150帧。作者遵循[[]的评估协议并评估位于自车的100m×100m区域,并报告在BEV中的AP和IoU阈值0.3。为了便于比较,作者将具有移动能力的物体合并为单一类_可移动_.在WOD中,这影响了所有相关的物体类别;在Argoverse 2中,作者排除了例如_Barrier_,_Traffic cone_,但作者还包括了_bicycle_,因为该物体在没有骑手的情况下是无法移动的(单独的_cyclist_类别)。

实现细节。作者在[OpenPCDet []](v0.6.0)的顶部构建了作者的检测 Pipeline ,并使用提供的基模型进行了所有实验。在本次实验中,作者使用Centerpoint []进行有监督伪标签训练。对于这些实验,作者遵循OpenPCDet的标准协议,并使用Adam []在One-cycle策略[[]中optimize [],最大学习率为0.003的One-cycle政策[ []进行优化。然而,作者只在训练数据中训练了50%的天轮,并且没有从伪标签数据库中采样。作者在4个NVIDIA(r)RTX(tm)A6000 GPU上进行了所有实验。补充材料中可以找到更多关于实现细节和参数的详细信息。

忽视类的结果。在WOD验证集上的无监督3D目标检测结果如表1所示。所有无监督方法之间的直接比较显示了它们的目标发现能力:作者的视觉语言指导使作者能够通过单次迭代将运动和静态目标定位到位,而无需任何再训练周期。通过利用时间连贯性,作者还可以获得准确的3D边界框估计,如图所示AP BEV到AP 3D之间的较小差距。因此,作者的ViLGOD在获取可用于训练检测器的目标候选方面表现出色。为了证明这一点,作者使用这些目标 Proposal 从头训练了一个Centerpoint [E]检测器(记为ViLGOD-CP)。表1中的自训练结果显示,作者的目标 Proposal 导致了显著提高的检测性能,尽管仅对Centerpoint进行了10次迭代训练(没有从伪标签数据库中扩充样本)。

注意类的结果。表2显示了作者与已分配地验(GT)标签的现有类无关的无监督检测方法进行零样本检测的结果。一致性高的AP 3D评分表明作者的ViLGOD提供了准确的目标 Proposal ,非常适合训练检测器。特别地,作者的ViLGOD使首次能够在有效的方式下:无需任何手动人类干预且无需耗时重复的自训练周期来训练具有注意力的检测器。值得一提的是,作者的方法在检测易受道路使用者(如行人和骑自行车者)方面取得了显著的改进。

Ablation Study。作者进行了一次详细的Ablation Study来显示作者的方法的每个步骤的贡献。表3列出了作者在WOD验证集上进行的零样本检测结果(伪标签)。除了无监督检测结果外,作者还提供了类知觉的结果,因为作者的方法可以直接为零图片提供类标签预测,从而允许进行更好的分析。

Conclusion

作者提出了ViLGOD,这是首个完全无监督的、但却具有类别意识的3D目标检测方法,适用于激光雷达数据。作者将视觉语言模型的强大表示能力与静态和运动目标的 无监督目标发现相结合,这样就可以实现零样本检测。这些伪标签在激光雷达序列中传播后可以形成可靠的结果。这些伪标签可以直接用于有监督地训练3D目标检测器,无需进行多次自训练迭代。作者的评估结果表明,这种完全无监督的数据探索策略具有显著降低获取训练当前最先进检测器所需的手动标注成本的潜力。

参考

[1].Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection.


数据空间技术与系统
数据空间技术与系统全国重点实验室面向国家数据空间建设的中长期战略需求和重大任务,开展数联网基础软件与数据空间操作系统的技术体系、标准规范、核心系统、试验环境、应用示范与开源生态等重点任务研究。
 最新文章