自动驾驶之星
点击上方蓝字关注 自动驾驶之星
3D多目标跟踪在自动驾驶中起着关键作用,因为它可以实时监测和预测多个物体的运动。
传统的3D跟踪系统通常受限于预定义的物体类别,限制了它们在动态环境中适应新见、未见物体的能力。
为了解决这个问题,作者引入了开放词汇3D跟踪,将3D跟踪的范围扩展到包括预定义类别之外的物体。作者提出了开放词汇3D跟踪的问题,并引入了能够代表各种开放词汇场景的数据集划分。
作者提出了一种新颖的方法,将开放词汇能力集成到3D跟踪框架中,允许对未见物体类进行泛化。通过战略适应,作者的方法有效地减少了跟踪已知和未知物体之间的性能差距。
实验结果表明,作者的方法在各种户外驾驶场景中的鲁棒性和适应性。据作者所知,这是第一次解决开放词汇3D跟踪问题,为在实际设置中的自主系统带来了显著的进步。
代码、训练模型和数据集划分可在 https://github.com/ayesha-ishaq/Open3DTrack中找到。
I Introduction
3D多目标跟踪涉及在连续帧中检测和持续跟踪物理空间中的多个目标。在自动驾驶中,这项任务至关重要,因为它使车辆能够监控和预测其环境中的多个目标的移动。系统可以通过准确识别、定位和跟踪目标来在时间上做出知情决策,从而实现安全导航、避免碰撞和轨迹规划。这种能力对于自动驾驶系统的实时响应能力和整体可靠性至关重要。
当前的3D跟踪系统是基于带有标签的数据集的基准,推动了发展出能够在预定义类别(如汽车、行人和自行车)上表现卓越的跟踪方法。这些跟踪系统通过在帧之间检测和关联已知物体,在封闭的类别集中最大化性能。然而,这些系统受到其依赖封闭类别集的限制,使其在动态现实世界环境中对新或意外物体适应性较差。尽管在定义的基准测试中有效,但当遇到未知物体时,其性能会降低。
为克服这些限制,需要开放词汇系统来检测和识别超出预定义类别的物体。在3D跟踪中,开放词汇能力对于在动态环境中增强适应性和鲁棒性至关重要,因为车辆可能会遇到训练数据未覆盖的意外或罕见物体。通过结合开放词汇方法,3D跟踪系统可以更好地泛化到新物体,确保在多样化的实际场景中实现更安全、更可靠的自主导航。
在本文中,作者提出了一个开放词汇3D跟踪任务,通过在连续帧之间链接已知和未知物体类别的位置来估计实际3D空间中的轨迹。作者构建了开放词汇跟踪问题,提出了各种分割来评估已知和未知类别的性能,并引入了一种新颖的方法,该方法可以在跟踪已知和未见类别之间弥合性能差距。
作者的方法利用了2D开放词汇方法的优势和现有3D跟踪框架,以有效地泛化到未见类别。通过大量实验,作者证明了作者的方法通过适应策略取得了强大的结果,为开放词汇3D跟踪提供了稳健的解决方案。图1显示了作者对开放词汇3D跟踪任务解决方案的示例输出。作者的方法可以在不依赖预定义标签的情况下,在三维空间中检测和跟踪以前未见过的物体类别。
作者的贡献可以概括如下:
作者提出了一个面向开放词汇的3D跟踪任务,可泛化至未见类别。
作者提出了一个新颖的开词汇跟踪问题表述和评估划分方法。
作者开发了一种有效弥合已知类和未知类跟踪性能差距的方法。
作者的广泛实验验证显示了所提适应性的高有效性。
II Related Work
作者的工作重点是3D跟踪和开放式词汇系统。本节回顾了这些领域的现有方法,重点介绍了关键技术和发展,以提供对当前方法论的理解。
3D Tracking
在3D目标跟踪中,已经探索了各种方法,每种方法都利用不同的特征和方法论。传统方法通常依赖于卡尔曼滤波器或其他概率模型,而最近的进展则转向基于深度学习的方法。跟踪-检测范式仍然主导,尤其是在3D多目标跟踪(MOT)。基于模型的技术,如AB3DMOT [7],将传统卡尔曼滤波器扩展到3D以进行运动估计,并将其与匈牙利算法相结合,提供了一个标准的3D MOT基准。
另一种方法,EagerMOT [8],将LiDAR和相机传感器的观测结合起来,增强了跟踪远处物体并实现精确轨迹定位的能力。Immortal Tracker [9]引入了一种使用卡尔曼滤波器进行轨迹预测的机制,以在目标暂时消失在视线之外时保持跟踪,从而显著减少身份切换。
CenterPoint [3]和CenterTrack [10]将速度估计与基于点的方法结合起来,跟踪多个帧中的目标的中心。Poly-MOT [1]引入了一种根据目标类别自适应跟踪标准的方法,使用特定类别的运动模型和两阶段数据关联策略。
在3DMOT-Former [2]中,作者引入了一个基于 Transformer 架构的3D多目标跟踪框架,使用边缘增强图 Transformer 通过边缘分类进行数据关联。虽然3D跟踪任务取得了巨大的进展,但所有这些方法都依赖于跟踪已知预定义的一组目标类别。
Open-Vocabulary 3D
开源词汇3D任务相对较新,正在计算机视觉领域出现,主要得益于在固定、预定义类别之外进行泛化的需求,特别是在动态和无结构环境中。2D开源词汇任务的最近进展激发了将这些概念扩展到3D领域,其中物体形状、遮挡和稀疏点云数据提出了独特的挑战。将开源词汇技术引入3D视觉任务标志着朝着更灵活、可扩展的模型转变,这些模型可以在不需要完全 Token 数据的情况下识别出物体,并可以识别出广泛类别中的物体。在较早的工作[15]中,作者将零样本学习(ZSL)和泛零样本学习(GZSL)应用于3D点云分类。
PointCLIP利用对比视觉-语言预训练(CLIP)模型,通过从2D图像到3D的知识传递,将CLIP编码的点云与3D类别文本对齐,实现开源词汇点云识别。对于3D开源词汇任务,使用从视觉语言模型获得的图像特征,并将其与点云特征对齐是常见的做法[17, 18]。
OpenScene在CLIP特征空间中通过使用2D语义分割模型的图像-每像素特征为3D点生成密集特征[19]。OpenMask3D引入了一种零样本方法,用于开源词汇3D实例分割,通过利用类无关的3D实例 Mask 和通过CLIP基础图像嵌入的多视角融合进行每个 Mask 特征的聚合。
除了分割,作者在[21]中提出了一种方法,将目标定位点云检测器与跨模态对比学习相结合,以连接图像、点云和文本表示,实现室内场景中的开源词汇3D检测。然而,开源词汇3D跟踪仍然是一个未探索的领域,这代表了利用这些新兴技术在物理空间中进行动态、实时目标跟踪的重大空白。
III Methodology
在本节中,作者首先提出了在开放词汇设置下的3D多目标跟踪问题。然后,作者描述了将现有跟踪器适配到无类别开放词汇跟踪器的作者的方法。最后,作者概述了用于评估的数据集划分。
Problem Formulation
给定 LiDAR 帧序列 , 其中 表示时间 的点云,目标 3D 目标跟踪是检测和跟踪多个目标 , 其中 表示帧 中的第 个目标。每个 包括目标类别 和 3D 边界框 ,其中 分别表示边界框中心的坐标, 分别表示边界框的宽、长和高, 是边界框的朝向角。
在一个无词汇限制的设置中,作者在 上训练跟踪器 和对应的基础语义类别 的标注 。在测试时间,作者的目标是找到属于 的 中的目标跟踪 ,以及给定的 。在这里,。在一个跟踪通过检测的框架中,训练和测试时间都只有 目标的类别标签和分数。作者的设置要求跟踪器 在训练时间内跟踪任意目标类别,其中 不出现。
Open-Vocabulary 3D Multi-Object Tracking
在本节中,作者提出了用于3D开放词汇跟踪的方法。如图2所示,作者提出的系统将3D Proposal 、2D图像线索和视觉语言模型集成在一起,用于在开放词汇设置中分类和跟踪物体,包括在训练过程中未遇到的类别。
3D Tracker:作者从最近的多目标3D跟踪器3DMOTFormer中调整作者的3D开放式词汇跟踪方法。[2] 3DMOTFormer是一个跟踪通过检测的框架,它利用图结构表示现有跟踪和新的检测之间的关系。位置、大小、速度、类标签和置信度等特征通过图 Transformer 进行处理,并基于交互进行更新。在解码器中,边增强的交叉注意力模型表示跟踪和检测之间的交互,其中边表示潜在的匹配。为了匹配跟踪和检测,作者预测亲和分数,表示对应的可能性。最后一步使用具有相同跟踪ID的正目标边计算损失。GT 跟踪ID由计算地面真框和3D检测之间的3D IoU,然后进行一次对一的匈牙利匹配进行一对一的ID分配。
尽管3DMOTFormer在闭合集上表现良好,但由于其在训练过程中依赖特定类别的信息,因此难以跟踪未见过的物体类别。跟踪器期望已识别的3D框生成边缘 proposals,并将其通过图 Transformer 进行处理。在可能接收到新标签或 未标注 的目标的情况下,模型将无法跟踪。3DMOTFormer在其 Pipeline 中还使用特定类别的统计信息,如最大类速度,来计算跟踪和新的检测之间的关联边。对于系统可能首次遇到的未见、不熟悉的目标,这些信息在实际开放词汇环境中是不可用的。
无类别跟踪:为了实现对物体的无类别跟踪,作者修改跟踪器,仅利用物体的位置、尺寸、航向角和速度作为初始特征。给定检测器的目标检测被视为 Proposal (无类别),其中类别标签和置信度分数被丢弃且未使用。
为了计算潜在的关联边,作者用一个固定的阈值替换了类特定的距离阈值,实现了在保持真实边的同时避免不必要的关联。
作者通过计算 GT 框 和属于 的 3D 检测之间的 3D IoU 来更改 GT 轨道 ID 分配。这种方法在类别无关的情况下进行计算。
预测置信得分: 正如之前讨论的,作者从检测特征中删除类别标签和置信分数,以确保跟踪器与任何特定于目标类别的信息无关。因此,系统的初始输出缺乏每个框的物体性分数表示。为了克服这个问题,作者使用中可用的置信分数,并在跟踪器末端训练一个回归头。回归头由一个输入处理检测特征的 feed-forward 网络组成,预测单个置信分数。作者使用预测和真实置信分数之间的直接均方误差损失来学习检测框的分数。组合损失为,其中是置信分数的损失,由进行加权。
2D驱动的开放式词汇标签: 在作者通过消除所有特定类别依赖来训练跟踪器时,作者要求在测试时对所有目标跟踪(已知和未知)进行强大的开放式词汇分类。作者利用视觉语言模型将图像中的区域与文本 Prompt 进行匹配,使其能够检测和分类作者未明确训练的目标。从车辆的多视角图像中获得的2D检测是通过一个开放式词汇2D检测器获得的,该检测器被 Prompt 所有可能的标签——包括和。系统通过将3D框投影到多视角图像上来为3D建议分配类标签。然后,从图像平面上2D检测的最高IoU与2D检测的交集衍生出这些标签。对于与2D开放式词汇检测不重叠的3D检测的投影,作者将其 Token 为'unknown'。作者在跟踪过程的最后阶段明确识别这些 Box 。
轨道一致性评分:在跟踪器输出端,作者应用一个轨道平滑模块,以解决图像中未匹配任何2D检测的未知框的问题,同时改善跟踪中的标签一致性,以考虑开放词汇检测器输出和从3D到2D转换过程中所产生的误差。为了计算每个跟踪的最准确类别,作者首先根据图像中检测到的边界框计算物体的权重,距离较大的物体分配较小权重。深度来自边界框的大小,图像中物体的垂直位置用于视差校正,以及边界框的宽高比以确保所有类别的均匀性。
在此, 表示 2D 检测到的边界框, 表示图像, 表示边界框的垂直中心, 是视角校正因子,而 是长宽比阈值。
作者然后计算权重。
λs 是深度缩放因子。每个框的预测置信度与 wdist 相乘,从而在图像中更接近的框具有更高的置信度。平滑模块使用修改后的置信度,并找到每个跟踪器类中的平均修改置信度,以及它们的频率,选择具有最高组合的类。任何完全由未知值组成的跟踪器将被删除。
Open-Vocabulary Tracking Splits
作者的方法在户外的环境中进行评估,使用基于常见物体类型和情况的自定义数据划分。图3展示了nuScenes [22]和后续划分中的各种统计数据。一个划分遵循常见的无词汇方法,将罕见的类别视为新类。另一个划分则根据城市区域内某些类别的更大活跃度和移动性,将高速公路和城市物体区分开来。最后一个划分关注形状和大小变化较大的物体,以每个物体的平均LiDAR点表示。这些划分为在真实和多样化的户外环境中评估无词汇跟踪提供了稳健的框架。
IV Experiments
Datasets
作者使用nuScenes [22]数据集来训练和评估作者的开源词汇跟踪系统。nuScenes数据是从多个传感器收集的,如360度摄像头、32束激光雷达以及 annotated at 2Hz的RADAR。它包括1000个场景,每个场景持续20秒,分为700个用于训练、150个用于验证和150个用于测试。它为跟踪任务提供了七个独特的类别。
评价指标:作者使用nuScenes[22]跟踪基准测试,以AMOTA和AMOTP为主要指标[23]。AMOTA在考虑召回 Level (false positives, missed targets, identity switches)的基础上,对所有召回水平下的MOTA进行平均,其影响在召回水平低于10%时较小。AMOTP衡量预测框和标注框之间的平均偏移误差,反映所有帧的定位准确性。
Implementation Details
作者遵循3DMOTFormer的默认设置,使用AdamW优化器,批量大小为8,学习率为0.001,权重衰减为0.01。回归损失权重λc设置为0.5。在关联图中,边截断的距离阈值为3米。
对于开放词汇2D检测,作者使用YOLOv8L-Worldv2模型[24],置信度阈值为0.01。在Track Consistency Scoring模块中,视角校正αp为0.2,比例阈值βar为2.5,深度尺度λs为250。
Benchmark Results
表1展示了在nuScenes[22]验证集上使用CentrePoint[3]检测器的3D Proposal 的结果。作者将作者的无词汇方法与基准进行比较,参考了3DMOTFormer[3]的原始封闭集结果作为上限。基准方法是3DMOTFormer的简单适应,其中作者用2D无词汇检测获得的标签替换类别标签,并利用2D检测的置信度。基准无未知数的方法将任何未匹配到2D检测的3D Proposal 都丢弃了,而基准有未知数的方法与它们形成跟踪,并为它们分配在跟踪中最常见的类别的标签。对于第一个分割,作者展示了基准有无未匹配检测的结果。通过作者提出的适应,作者在第一个分割中实现了总体AMOTA为0.567,在基准上的新类别的性能显著提高。在最后两个分割中,作者相对于基准实现了类似的改进,总体AMOTA在第二分割中为0.59,在第三分割中为0.536。特别在第三分割中,作者注意到新类别卡车的性能较差;这是由于数据集中卡车型式、大小和外观的巨大变化,使得这个类别成为了一个相当困难的未知类别。作者在图4中展示了一些具有挑战性的新类别示例。
作者评估了作者的方法在不同检测器上的泛化能力,包括CenterPoint[3],MEGVII [25]和BEVFusion [26],如表2所示。作者的方法在各种3D Proposal 来源上都能实现一致的性能。表格的下半部分展示了在一种检测器的 Proposal 上进行训练,然后在另一种检测器上进行测试时的泛化结果。最好的结果来自标准检测器,可能是因为训练和测试边界框之间的对齐。有趣的是,尽管BEVFusion在基础类别性能上给出了最高的分数,但它在新的类别性能上却给出了最低的分数,这可能是因为它专注于高质量的基类检测,并且噪声较少,从而导致调节效果较低。
V Ablation
在本节中,作者详细阐述了所提出系统中各个组件的效果。所有实验均基于nuScenes验证集,使用CenterPoint检测,具体针对III-C部分中的分片2。表3展示了各个组件带来的改进。
Baseline : 正如第四部分C中详细说明的那样,作者的系统的 Baseline 很简单,就是使用从2D开放式词汇检测获得的标签,训练3DMOTFormer。所有其他特定的类别的详细信息都被移除。结果应用了一个简单的轨迹平滑方法。
无类别GT分配: 在作者的 Baseline 之上,作者使用仅3D IoU将3D提出物分配GT跟踪ID,不使用类别标签。在测试时间,这可以提高基本类别的结果,而对新类别略微降低。这种现象发生的原因是无类别GT分配相对于噪声的开放式词汇基类标签,可以提高目标准确性,从而在已知类别上进行更好的学习,同时减少正则化和在未知类别上的性能降低。然而,整体性能的改进是显著的。
预测置信度分数: 正如III-B部分所述,2D检测的置信度分数没有捕捉到3D提出的真正目标性分数,导致性能较低。此外,对于未匹配的 Proposal ,也没有估计置信度分数。为克服这些问题,作者添加了置信度预测头。作者发现这个模块在基础和新型类别中都取得了显著的改进,分别提高了8.2%P和7%P。跟踪一致性评分: 为了为未知检测分配标签,有必要进行简单的跟踪平滑,然而,作者发现通过正式化机制来评分已识别的检测并使用这些分数来获得跟踪标签的一致性,对于所有类别,性能得到了显著提高。添加这个模块后,总体AMOTA提高了2%P。
VI Conclusion
总之,作者提出了一种新颖的开词汇3D多目标跟踪方法,解决了封闭集合方法的局限性。
通过利用2D开词汇检测,并对3D跟踪框架进行策略性调整,如无类别跟踪和置信度分数预测,作者展示了在跟踪新物体类别方面的改进。实验强调了作者方法的鲁棒性。
这些贡献代表了向更灵活的3D跟踪解决方案迈出的重要一步,增强了自主系统在动态环境中的泛化能力。