摘要
引用式多目标跟踪(RMOT)是当前跟踪领域的一个重要课题。其任务形式是通过语言描述引导跟踪器跟踪与描述匹配的目标。目前的研究主要集中在单视角下的引用式多目标跟踪,即指通过一个视角序列或多个不相关的视角序列进行跟踪。然而,在单视角下,一些目标的外观容易被遮挡或消失,导致目标与语言描述的匹配错误。在这项工作中,我们提出了一种新任务,称为跨视角引用式多目标跟踪(CRMOT)。该方法引入了跨视角来从多个视角获取目标的外观,避免了RMOT任务中目标外观不可见的问题。CRMOT是一项更具挑战性的任务,要求准确跟踪与语言描述匹配的目标,并保持每个跨视角中的目标身份一致性。为了推进CRMOT任务,我们基于CAMPUS和DIVOTrack数据集构建了一个跨视角引用式多目标跟踪基准,命名为CRTrack。具体来说,它提供了13个不同场景和221个语言描述。此外,我们提出了一种端到端的跨视角引用式多目标跟踪方法,称为CRTracker。在CRTrack基准上的大量实验验证了我们方法的有效性。
代码地址:https://github.com/chen-si-jia/CRMOT
欢迎加入自动驾驶实战群
介绍
多目标跟踪(MOT)是计算机视觉中的一项具有挑战性的任务,广泛应用于自动驾驶(Li et al. 2024b)、视频监控(Yi et al. 2024)和智能交通(Bashar et al. 2022)等领域。现有的MOT方法已经在解决大多数视觉通用场景中展示了有效性。然而,在多模态上下文下,即视觉-语言场景中,传统的MOT方法面临着显著的挑战和局限性。为了解决这个问题,最近提出了引用式多目标跟踪(RMOT)任务。该任务的形式是通过语言描述引导跟踪器跟踪与描述匹配的目标。例如,如果输入的是“一个穿黑色大衣和蓝色裤子,背着蓝色包,手里拿着一本书的男人”,RMOT任务的网络将预测与该语言描述相对应的所有目标轨迹。目前的研究主要集中在单视角下的RMOT任务,即通过一个视角序列或多个不相关的视角序列进行跟踪。然而,在单视角下,某些目标的外观容易不可见,导致RMOT任务的网络错误地将目标与细粒度的语言描述匹配。
为了克服单视角的局限性,我们提出了一项新任务,称为跨视角引用式多目标跟踪(CRMOT)。它引入了跨视角,指的是具有大面积重叠区域的不同视角,从多个视角获取目标的外观,从而避免了RMOT任务中目标外观不可见的问题。CRMOT是一项更具挑战性的任务,要求准确跟踪与细粒度语言描述匹配的目标,并保持每个跨视角中的目标身份(ID)一致性。如图1所示,我们可以观察到,在RMOT任务的单视角下,当某些目标的外观不可见时,网络会做出错误判断。而在CRMOT任务的跨视角中,目标的外观可以被完全捕捉,从而使CRMOT任务的网络能够准确跟踪与细粒度语言描述匹配的目标,并能够识别哪些目标在每个跨视角中具有相同的身份(ID),即CRMOT任务的网络能够做出正确的判断。
为了推动跨视角引用式多目标跟踪(CRMOT)任务的研究,我们提出了一个基准,称为CRTrack。具体来说,CRTrack包括13个不同的场景、82K帧、344个目标和221个语言描述,详见表1。这些序列场景来自两个跨视角多目标数据集,DIVOTrack(Hao et al. 2024)和CAMPUS(Xu et al. 2016)。此外,我们提出了一种基于目标在整个序列中不变属性的新注释方法。这些属性包括头饰颜色、头饰样式、大衣颜色和样式、裤子颜色和样式、鞋子颜色和样式、持物颜色、持物样式和交通工具。然后,我们利用大型语言模型GPT-4o从注释的属性生成语言描述,并通过仔细的人工检查和修正,确保语言描述的准确性。最后,我们提出了一套专门为CRMOT任务设计的评估指标。
此外,为了进一步推进CRMOT任务的研究,我们提出了一种端到端的跨视角引用式多目标跟踪方法,称为CRTracker。具体来说,CRTracker结合了CrossMOT(Hao et al. 2024)在多目标跟踪中的精确能力和APTM(Yang et al. 2023)在多模态方面的强大能力。此外,在CRTracker网络中设计了一个预测模块。该预测模块的创新设计思想是使用网络的帧间关联结果作为检测结果,融合分数作为置信度,预测模块充当跟踪器的角色。
最后,我们在CRTrack基准的领域内和跨领域测试集上评估了我们提出的CRTracker方法及其他方法。评估结果表明,我们的方法达到了最先进的性能,并展示了显著的泛化能力。具体来说,与其他单视角方法中的最佳表现方法相比,我们的方法在领域内评估中,CVRIDF1和CVRMA分别提高了31.45%和25.83%;在跨领域评估中,CVRIDF1和CVRMA分别提高了8.74%和1.92%。
方法
为了推动跨视角引用式多目标跟踪(CRMOT)任务的研究,我们构建了一个跨视角引用式多目标跟踪基准,命名为CRTrack。以下是关于CRTrack基准的详细介绍。
数据集收集
跨视角引用式多目标跟踪数据集的两个主要特征是跨视角和引用。跨视角指的是不同摄像头视角之间的重叠区域,而引用则指的是语言描述。因此,我们基于跨视角多目标跟踪数据集DIVOTrack(Hao et al. 2024)和CAMPUS(Xu et al. 2016),在数据集中添加了语言描述,构建了跨视角引用式多目标跟踪基准,命名为CRTrack。
DIVOTrack数据集包含来自10个不同真实场景的数据,是当前最丰富的跨视角多目标跟踪数据集。所有序列都是使用三台移动摄像头拍摄并手动同步的。CAMPUS数据集包含3个不同场景,具有频繁的目标遮挡问题。所有序列均使用3或4台静态摄像头拍摄并手动同步。需要注意的是,我们仅使用了它们的训练数据,并统一了DIVOTrack和CAMPUS数据集的图像尺寸和注释格式。
数据集注释
我们将语言描述的内容划分为不同的属性。这些属性包括头饰颜色、头饰样式、大衣颜色和样式、裤子颜色和样式、鞋子颜色和样式、持物颜色、持物样式和交通工具。详细的属性可以在补充材料中找到。此前,RMOT任务基准Refer-KITTI(Wu et al. 2023)的一些语言描述仅注释了目标的某一片段序列,而不是从目标的出现到消失的整个序列。这种注释方法显然不适合跨视角引用式多目标跟踪这一新任务,因为引入跨视角后,能够从多个视角更加详细地观察整个序列,从出现到消失的过程。因此,我们提出了一种新的注释方法,旨在从目标在序列中的不变属性(如衣物、持物和交通工具等)角度进行注释。我们对每个场景中的目标进行了属性注释。在获得目标的注释属性后,我们使用大型语言模型GPT-4o(OpenAI 2024)根据目标的注释属性生成语言描述。GPT-4o生成的语言描述经过人工检查和修正。在大型语言模型的帮助下,语言描述的丰富性得到了极大的提升。最终,我们获得了344个标注的目标和221个语言描述。整个注释过程如图2所示。
数据集划分
对于带有语言描述的DIVOTrack数据集,我们根据场景的目标密度平均选择了三个场景作为领域内测试集,剩余的七个场景作为训练集。带有语言描述的CAMPUS数据集被用作跨领域测试集。简而言之,CRTrack基准被划分为训练集、领域内测试集和跨领域测试集。具体而言,训练集包含“Floor”、“Gate1”、“Ground”、“Moving”、“Park”、“Shop”和“Square”场景,领域内测试集包含“Circle”、“Gate2”和“Side”场景,跨领域测试集包含“Garden1”、“Garden2”和“ParkingLot”场景。
数据集统计
i) 词云:图3展示了我们构建的CRTrack基准的词云。我们可以观察到,CRTrack基准中包含大量描述衣物、持物和交通工具信息的词汇。词云的丰富多样展示了我们的基准的难度。
ii) 目标密度:目标密度表示每个场景中每帧每个视角的平均目标数量。CRTrack基准中每个场景的目标密度见表1。我们可以观察到,CRTrack基准中有不同目标密度的场景。
iii) 语言描述的平均帧数:表示与每个语言描述对应的目标出现的平均帧数。表1显示了每个场景的语言描述的平均帧数。CRTrack基准中“ParkingLot”场景的语言描述平均帧数达到了惊人的3419帧。极长的帧数为跨视角引用式多目标跟踪带来了巨大的时间维度挑战。
评估指标
跨视角跟踪器与单视角跟踪器不同。跨视角跟踪器在每个同步视频序列的批次中处理多个视角。相同的目标在不同视角中应具有相同的身份(ID)。标准的跨视角多目标跟踪评估指标包括跨视角IDF1(CVIDF1)和跨视角匹配准确率(CVMA)(Gan et al. 202)。其中,CVIDP和CVIDR分别表示跨视角目标匹配的精度和召回率。mt、fpt、mmet和gtt分别表示在所有视角中时间t的漏检、假阳性、错误匹配对数和目标总数。
需要注意的是,跨视角引用式多目标跟踪与跨视角多目标跟踪不同。当预测非引用但可见的目标时,它们在我们的评估中被视为假阳性。当与语言描述对应的跟踪效果不好时,会产生大量的假检测。这将使CVMA变成一个相对较大的负值,严重影响评估指标。为了防止负值的影响,我们将CVMA的值与0取最大值。
为了全面评估每个语言描述,我们提出了新的评估指标CVRIDF1和CVRMA,用于跨视角引用式多目标跟踪(CRMOT)任务,它们的取值范围是0到1。我们提出的评估指标CVIDF1和CVRMA的定义如下:CRMOT任务的挑战在于同时检测和跟踪与语言描述匹配的目标,并保持每个跨视角中目标的身份一致性。为了解决CRMOT任务的挑战,我们提出了一种端到端的跨视角引用式多目标跟踪方法,命名为CRTracker,作为强基准。
训练
APTM:APTM(Yang et al. 2023)是一个联合属性提示学习和文本匹配学习的框架,包括图像编码器、文本编码器和交叉编码器。具体来说,图像编码器使用Swin Transformer(Liu et al. 2021)输出图像特征,文本编码器使用BERT(Devlin et al. 2018)的前6层输出文本特征。交叉编码器采用BERT的最后6层,融合图像特征和文本特征,并通过交叉注意力机制捕捉语义关系。
训练流程:我们的训练框架的流程如图4所示。输入是来自多个跨视角的同步视频序列和语言描述。与CrossMOT(Hao et al. 2024)算法类似,我们的模型使用CenterNet(Zhou, Wang, and Krahenbühl 2019)作为骨干网络,后接四个头部,包括检测头、单视角Re-ID头、跨视角Re-ID头和完整Re-ID头。此外,还包括APTM图像编码器和APTM文本编码器。值得注意的是,对于单视角Re-ID,认为不同视角中的同一目标是不同的目标;对于跨视角Re-ID,认为不同视角中的同一目标是相同的目标;完整Re-ID头用于计算语言描述。
我们使用APTM的图像编码器对输入视频序列中的目标真实区域进行编码,得到特征FAi。然后,特征FAi与由完整Re-ID头输出的特征Ff融合,得到目标图像特征Fi。数学上,融合操作可以表示为:
检测头输出目标边界框。每个边界框与相应的单视角Re-ID特征、跨视角Re-ID特征和完整Re-ID特征匹配。在帧间关联步骤中,我们使用MvMHAT(Gan et al. 2021)在帧间和多个视角之间进行关联。接着,我们使用APTM图像编码器对目标边界框区域进行编码,得到编码特征FAi。编码特征FAi与完整Re-ID特征Ff融合,生成目标图像特征Fi。随后,APTM文本编码器用于编码输入的语言描述,得到文本特征FAt。从语言描述中提取属性提示并输入到APTM文本编码器,得到属性特征FAa。接下来,APTM交叉编码器用于处理属性特征FAa和图像特征Fi,得到属性分数Sa;APTM交叉编码器用于处理文本特征FAt和图像特征Fi,得到文本分数St。
实验
设置
为了评估,我们在我们构建的 CRTrack 基准上进行实验,并遵循其评估指标。我们的模型在单个 NVIDIA RTX 3090 GPU 上训练了 20 个 epoch,并进行了测试。单视图嵌入、跨视图嵌入和完整嵌入的特征维度都设置为 512。在训练阶段,我们使用 Adam 优化器(Kingma 和 Ba,2014),初始学习率设置为 1×10^-4,batch size 设置为 12,特征融合权重 α 在公式(5)中设置为 0.01。在推理阶段,我们将公式(9)中的得分融合权重 β 设置为 0.1,平均融合得分的阈值 Tas 设置为 0.5,单视图融合得分的阈值 Tss 设置为 0.75,命中得分的阈值 Ths 设置为 30,平均命中得分 s1 设置为 3,单视图命中得分 s2 设置为 3,单视图未命中得分 s3 设置为 1。
定量结果
在 CRTrack 基准上,我们将我们的 CRTracker 与其他方法进行了比较。由于以前的指代多目标跟踪方法是为单视图设计的,不能直接用于跨视图指代多目标跟踪任务。因此,我们将以前的指代多目标跟踪方法与 MvMHAT(Gan 等,2021)跨视图关联算法结合,以便使它们能够用于跨视图指代多目标跟踪任务。此外,由于我们的方法是端到端的,为了公平比较,我们选择了两个端到端的指代多目标跟踪方法,包括 TransRMOT(Wu 等,2023)和 TempRMOT(Zhang 等,2024)。对于领域内评估,所有方法均使用基准训练集进行训练,并在基准领域内测试集上进行测试。对于跨领域评估,所有方法均使用基准训练集进行训练,并在基准跨领域测试集上进行测试。值得注意的是,我们的 CRTracker 和其他方法在跨领域评估时使用的模型和参数设置与领域内评估相同。
领域内评估
如表 2 所示,我们的 CRTracker 在领域内测试集的所有场景中分别达到了 54.88% 的 CVRIDF1 和 35.97% 的 CVRMA。特别地,在“Gate2”场景中,它分别达到了 91.60% 的 CVRIDF1 和 73.40% 的 CVRMA。值得注意的是,我们的 CRTracker 在领域内评估中远远超过了所有其他方法。这些结果表明,CRTracker 能够很好地处理领域内的场景。
跨领域评估
如表 2 所示,所有方法在跨领域评估中都出现了显著的性能下降,这在预期之中,因为基准的跨领域测试集具有很高的难度。跨领域测试集与训练集在跨视图数量、场景、行人、相机角度和光照等方面存在差异。此外,跨领域测试集中包含了许多在训练集中未出现的语言描述,且语言描述的平均帧数非常长。尽管如此,我们的 CRTracker 仍然超越了其他方法,在跨领域测试集的所有场景中分别达到了 12.52% 的 CVRIDF1 和 2.32% 的 CVRMA。结果表明,CRTracker 对未见领域具有良好的泛化能力。
定性结果
为了进一步展示我们 CRTracker 的优越性,我们可视化了我们提出的 CRTracker 方法与其他方法在领域内和跨领域评估中训练 20 个 epoch 后的一些结果。如图 5 所示,CRTracker 能够准确检测和跟踪与语言描述匹配的物体,并保持每个跨视图中物体的身份一致性。在“Garden2”场景的示例中,即使面对未训练过的语言描述,CRTracker 也能够准确检测和跟踪目标,并在每个跨视图中保持目标的一致身份,这充分展示了我们方法的泛化能力。更多定性结果可以在补充材料中找到。
消融实验
为了研究我们方法 CRTracker 中每个部分的作用,我们在 CRTrack 基准上进行了消融实验。所有实验都遵循领域内评估,即在训练集上训练,并在领域内测试集上进行测试。
预测模块分析
为了证明预测模块的有效性,我们将带有和不带有预测模块的 CRTracker 进行了比较。如表 3 所示,我们可以观察到,带有预测模块的 CRTracker 在 CVRIDF1 上提高了 7.34%,在 CVMA 上提高了 7.29%,相较于没有预测模块的 CRTracker。这一现象表明,预测模块充分融合了来自每个跨视图的轨迹和语言描述得分,从而最大限度地匹配轨迹与描述。
总结
总之,我们的主要贡献如下:
我们提出了一项新任务,称为跨视角引用式多目标跟踪(CRMOT)。这是一个具有挑战性的任务,要求准确跟踪与语言描述匹配的目标,并保持每个跨视角中的目标身份一致性。 我们构建了一个基准,称为CRTrack,以推动CRMOT任务的研究。该基准包括13个不同的场景、82K帧、344个目标和221个语言描述。 我们提出了一种端到端的跨视角引用式多目标跟踪方法,称为CRTracker。我们在CRTrack基准上评估了CRTracker及其他方法,在领域内和跨领域评估中均展示了出色的性能,充分验证了其有效性。
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。