华中科技大学提出端到端跨视图引用式多目标跟踪方法CRTracker

文摘 2024-12-25 07:01 美国

摘要

引用式多目标跟踪（RMOT）是当前跟踪领域的一个重要课题。其任务形式是通过语言描述引导跟踪器跟踪与描述匹配的目标。目前的研究主要集中在单视角下的引用式多目标跟踪，即指通过一个视角序列或多个不相关的视角序列进行跟踪。然而，在单视角下，一些目标的外观容易被遮挡或消失，导致目标与语言描述的匹配错误。在这项工作中，我们提出了一种新任务，称为跨视角引用式多目标跟踪（CRMOT）。该方法引入了跨视角来从多个视角获取目标的外观，避免了RMOT任务中目标外观不可见的问题。CRMOT是一项更具挑战性的任务，要求准确跟踪与语言描述匹配的目标，并保持每个跨视角中的目标身份一致性。为了推进CRMOT任务，我们基于CAMPUS和DIVOTrack数据集构建了一个跨视角引用式多目标跟踪基准，命名为CRTrack。具体来说，它提供了13个不同场景和221个语言描述。此外，我们提出了一种端到端的跨视角引用式多目标跟踪方法，称为CRTracker。在CRTrack基准上的大量实验验证了我们方法的有效性。

代码地址：https://github.com/chen-si-jia/CRMOT

欢迎加入自动驾驶实战群

介绍

多目标跟踪（MOT）是计算机视觉中的一项具有挑战性的任务，广泛应用于自动驾驶（Li et al. 2024b）、视频监控（Yi et al. 2024）和智能交通（Bashar et al. 2022）等领域。现有的MOT方法已经在解决大多数视觉通用场景中展示了有效性。然而，在多模态上下文下，即视觉-语言场景中，传统的MOT方法面临着显著的挑战和局限性。为了解决这个问题，最近提出了引用式多目标跟踪（RMOT）任务。该任务的形式是通过语言描述引导跟踪器跟踪与描述匹配的目标。例如，如果输入的是“一个穿黑色大衣和蓝色裤子，背着蓝色包，手里拿着一本书的男人”，RMOT任务的网络将预测与该语言描述相对应的所有目标轨迹。目前的研究主要集中在单视角下的RMOT任务，即通过一个视角序列或多个不相关的视角序列进行跟踪。然而，在单视角下，某些目标的外观容易不可见，导致RMOT任务的网络错误地将目标与细粒度的语言描述匹配。

为了克服单视角的局限性，我们提出了一项新任务，称为跨视角引用式多目标跟踪（CRMOT）。它引入了跨视角，指的是具有大面积重叠区域的不同视角，从多个视角获取目标的外观，从而避免了RMOT任务中目标外观不可见的问题。CRMOT是一项更具挑战性的任务，要求准确跟踪与细粒度语言描述匹配的目标，并保持每个跨视角中的目标身份（ID）一致性。如图1所示，我们可以观察到，在RMOT任务的单视角下，当某些目标的外观不可见时，网络会做出错误判断。而在CRMOT任务的跨视角中，目标的外观可以被完全捕捉，从而使CRMOT任务的网络能够准确跟踪与细粒度语言描述匹配的目标，并能够识别哪些目标在每个跨视角中具有相同的身份（ID），即CRMOT任务的网络能够做出正确的判断。

为了推动跨视角引用式多目标跟踪（CRMOT）任务的研究，我们提出了一个基准，称为CRTrack。具体来说，CRTrack包括13个不同的场景、82K帧、344个目标和221个语言描述，详见表1。这些序列场景来自两个跨视角多目标数据集，DIVOTrack（Hao et al. 2024）和CAMPUS（Xu et al. 2016）。此外，我们提出了一种基于目标在整个序列中不变属性的新注释方法。这些属性包括头饰颜色、头饰样式、大衣颜色和样式、裤子颜色和样式、鞋子颜色和样式、持物颜色、持物样式和交通工具。然后，我们利用大型语言模型GPT-4o从注释的属性生成语言描述，并通过仔细的人工检查和修正，确保语言描述的准确性。最后，我们提出了一套专门为CRMOT任务设计的评估指标。

此外，为了进一步推进CRMOT任务的研究，我们提出了一种端到端的跨视角引用式多目标跟踪方法，称为CRTracker。具体来说，CRTracker结合了CrossMOT（Hao et al. 2024）在多目标跟踪中的精确能力和APTM（Yang et al. 2023）在多模态方面的强大能力。此外，在CRTracker网络中设计了一个预测模块。该预测模块的创新设计思想是使用网络的帧间关联结果作为检测结果，融合分数作为置信度，预测模块充当跟踪器的角色。

最后，我们在CRTrack基准的领域内和跨领域测试集上评估了我们提出的CRTracker方法及其他方法。评估结果表明，我们的方法达到了最先进的性能，并展示了显著的泛化能力。具体来说，与其他单视角方法中的最佳表现方法相比，我们的方法在领域内评估中，CVRIDF1和CVRMA分别提高了31.45%和25.83%；在跨领域评估中，CVRIDF1和CVRMA分别提高了8.74%和1.92%。

方法

为了推动跨视角引用式多目标跟踪（CRMOT）任务的研究，我们构建了一个跨视角引用式多目标跟踪基准，命名为CRTrack。以下是关于CRTrack基准的详细介绍。

数据集收集

跨视角引用式多目标跟踪数据集的两个主要特征是跨视角和引用。跨视角指的是不同摄像头视角之间的重叠区域，而引用则指的是语言描述。因此，我们基于跨视角多目标跟踪数据集DIVOTrack（Hao et al. 2024）和CAMPUS（Xu et al. 2016），在数据集中添加了语言描述，构建了跨视角引用式多目标跟踪基准，命名为CRTrack。

DIVOTrack数据集包含来自10个不同真实场景的数据，是当前最丰富的跨视角多目标跟踪数据集。所有序列都是使用三台移动摄像头拍摄并手动同步的。CAMPUS数据集包含3个不同场景，具有频繁的目标遮挡问题。所有序列均使用3或4台静态摄像头拍摄并手动同步。需要注意的是，我们仅使用了它们的训练数据，并统一了DIVOTrack和CAMPUS数据集的图像尺寸和注释格式。

数据集注释

我们将语言描述的内容划分为不同的属性。这些属性包括头饰颜色、头饰样式、大衣颜色和样式、裤子颜色和样式、鞋子颜色和样式、持物颜色、持物样式和交通工具。详细的属性可以在补充材料中找到。此前，RMOT任务基准Refer-KITTI（Wu et al. 2023）的一些语言描述仅注释了目标的某一片段序列，而不是从目标的出现到消失的整个序列。这种注释方法显然不适合跨视角引用式多目标跟踪这一新任务，因为引入跨视角后，能够从多个视角更加详细地观察整个序列，从出现到消失的过程。因此，我们提出了一种新的注释方法，旨在从目标在序列中的不变属性（如衣物、持物和交通工具等）角度进行注释。我们对每个场景中的目标进行了属性注释。在获得目标的注释属性后，我们使用大型语言模型GPT-4o（OpenAI 2024）根据目标的注释属性生成语言描述。GPT-4o生成的语言描述经过人工检查和修正。在大型语言模型的帮助下，语言描述的丰富性得到了极大的提升。最终，我们获得了344个标注的目标和221个语言描述。整个注释过程如图2所示。

数据集划分

对于带有语言描述的DIVOTrack数据集，我们根据场景的目标密度平均选择了三个场景作为领域内测试集，剩余的七个场景作为训练集。带有语言描述的CAMPUS数据集被用作跨领域测试集。简而言之，CRTrack基准被划分为训练集、领域内测试集和跨领域测试集。具体而言，训练集包含“Floor”、“Gate1”、“Ground”、“Moving”、“Park”、“Shop”和“Square”场景，领域内测试集包含“Circle”、“Gate2”和“Side”场景，跨领域测试集包含“Garden1”、“Garden2”和“ParkingLot”场景。

数据集统计

i) 词云：图3展示了我们构建的CRTrack基准的词云。我们可以观察到，CRTrack基准中包含大量描述衣物、持物和交通工具信息的词汇。词云的丰富多样展示了我们的基准的难度。

ii) 目标密度：目标密度表示每个场景中每帧每个视角的平均目标数量。CRTrack基准中每个场景的目标密度见表1。我们可以观察到，CRTrack基准中有不同目标密度的场景。

iii) 语言描述的平均帧数：表示与每个语言描述对应的目标出现的平均帧数。表1显示了每个场景的语言描述的平均帧数。CRTrack基准中“ParkingLot”场景的语言描述平均帧数达到了惊人的3419帧。极长的帧数为跨视角引用式多目标跟踪带来了巨大的时间维度挑战。

评估指标

跨视角跟踪器与单视角跟踪器不同。跨视角跟踪器在每个同步视频序列的批次中处理多个视角。相同的目标在不同视角中应具有相同的身份（ID）。标准的跨视角多目标跟踪评估指标包括跨视角IDF1（CVIDF1）和跨视角匹配准确率（CVMA）（Gan et al. 202）。其中，CVIDP和CVIDR分别表示跨视角目标匹配的精度和召回率。mt、fpt、mmet和gtt分别表示在所有视角中时间t的漏检、假阳性、错误匹配对数和目标总数。

需要注意的是，跨视角引用式多目标跟踪与跨视角多目标跟踪不同。当预测非引用但可见的目标时，它们在我们的评估中被视为假阳性。当与语言描述对应的跟踪效果不好时，会产生大量的假检测。这将使CVMA变成一个相对较大的负值，严重影响评估指标。为了防止负值的影响，我们将CVMA的值与0取最大值。

为了全面评估每个语言描述，我们提出了新的评估指标CVRIDF1和CVRMA，用于跨视角引用式多目标跟踪（CRMOT）任务，它们的取值范围是0到1。我们提出的评估指标CVIDF1和CVRMA的定义如下：CRMOT任务的挑战在于同时检测和跟踪与语言描述匹配的目标，并保持每个跨视角中目标的身份一致性。为了解决CRMOT任务的挑战，我们提出了一种端到端的跨视角引用式多目标跟踪方法，命名为CRTracker，作为强基准。

训练

APTM：APTM（Yang et al. 2023）是一个联合属性提示学习和文本匹配学习的框架，包括图像编码器、文本编码器和交叉编码器。具体来说，图像编码器使用Swin Transformer（Liu et al. 2021）输出图像特征，文本编码器使用BERT（Devlin et al. 2018）的前6层输出文本特征。交叉编码器采用BERT的最后6层，融合图像特征和文本特征，并通过交叉注意力机制捕捉语义关系。

训练流程：我们的训练框架的流程如图4所示。输入是来自多个跨视角的同步视频序列和语言描述。与CrossMOT（Hao et al. 2024）算法类似，我们的模型使用CenterNet（Zhou, Wang, and Krahenbühl 2019）作为骨干网络，后接四个头部，包括检测头、单视角Re-ID头、跨视角Re-ID头和完整Re-ID头。此外，还包括APTM图像编码器和APTM文本编码器。值得注意的是，对于单视角Re-ID，认为不同视角中的同一目标是不同的目标；对于跨视角Re-ID，认为不同视角中的同一目标是相同的目标；完整Re-ID头用于计算语言描述。

我们使用APTM的图像编码器对输入视频序列中的目标真实区域进行编码，得到特征FAi。然后，特征FAi与由完整Re-ID头输出的特征Ff融合，得到目标图像特征Fi。数学上，融合操作可以表示为：

检测头输出目标边界框。每个边界框与相应的单视角Re-ID特征、跨视角Re-ID特征和完整Re-ID特征匹配。在帧间关联步骤中，我们使用MvMHAT（Gan et al. 2021）在帧间和多个视角之间进行关联。接着，我们使用APTM图像编码器对目标边界框区域进行编码，得到编码特征FAi。编码特征FAi与完整Re-ID特征Ff融合，生成目标图像特征Fi。随后，APTM文本编码器用于编码输入的语言描述，得到文本特征FAt。从语言描述中提取属性提示并输入到APTM文本编码器，得到属性特征FAa。接下来，APTM交叉编码器用于处理属性特征FAa和图像特征Fi，得到属性分数Sa；APTM交叉编码器用于处理文本特征FAt和图像特征Fi，得到文本分数St。

实验

设置
为了评估，我们在我们构建的 CRTrack 基准上进行实验，并遵循其评估指标。我们的模型在单个 NVIDIA RTX 3090 GPU 上训练了 20 个 epoch，并进行了测试。单视图嵌入、跨视图嵌入和完整嵌入的特征维度都设置为 512。在训练阶段，我们使用 Adam 优化器（Kingma 和 Ba，2014），初始学习率设置为 1×10^-4，batch size 设置为 12，特征融合权重 α 在公式（5）中设置为 0.01。在推理阶段，我们将公式（9）中的得分融合权重 β 设置为 0.1，平均融合得分的阈值 Tas 设置为 0.5，单视图融合得分的阈值 Tss 设置为 0.75，命中得分的阈值 Ths 设置为 30，平均命中得分 s1 设置为 3，单视图命中得分 s2 设置为 3，单视图未命中得分 s3 设置为 1。

定量结果
在 CRTrack 基准上，我们将我们的 CRTracker 与其他方法进行了比较。由于以前的指代多目标跟踪方法是为单视图设计的，不能直接用于跨视图指代多目标跟踪任务。因此，我们将以前的指代多目标跟踪方法与 MvMHAT（Gan 等，2021）跨视图关联算法结合，以便使它们能够用于跨视图指代多目标跟踪任务。此外，由于我们的方法是端到端的，为了公平比较，我们选择了两个端到端的指代多目标跟踪方法，包括 TransRMOT（Wu 等，2023）和 TempRMOT（Zhang 等，2024）。对于领域内评估，所有方法均使用基准训练集进行训练，并在基准领域内测试集上进行测试。对于跨领域评估，所有方法均使用基准训练集进行训练，并在基准跨领域测试集上进行测试。值得注意的是，我们的 CRTracker 和其他方法在跨领域评估时使用的模型和参数设置与领域内评估相同。

领域内评估
如表 2 所示，我们的 CRTracker 在领域内测试集的所有场景中分别达到了 54.88% 的 CVRIDF1 和 35.97% 的 CVRMA。特别地，在“Gate2”场景中，它分别达到了 91.60% 的 CVRIDF1 和 73.40% 的 CVRMA。值得注意的是，我们的 CRTracker 在领域内评估中远远超过了所有其他方法。这些结果表明，CRTracker 能够很好地处理领域内的场景。

跨领域评估
如表 2 所示，所有方法在跨领域评估中都出现了显著的性能下降，这在预期之中，因为基准的跨领域测试集具有很高的难度。跨领域测试集与训练集在跨视图数量、场景、行人、相机角度和光照等方面存在差异。此外，跨领域测试集中包含了许多在训练集中未出现的语言描述，且语言描述的平均帧数非常长。尽管如此，我们的 CRTracker 仍然超越了其他方法，在跨领域测试集的所有场景中分别达到了 12.52% 的 CVRIDF1 和 2.32% 的 CVRMA。结果表明，CRTracker 对未见领域具有良好的泛化能力。

定性结果
为了进一步展示我们 CRTracker 的优越性，我们可视化了我们提出的 CRTracker 方法与其他方法在领域内和跨领域评估中训练 20 个 epoch 后的一些结果。如图 5 所示，CRTracker 能够准确检测和跟踪与语言描述匹配的物体，并保持每个跨视图中物体的身份一致性。在“Garden2”场景的示例中，即使面对未训练过的语言描述，CRTracker 也能够准确检测和跟踪目标，并在每个跨视图中保持目标的一致身份，这充分展示了我们方法的泛化能力。更多定性结果可以在补充材料中找到。

消融实验
为了研究我们方法 CRTracker 中每个部分的作用，我们在 CRTrack 基准上进行了消融实验。所有实验都遵循领域内评估，即在训练集上训练，并在领域内测试集上进行测试。

预测模块分析
为了证明预测模块的有效性，我们将带有和不带有预测模块的 CRTracker 进行了比较。如表 3 所示，我们可以观察到，带有预测模块的 CRTracker 在 CVRIDF1 上提高了 7.34%，在 CVMA 上提高了 7.29%，相较于没有预测模块的 CRTracker。这一现象表明，预测模块充分融合了来自每个跨视图的轨迹和语言描述得分，从而最大限度地匹配轨迹与描述。

总结

总之，我们的主要贡献如下：

我们提出了一项新任务，称为跨视角引用式多目标跟踪（CRMOT）。这是一个具有挑战性的任务，要求准确跟踪与语言描述匹配的目标，并保持每个跨视角中的目标身份一致性。
我们构建了一个基准，称为CRTrack，以推动CRMOT任务的研究。该基准包括13个不同的场景、82K帧、344个目标和221个语言描述。
我们提出了一种端到端的跨视角引用式多目标跟踪方法，称为CRTracker。我们在CRTrack基准上评估了CRTracker及其他方法，在领域内和跨领域评估中均展示了出色的性能，充分验证了其有效性。

论文名字：Cross-View Referring Multi-Object Tracking

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

CES2025，Nvidia主题演讲

东北大学提出4D时空激光语义分割网络4D-CS:实现nuscenes上最新SOTA

AI应用开发系列 3-掌握Prompt写作技巧，让AI提效百倍

华为/上交通联合提出 MSSIDD:多传感器去噪基准，移动摄像头去噪模型可迁移性评估的新视角！

智能座舱缘何成为自动驾驶的“宠儿”？

北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望

第四届全球自动驾驶峰会1月14日在北京举办

3D视觉理解GPT4Scene：通过视觉-语言模型从视频中理解3D场景

澳门大学提出TiGDistill-BEV: 通过目标内几何学习蒸馏实现多视角BEV 3D物体检测

激光雷达会被智能汽车抛弃吗？

多模态学习关键技术深度综述：多模态标记、骨干模型架构、统一任务表示、数据与评估、挑战与趋势

2024国产人形机器人一览 1

端到端自动驾驶技术研究与分析

GB200机架供应链优化，GB200延期及GB300进展

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！

汽车产业的AIGC革命：重塑未来出行

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

大模型语义分析之嵌入(Embedding)模型

南京邮电&南京理工提出URoadNet：使用双重稀疏注意力用于多尺度道路网络提取

云计算与大模型训练的结合

华中科技大学提出端到端跨视图引用式多目标跟踪方法CRTracker

怎么提升向量数据库的召回准确率

哈尔滨工业大学提出MR-GDINO: 杜绝遗忘的高效的开放世界物体检测

YoloV8改进策略：卷积篇|CGAFusion，增强模型对特征的提取能力|附代码|即插即用

DriveGPT实现Waymo最佳预测: 扩展自回归行为模型在自动驾驶中规划与预测

AI突破：单图生成3D世界，GenEx重塑具身智能探索格局！

什么是相似性搜索？大模型的底座技术

智驾与底盘争抢的车身控制，你真的了解吗？

端到端自动驾驶技术研究与分析

基于Transformer架构的扩散模型

台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型！

智能汽车嘚啵嘚 --- 智能座舱第八稿：智能座舱数字钥匙

华中科技 & 北航 & 清华 & 上海 AI Lab 提出 BIG.LITTLE Transformer ，用于高效视觉识别！

ChatGLM: 从GLM-130B到GLM-4的系列大型语言模型

全栈量产智驾应用算法在C1200家族芯片上的部署 | 研讨会回顾

大模型推理序列并行

SimpleBEV: 改进的LiDAR-摄像头融合架构用于3D目标检测！

端到端机器人学习的空间视觉感知（北大&哈佛）

什么是具身智能？自动驾驶是具身智能吗？

大模型推理加速与KV Cache（一）：什么是KV Cache

LsSInst: 改进基于 LSS 的 BEV 感知中的几何建模与实例表示 !

想了解AI大模型？你就不得不了解一下并行运算的始末

清华大学&加州大学发布流式密集4D重建模型Driv3R: 无需全局对齐实现15倍的推理提升

Yolo11改进策略：上采样改进|CARAFE，轻量级上采样|即插即用|附改进方法+代码

汽车产业的AIGC革命：重塑未来出行

使用大模型实现一个聊天机器人思路以及困难点

单目3D 目标检测的高效特征聚合和尺度感知回归！

一文读懂多模态大模型：LLaVA系列 | 从图像到视频内容理解的进化之路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉