极市导读
本文介绍了SUTrack,一个简单而统一的单目标跟踪框架,它能够将基于RGB、RGB-Depth、RGB-Thermal、RGB-Event和RGB-Language的五个跟踪任务整合到一个模型中进行训练,显著降低了研究复杂性,并在多个基准测试中取得了优异的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
0. 论文信息
标题:SUTrack: Towards Simple and Unified Single Object Tracking
作者:Xin Chen, Ben Kang, Wanting Geng, Jiawen Zhu, Yi Liu, Dong Wang, Huchuan Lu
机构:Dalian University of Technology、Baidu Inc.
原文链接:https://arxiv.org/abs/2412.19138
代码链接:http://github.com/chenxin-dlut/SUTrack
1. 导读
在本文中,我们提出了一个简单而统一的单一目标跟踪(SOT)框架,称为SUTrack。它将五个SOT任务(基于RGB、RGB深度、RGB热、RGB事件、RGB语言跟踪)整合到一个在单个会话中训练的统一模型中。由于数据的独特性质,当前的方法通常为每个任务设计单独的架构并训练单独的模型。这种分散导致了冗余的培训流程、重复的技术创新和有限的跨模式知识共享。相比之下,SUTrack证明了具有统一输入表示的单个模型可以有效地处理各种常见的SOT任务,消除了对特定任务设计和单独培训会话的需要。此外,我们引入了任务识别辅助训练策略和软令牌类型嵌入,以最小的开销进一步提高SUTrack的性能。实验表明,SUTrack在跨越5个SOT任务的11个数据集上的性能优于以前的任务相关的同类算法。此外,我们提供了一系列适合边缘设备和高性能GPU的型号,在速度和精度之间取得了良好的平衡。我们希望SUTrack可以作为进一步研究统一跟踪模型的坚实基础。
2. 效果展示
我们的SUTrack将五个SOT任务统一到一个训练模型中。
3. 引言
单目标跟踪(SOT)是计算机视觉中的一项基础任务,旨在从视频序列中的初始位置开始,定位任意目标。近年来,为了拓宽SOT的应用场景,人们提出了许多融合辅助输入模态的下游SOT任务。这些任务包括RGB-Depth跟踪、RGB-Thermal跟踪、RGB-Event跟踪以及RGB-Language跟踪。现有的SOT方法具有碎片化特征,大多数方法仅关注一个或少数几个特定的下游任务,并为每个任务开发单独的模型。
这种碎片化使得每个任务都可以进行定制化设计,成为一种普遍选择。然而,仍存在一些不足:首先,每个任务都需要训练单独的模型,导致参数冗余和资源利用效率低下。其次,模型是在特定于任务的数据集上训练的,这阻碍了所有可用数据集之间的知识共享,并增加了过拟合的风险。第三,技术创新往往需要在不同任务中反复设计和验证,导致重复劳动。尽管已经出现了一些统一SOT任务的方法,但其统一程度仍然有限。例如,一些方法仅统一了架构设计,而未统一模型参数;而其他方法则仅解决了部分任务。这自然引出了一个问题:一个统一的视觉模型能否解决主流的SOT任务?
为了探索这个问题,我们提出了一个简单且统一的SOT框架,命名为SUTrack。SUTrack统一了五个主流的SOT任务:基于RGB的跟踪、RGB-Depth跟踪、RGB-Thermal跟踪、RGB-Event跟踪和RGB-Language跟踪。它基于一个直观的单流跟踪架构。通过对接口进行简洁的改进以适应各种模态,SUTrack实现了使用一个模型和一次训练即可达到统一。其背后的直觉是,现代通用视觉模型本质上应该能够整合来自不同模态的知识。我们只需要将这些模态转换为统一的形式来训练模型,而不是为每个模态开发单独的模型。
为此,我们将RGB、深度、热成像、事件和语言模态转换为统一的令牌格式,作为视觉转换器的输入。具体来说,深度、热成像和事件模态通常以图像格式与RGB模态配对。因此,我们将视觉转换器的补丁嵌入层从三个通道修改为六个通道,以适应通道串联的RGB-Depth、RGB-Thermal或RGB-Event图像对。这些图像对被修改后的补丁嵌入层转换为令牌嵌入,然后可以直接输入到转换器中。与采用额外分支来接收辅助模态的流行方法不同,这种方法更高效,与纯基于RGB的跟踪器相比,仅增加了0.06M参数和不到0.7GFlops。对于语言模态,我们采用CLIP文本编码器将语言输入转换为令牌嵌入。我们采用视觉转换器来处理这些令牌,然后采用常见的基于中心的跟踪头来预测结果。此外,我们还引入了一种任务识别辅助训练策略。除了标准的跟踪监督外,该方法还涉及在训练期间对输入数据的源任务进行分类。我们发现,融入这种特定于任务的信息可以提高性能。重要的是,该策略仅在训练期间使用,并不会在推理期间增加任何开销。此外,裁剪后的模板和搜索区域可能会导致令牌类型(模板背景、模板前景和搜索区域)混淆,尤其是对于通常比RGB数据细节更少的深度、热成像和事件数据而言。为了解决这个问题,我们借鉴了LoRAT中引入的令牌类型嵌入,开发了一种软令牌类型嵌入。这种增强为模型提供了更精确的令牌类型信息。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)。
实验表明,我们的SUTrack方法非常有效,在11个基准测试和五个SOT任务上取得了新的最优性能。例如,SUTrackB384在基于RGB的基准测试LaSOT上实现了74.4%的AUC,比最近的ODTrack-B384高出1.2%,同时保持了相似的模型大小。此外,与最近的多模态跟踪器相比,SUTrack在所有评估的数据集上均表现更优。值得注意的是,所有这些先前的方法要么为每个任务训练不同的模型,要么无法覆盖所有五个SOT任务,而我们的SUTrack则使用一个统一的模型来处理所有任务。
4. 主要贡献
本文的贡献有两方面:
• 我们提出了一个简单但统一的SOT框架。它将五个SOT任务整合到一个统一的模型和学习范式中。我们相信这一成果将显著降低SOT任务的研究复杂性。
• 我们提出了一系列新的统一跟踪模型,这些模型在速度和准确性之间取得了良好的平衡。实验证实了这些新模型的有效性。
5. 方法
SUTrack的总体框架如图2所示。它采用了一种精简的单流转换器架构。首先,来自各种模态(包括RGB、深度、热成像、事件和自然语言)的输入数据被转换为统一的嵌入形式。这种统一表示使得模型可以经过训练来处理多个SOT任务。接下来,将位置嵌入和提出的软令牌类型嵌入添加到统一嵌入中,以增强位置信息并提供关于令牌类型(背景/前景)的精确先验知识。然后,视觉转换器编码器对这些嵌入进行联合处理和关联。所得的特征嵌入用于支持最终预测,这些预测是使用基于中心的跟踪头实现的。此外,我们还引入了一个任务识别预测,该预测仅在训练期间使用,以帮助模型更好地区分任务。
6. 实验结果
7. 总结
这项工作提出了一种简单而统一的SOT框架,即SUTrack,它将五个SOT任务集成到一个统一型中进行训练。SUTrack表明,一个具有统一输入表示的单模型能够处理各种SOT任务,消除了对单独的任务特定模型或训练过程的需要。广泛的实验证明,SUTrack是有效的,在所有五个SOT任务中都取得了具有竞争力的性能。我们希望SUTrack能够成为未来统一单目标跟踪研究的坚实基础。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货