遮挡处理的突破:CoTracker3离线模式下的点跟踪创新 !

科技   2024-11-22 09:00   上海  

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

当前最先进的点跟踪器由于为这个任务标注真实视频的难度,大多是在合成数据上进行训练。然而,这可能会由于合成视频与真实视频之间的统计差距而导致性能不佳。

为了更好地理解这些问题,作者引入了CoTracker3,它包括一个新的跟踪模型和一个新的半监督训练配方。

这使得在训练过程中可以使用没有标注的真实视频,通过使用现成的教师生成伪标签。

新模型消除了或简化了以前跟踪器的组件,导致了一个更简单且通常更小的架构。这种训练方案比以前的工作更简单,并使用1000倍更少的训练数据实现了更好的结果。

作者还进一步研究了扩展行为,以了解在点跟踪中使用更多真实无监督数据的影响。模型有在线和离线两种版本,可以可靠地跟踪可见和被遮挡的点。

1 Introduction

追踪点是视频分析中的关键步骤,尤其是在需要精确恢复对应关系的3D重构和视频编辑等任务中。近年来,基于 Transformer 神经网络(Transformer)的点追踪器设计取得了显著的进步,受到了PIPs 的启发。显著的例子包括TAP-Vid(Doersch等人,2022年),它引入了一个新的点追踪标准,以及TAPIR,它引入了一个改进的追踪器,该追踪器在PIPs设计的基础上增加了一个全局匹配阶段。

CoTracker提出了一种 Transformer 架构,可以同时追踪多个点,在跟踪质量方面进一步取得了改进,尤其是在视频中部分被遮挡的点。

在本文中,作者提出了一种新的点跟踪模型 _CoTracker3_,它基于最近跟踪器的思想,但更为简单、更节省数据且更灵活。特别是,作者的架构去除了最近跟踪器提出的某些组件,这些组件被认为是实现良好性能所必需的,同时仍能在最先进水平上取得改进。首次,作者还研究了点跟踪器的数据扩展行为,并展示了不同模型架构和训练协议在最终跟踪质量和数据效率方面的优势。

近年来追踪器的优秀性能归功于高容量神经网络从大量训练视频中学习到一个强大先验的能力,并利用这个先验来解决复杂和歧义较大的追踪案例,如遮挡和快速运动。因此,高质量训练数据的可获得性对于获得稳定追踪结果至关重要。

然而,原则上可用于训练点跟踪器的视频资源并不匮乏。幸运的是,合成视频(Greff等人,2022年)被发现可以自动标注,因此可以作为实际数据的有效替代品,用于低级任务,如点跟踪。然而,在规模上收集大量多样化的合成视频是昂贵的,而仿真到实物的差距并非可以忽略不计。因此,使用实际视频训练点跟踪器仍然是一个有吸引力的选择。

近期的工作探讨了利用大量真实的无标签视频来训练点跟踪器。BootsTAPIR(Doersch等人,2024年)最近通过在1500万无标签视频中训练模型,在TAP-Vid基准测试上实现了最先进的准确性。尽管使用更多训练数据的好处已经得到证明,但点跟踪器的数据扩展行为尚不清楚。特别是,尚不清楚BootsTAPIR所使用的数百万真实训练视频是否必要来训练一个好的跟踪器。同样,对于他们相对复杂的半监督训练配方的好处也尚不清楚。

另一个 largely 未探索的方面是不同追踪器的竞争设计。Transformer 架构如 PIPs(Harley 等,2022 年),TAPIR(Doersch 等,2023 年),以及 CoTracker,以及最近的贡献如 LocoTrack ,都提出了重大的变化、扩展、新组件和不同的设计决策。

虽然这些在各自的文章中得到了证明,但它们是否都是必要的,或者这些设计是否可以简化并变得更高效,还不清楚。

CoTracker3有助于回答这些问题。作者的模型基于比最近追踪器如BootsTAPIR和LocoTrack更简单的架构和训练协议。它在TAP-Vid和Dynamic Replica(Karaev等人,2023年)基准测试上明显优于BootsTAPIR,同时使用了三倍于BootsTAPIR的无标签视频和比BootsTAPIR更简单的训练协议。

作者还研究了模型在训练视频越来越多时,数据缩放行为。LocoTrack在数据缩放方面受益于CoTracker3,但无法很好地跟踪被遮挡的点。

CoTracker3借鉴了先前的模型的元素,包括迭代更新和PIPs中的卷积特征,用于联合跟踪的跨跟踪注意力,用于提高效率的虚拟跟踪,以及从CoTracker和LocoTrack获得的窗口操作的无展开训练以及LocoTrack的4D相关性。同时,它还显著简化了某些组件并删除了其他组件,如BootsTAPIR和LocoTrack的全局匹配阶段。

这有助于确定哪些组件对于一个好的跟踪器至关重要。CoTracker3的架构也是灵活的,如果以相同的方式训练,它可以同时在线(即滑动窗口)和离线(即单个窗口)运行。

2 Related work

跟踪任何一点的任务由PIPs 提出,他们重新提出了经典的粒子视频(Sand Teller,2008年)方法,并建议使用深度学习进行点跟踪。受到RAFT(Teed和Deng,2020年)的启发,一种光流算法,PIPs在帧之间提取相关图,并将其输入网络以优化跟踪估计。TAP-Vid(Doersch等人,2022年)改进了问题陈述,提出了三个基准,并TAP-Net,一种点跟踪模型。TAPIR(Doersch等人,2023年)将TAP-Net类似的全球匹配与PIPs相结合,实现了显著的性能提升。 (Zheng等人,2023年)引入了另一个合成基准,PointOdyssey,以及PIPs++,这是一种改进版的PIPs,可以跟踪延长时间的点。CoTracker(Karaev等人,2024年)注意到不同跟踪之间存在 strong 相关性,可以利用这一点改进跟踪,尤其是在遮挡和脱框的情况下。 (Le Moing等人,2024年)通过增加其输出密度进一步改进了CoTracker。VGGSGM提出了一种从粗糙到精细的跟踪器设计,其中跟踪通过3D重建进行验证,但仅针对静态场景。受到DETR(Carion等人,2020年)的启发,(Li等人,2024年)引入了TAPTR,一种端到端 Transformer 架构用于点跟踪,将点表示为 Transformer 解码器中的 Query 。LocoTrack(Cho等人,2024年)将2D相关特征扩展到4D相关体积,同时简化了点跟踪 Pipeline 并提高了效率。作者的工作提出了一种进一步简化的框架,其运行速度比LocoTrack快27%,同时保持通过联合跟踪遮挡点的功能,如CoTracker。

标注数据进行点跟踪特别具有挑战性,因为所需的精度很高:标注(至少)应该具有像素级精度。因此,在点跟踪中占主导地位的方法是使用合成数据训练模型,在这些数据上可以获得自动且无错误的标注,并证明所得模型可以泛化到真实数据。所有上述方法都遵循这一范式,并且大多数方法仅在Kubric(Greff等人,2022年)上进行训练。

半监督对应关系。这是一种替代合成数据的方法,它结合了 未标注 的真实数据和无监督或半监督学习。例如,可以使用光度一致性作为对应关系的 Agent 。这种训练非常适合光学流和密集跟踪,但由于遮挡、重复纹理或光线变化,往往会导致误匹配。因此,通常需要多帧估计(Janai等人,2018年),明确考虑遮挡(Wang等人,2018年),手工定制损失项(Liu等人,2019年;Meister等人,2018年),或各种数据增强策略(Liu等人,2020年)。另一种方法是使用现有的跟踪器来训练另一个,类似于蒸馏过程(Liu等人,2019年)。通过从参考帧中复制颜色来简单地彩色化灰度视频,可以获得更强的无监督学习信号,用于长程跟踪(Vondrick等人,2018年),或利用更丰富的视觉模式(Lai等人,2020年)。

为了在无全监督的情况下学习对应关系,或甚至学习通用视觉特征,视频中的循环一致性(Wang等人,2019年;Jabri等人,2020年)或时间连续性(Foldiak,1991年;Wiskott和Sejnowski,2002年)也是一种可靠的对映信号来源。最近,(Sun等人,2024年)提出了使用颜色恒定性和循环一致性信号在预生成数据集上进行伪标签的PIPs和RAFT优化。这一 Pipeline 改进了跟踪,但性能很快达到饱和。

最相关的是Boots TAPIR Doersch等人在2024年发表的论文(Doersch et al., 2024)。他们在Kubric上使用1500万个真实视频进行微调,同时保留一个小的合成数据集以避免灾难性遗忘。他们提出将增强技术应用于学生预测,并使用指数移动平均(EMA)进行训练,同时计算三种不同的损失 Mask 以提高鲁棒性。相比之下,作者的方法采用更简单的设计,不需要增强、 Mask 或EMA进行训练。作者也不需要在自监督微调期间使用真实的监督数据。相反,作者的想法是利用具有互补特性的现有追踪器作为教师来训练学生模型。作者还证明了这种协议只需要BootsTAPIR中使用的一小部分真实视频。

3 Method

在本节中,作者正式介绍了点跟踪任务,然后概述了所提出的CoTracker3架构和作者使用的半监督训练流水线来训练它。

给定一个视频序列 , 其中 个帧, Query 点 ,其中 表示 Query 帧索引, 表示 Query 点的初始位置。作者的目标是预测相应的点跟踪 ,满足 。正如现代点跟踪模型(Doersch et al., 2023; Karaev et al., 2024)通常所做的那样,CoTracker3 也估计了可见度 和置信度 。可见度表示在当前帧中跟踪的点是否可见(),而置信度衡量网络是否确信跟踪点在当前帧中距离 GT 值一定范围内()。模型初始化所有跟踪器为 Query 坐标 ,置信度和可见度均为零 ,然后依次更新它们。

Training using unlabelled videos

近年来,由于在规模上为这个问题标注真实数据具有挑战性,跟踪器主要基于合成数据(Greff等人,2022年)进行训练。然而,BootsTAPIR(Doersch等人,2024年)表明,通过将未标注的真实视频加入混合物中,可以训练出更好的跟踪器。为此,他们提出了一种复杂的自训练协议,该协议使用了大量未标注的视频(15M),自训练,数据增强和变换等效性。

这里,作者提出一个更简单的协议,可以使作者以1/1000倍的数据量超越(Doersch等人,2024年)的性能:作者使用_多种现有的跟踪器_来 Token 一组真实视频,作为_教师_,然后使用伪标签来训练一个新的_学生_模型,该模型作者使用合成数据进行预训练。

重要的是,教师模型也是使用相同的合成数据进行训练的。因此,人们可能会好奇为什么这种协议会导致学生比任何教师都更好。有几个原因:首先,学生从比合成数据更大的(有噪声)数据集中学习,这使其受益;其次,从真实视频中学习可以减少合成和真实数据之间的分布转移;第三,存在组装/投票效应,这可以减少伪标注噪声;最后,学生模型可能继承了不同教师的优势,可能在任务的某些方面表现出色(例如,离线跟踪器在遮挡的点上表现更好,而在线跟踪器在跟踪轨迹的起源附近时往往更紧密)。

为了实现这样的训练,作者收集了一个大规模的数据集,该数据集包括约10万个30秒的互联网式视频,其中包含各种场景和动态物体,主要是人类和动物。作者证明,当在数据集的越来越大的子集上进行训练时,性能会提高,从只有100个视频(见图1)开始。

为了创建一组多样化的监督信号,作者使用多个仅在Kubric(Greff等人,2022年)生成的合成数据上进行训练的教师模型。作者的教师模型组包括作者提出的CoTracker3在线和CoTracker3离线模型,CoTracker(Karaev等人,2024年),以及TAPIR(Doersch等人,2023年)。在训练过程中,作者随机且均匀地从每个批次的冻结教师模型中选择一个(这意味着在多个周期内,相同的视频可能会收到来自不同教师的伪标签),这有助于防止过拟合并促进泛化。训练期间,教师模型不会更新。

Query 点采样。跟踪器需要除了视频之外的一个 Query 点来跟踪。在当前批次中,作者随机选择一个教师,然后为每个视频选择一组 Query 点。为了选择这样的 Query ,作者使用SIFT检测器(Lowe,1999)采样,使选择的点偏向于“易于跟踪”的点(Shi和Tomasi,1994)。具体来说,作者在视频中随机选择帧,并应用SIFT在这些关键帧上生成点来开始跟踪。作者使用特征提取器的原因是基于其能够尽可能检测描述性图像特征,而在遇到歧义情况时则不这样做。作者的直觉是,这将成为难以跟踪点的过滤器,从而提高训练的稳定性。遵循这一直觉,如果SIFT在任何帧上都无法产生足够多的点,作者在训练过程中完全跳过该视频,以保持训练数据的质量。

监督。作者使用与在合成数据上预训练模型时所用的相同损失来监督学生模型预测的轨迹,仅对处理遮挡和跟踪置信度做了一些细微的修改。这些细节将在第3.3节中给出。

CoTracker3 model

作者提供了两种CoTracker3模型版本:离线版和在线版。在线版采用滑动窗口的方式运行,依次处理输入视频序列并向前仅跟踪点。相比之下,离线版将整个视频作为单个滑动窗口处理,从而实现前后方向的点跟踪。离线版在处理被遮挡的点上表现更好,同时也改进了可见点的长期跟踪。然而,被跟踪的最大帧数受内存限制,而在线版可以实时无限制地跟踪。

特征图。作者首先为每个视频帧构建一个-维密集特征图,使用卷积神经网络,即。为了提高效率,作者将输入视频下采样一个因子,因此,并在个不同尺度下计算特征图,即,

4D相关特征。为了使网络能够定位 Query 点在帧中,作者计算了在 Query 帧的 Query 坐标周围从地图中提取的特征向量与在其他帧()的当前跟踪估计周围提取的特征向量之间的相关性。

更具体地,每个点 都是由在不同尺度下提取的特征向量构成的方形邻域。作者用以下方式表示这一系列特征向量集合:



因此,对于每个尺度包含一个×的网格,其中每个点都包含一个-维的局部特征。

接下来,作者定义了_4D相关性_(Cho等人,2024年)对于每个尺度。直观上,这个操作将 Query 点()周围的每个特征向量与跟踪点()周围的每个特征向量进行比较,网络使用这些特征向量来预测跟踪更新。在将其传递给 Transformer 之前,作者使用多层感知机(MLP)对它们进行投影,以降低其维度,定义相关性特征为:,其中是投影维度。这种MLP结构比LocoTrack(Cho等人,2024年)用于计算其相关性特征的自定义模块要简单得多。

迭代更新。作者初始化置信度 和可见度 为零,以及所有时间 的轨迹 都使用 Query 点 的初始坐标。然后作者用 Transformer 迭代更新所有这些量。

在每个迭代中,作者使用每个帧位移的傅里叶编码来嵌入轨迹,即。然后,作者将轨迹嵌入(在两个方向上),置信度,可见度和4D相关性以及每个 Query 点)连接在一起:形成了一个跨越时间和 Query 点数的输入 Token 网格。 transformer 将这个网格作为输入,添加标准傅里叶时间嵌入,并使用分治时间注意力与和组注意力与相结合。它还使用 Agent  Token (Karaev等人,2024)以提高效率。这个transformer逐步估计轨迹、置信度和可见度的更新,即。作者用次更新来更新轨迹,置信度和可见度,其中:。请注意,作者在更新轨迹后对点特征进行重采样,并在每次更新后重新计算相关性

Model training

作者使用Huber损失并设置阈值为6,指数递增的权重来监督可见和被遮挡的跟踪。对于被遮挡的点,作者将损失项的权重分配得较小。


时,是一个折现因子。这优先关注可见的点。

在每个迭代更新中,作者使用二进制交叉熵(BCE)损失来监督置信度和可见度。置信度的真实值由一个指示函数来定义,该函数检查预测的跟踪是否与当前更新的真实值跟踪在12像素内。在计算损失之前,作者对预测的置信度和可见度应用 sigmoid 函数:


使用伪标签训练。在利用伪标签的视频时,作者使用与合成数据相同的损失(2)来监督CoTracker3,但发现它更稳定,不需要监督置信度和可见度。为了避免忘记后者预测,作者使用一个单独的线性层来估计置信度和可见度,并在此训练阶段简单地冻结它。

在线模型。CoTracker3的在线和离线版本具有相同的架构。它们之间的主要区别在于训练方式。在线版本以窗口化方式处理视频:它将帧作为输入,预测它们对应的轨迹,然后向前移动帧,并重复此过程。它使用前一个滑动窗口的预测轨迹、置信度和可见性作为当前窗口的初始化。

在训练过程中,作者对在线版本和离线版本分别计算相同的损失(2)到(4)。然后,作者对所有滑动窗口的平均值进行取。由于在线版本只能向前跟踪点,作者只计算从第一个窗口( Query 帧)开始的损失。然而,对于离线版本,作者需要计算每个帧的损失,因为它可以跟踪双向的点。作者训练在线版本在相同长度的视频中,而离线版本在训练过程中需要观察不同长度的视频,以避免过拟合到特定长度。据此,作者在训练离线版本时,在之间随机剪切一个视频帧,并在训练过程中线性插值时间嵌入。

Discussion

作者的模型在之前的架构(如PIPs、TAPIR和CoTracker)基础上进行了一系列简化和改进。具体来说:

  1. 模型采用了LocoTrack中的4D相关性思想,并通过使用一个简单的MLP来处理相关性特征,进一步简化了该架构;
  2. 估计每个跟踪点的置信度;
  3. 与CoTracker相比,CoTracker3中的网格被简化,只使用相关性特征和位移的傅里叶嵌入;
  4. 每个迭代时更新可见性标志以及其他数量,而不是使用单独的网络;
  5. 与TAPIR、BootsTAPIR和LocoTrack相比,CoTracker3没有使用全局匹配模块,因为作者在实际应用中认为它是冗余的。

这些简化的好处是,CoTracker3比其他类似的跟踪器更轻便且更快。具体来说,CoTracker3的参数比CoTracker少一倍,而全局匹配的缺失以及使用MLP处理相关性,使得CoTracker3在考虑了跨跟踪注意力后,比最快的跟踪器(LocoTrack)快27%。

4 Experiments

在本节中,作者描述了作者的评估协议。然后,作者将作者的在线和离线模型与最先进的跟踪器进行比较(第4.1节),分析了它们在遮挡点的性能(第4.1节),展示了不同模型如何随着提出的伪标签流水线进行扩展(第4.2节),并分析了架构和扩展流水线的设计选择(第4.3节)。

评估协议。作者在TAP-Vid(Doersch等人,2022年)上进行评估,包括TAP-Vid-Kinetics,TAP-Vid-DAVIS和RGB-Stacking。TAP-Vid-Kinetics由Kinetics-700-2020验证集(Carreira和Zisserman,2017年)中的1,144个YouTube视频组成,这些视频中包含复杂的摄像机运动和杂乱的背景,平均每个视频中有26个跟踪目标。TAP-Vid-DAVIS包括DAVIS 2017验证集(Perazzi等人,2016年)中的30个实际场景视频,平均每个视频中有22个跟踪目标。RGB-Stacking是一个由合成机器人视频组成的数据集,其中包含许多纹理较少的区域,这些区域很难进行跟踪。

作者使用标准的TAP-Vid指标:遮挡准确性(OA,遮挡预测的二分类准确性),(在1,2,4,8和16像素内跟踪到的可见点比例,平均阈值)以及平均Jaccard(AJ,同时测量跟踪和遮挡预测准确性)。在将所有视频处理为模型之前,它们都被重新缩放到256256像素。

同样,作者在RoboTAP(Vecerik等人,2023年)上评估CoTracker3,该数据集包含265个真实的机器人操作任务视频,平均持续时间为272帧。遵循(Doersch等人,2022年)的研究,作者在"第一 Query "模式下评估TAP-Vid和RoboTAP:从第一帧中采样可见的 Query 点。此外,作者还根据(Karaev等人,2024年)在DynamicallyRecplica(Karaev等人,2023年)上进行评估。由于这个数据集是合成的,跟踪器可以在被遮挡的点上进行评估。Dynamic Replica的评估子集包括20个长(300帧)的组合3D模型序列。

Comparison to the state-of-the-art

为了公平起见,作者选择忽略不同跟踪之间的相关性,以CoTracker3在单个 Query 点上在TAP-Vid上进行评估,并从中选择额外的支持点以利用联合跟踪(Karaev等人,2024年)。这确保了在选择基准点时,不会通过泄露视频中的目标信息导致跟踪器知道这些目标。作者通过预测可见性和预测置信度将预测值相乘,并按照(Doersch等人,2023年)中的方法对结果进行阈值处理,从而提高了AJ和OA指标。

如图1所示,CoTracker3在各种基准测试中,即使仅使用合成数据进行训练,其与其他跟踪器的高竞争力也相当明显。利用第4.2节的方法添加 未标注 的视频(+15k)显著提高了DAVIS、RGB-S和Kinetics的所有指标的最高水平,并在RoboTAP上的三个指标(AJ和OA)上超过了最先进水平(见表2)。+15k的离线版本在DAVIS和RGB-S上的性能甚至优于在线版本,但在Kinetics和RoboTAP上的性能较差。关于数据效率,尽管作者的模型仅在额外15k个真实视频中进行训练,但仍然优于使用15M视频(即1,000个更多)进行训练的BootsTAPIR。进一步增加数据(见第4.2节)可以获得略微更好的性能。LocoTrack也得益于作者的训练方案,但在遮挡期间表现挣扎,如下一节所示。

跟踪被遮挡的点作者将在表2中与其它方法在Dynamic Replica上进行比较(和OA列)。在这个基准测试上,即使仅在Kubric上训练,CoTracker3的在线版本也优于所有其他方法;特别是,它比LocoTrack好很多,这证明了交叉跟踪注意力模块中额外参数的有效性。增加15k真实视频有助于改进在线和离线版本的可见点跟踪,但只有离线模型在跟踪被遮挡的点上有所提升。此外,CoTracker3离线版本在跟踪被遮挡的点上比在线版本表现更好。这是因为一次访问所有视频帧有助于在遮挡背后插值轨迹。请参见图4以获取定性结果。

Scaling experiments

在图1中,作者展示了CoTracker3、LocoTrack和CoTracker(Karaev等人,2024年)如何随着作者的伪标签 Pipeline 训练集大小的增加而改善。作者从预先在合成数据集(Greff等人,2022年)上预训练的模型开始(x轴为0),然后在这些逐步增大的真实数据集上训练它们:0.1k、1k、5k、15k、30k和100k视频。这些模型在各自的子集上收敛。仅使用0.1k实际世界视频的所有模型都有所改善,并且随着更多视频的增加继续改善。CoTracker3在线、离线和LocoTrack在30k视频后改善趋势趋于平稳,可能是因为学生超过了教师。这也可能是为什么CoTracker,最初比两个教师(CoTracker3在线和离线)弱得多,但在作者能够探索的最大范围内(100k视频)继续改善的原因。作者的训练策略对所有这些模型都有效。作者在补充中分析了使用缩小后的CoTracker3作为新教师的影响。为了比较,BootsTAPIR(Doersch等人,2024年)使用了1500万实际视频和涉及增强、损失 Mask 等复杂的协议。

有趣的是,作者发现仅使用自己的预测作为标注,不使用其他教师(即自训练)来训练CoTracker3,在所有TAP-Vid基准测试上的结果平均提高了+1.2个百分点(见表4)。显然,在真实数据上进行微调,即使使用自己的标注,也有助于模型减少真实数据和合成数据之间的领域差距。

Ablations

跨轨道注意力。表3显示,跨轨道注意力可以提高结果,尤其是在遮挡点(在Dynamic Replica上可见的点比遮挡点多)上。这是因为,通过使用跨轨道注意力,模型可以根据可见点的位置来猜测遮挡点的位置。如果这些点独立跟踪,则无法做到这一点。

教师模型。作者在表5中评估了使用多个教师生成伪标签的影响。作者首先移除了较弱的模型,始终将学生模型本身作为教师。作者证明了移除一个教师总是导致比最后一列更差的结果,作者在所有四个教师模型上进行训练。这表明每个教师都至关重要,学生模型可以从较弱的教师中提取互补知识。

在表6中,作者探索了替代的点采样方法,包括Light-Glue(Lindenberger等人,2023年),SuperPoint(DeTone等人,2018年)和DISK(Tyszkiewicz等人,\begin{table}

一般来说,作者拥有的教师模型越多样化,跟踪准确性()就越好。

2020). 采样方法的选择对性能影响不大。然而,SIFT采样在所有TAP-Vid数据集上的一致性结果都较高。

冻结信心和可见性头。在表7中,作者证明了将 Transformer 头分为一个用于轨迹的独立头和一个用于信心和可见性的头,有助于在仅监督轨迹而训练真实数据时避免遗忘。在这个阶段,作者冻结了信心和可见性头。这使得在TAP-Vid上的平均AJ提高了0.8,OA提高了3.9。

5 Conclusion

作者提出了CoTracker3,这是一款在TAP-Vid和其他基准测试中优于当前最先进的点跟踪器的新点跟踪器。

CoTracker3的架构结合了最近跟踪器的一些良好想法,但去除了不必要的组件,并显著简化了其他方面。

CoTracker3还展示了简单半监督训练协议的力量,其中使用多个现成的跟踪器对实际视频进行标注,然后使用超越所有老师的模型进行微调。

使用这种协议,CoTracker3可以在比训练在1000倍以上更多视频中跟踪器的情况下超过。通过联合跟踪点,CoTracker3在离线模式下处理遮挡比任何其他模型都要好。

作者的模型可以作为需要运动估计的任务(如3D跟踪、受控视频生成或动态3D重建)的构建模块。

参考文献

[0]. CoTracker3: Simpler and Better Point.

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」


集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
 最新文章