视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

2024-11-05 11:54 安徽

MixFormer：使用迭代混合注意力进行端到端跟踪

作者：Yutao Cui, Cheng Jiang, Gangshan Wu, Limin Wang

摘要

视觉对象跟踪通常采用特征提取、目标信息集成和边界框估计的多阶段流水线。为了简化此流水线并统一特征提取和目标信息集成的过程，本文提出了一个基于 Transformer 的紧凑型跟踪框架，称为 MixFormer。我们的核心设计是利用注意力操作的灵活性，并提出了一个混合注意力模块 (MAM)，用于同时进行特征提取和目标信息集成。这种同步建模方案使我们能够提取特定于目标的判别特征并在目标和搜索区域之间进行广泛的通信。基于 MAM，我们只需堆叠多个 MAM 并在顶部放置一个定位头即可构建我们的 MixFormer 跟踪器。具体来说，我们实例化了两种类型的 MixFormer 跟踪器，即分层跟踪器 MixCvT 和非分层简单跟踪器 MixViT。对于这两个跟踪器，我们研究了一系列预训练方法，并揭示了 MixFormer 跟踪器中监督预训练和自监督预训练之间的不同行为。我们还将掩蔽自动编码器预训练扩展到我们的 MixFormer 跟踪器，并设计了新的竞争性 TrackMAE 预训练技术。最后，为了在在线跟踪期间处理多个目标模板，我们在 MAM 中设计了一种不对称注意方案来降低计算成本，并提出了一个有效的分数预测模块来选择高质量的模板。我们的 MixFormer 跟踪器在七个跟踪基准上创造了新的最佳性能，包括 LaSOT、TrackingNet、VOT2020、GOT-10 k、OTB100、TOTB 和 UAV123。具体来说，我们的MixViT-L 在 LaSOT 上的 AUC 得分为 73.3%，在 TrackingNet 上的 AUC 得分为 86.1%，在 TOTB 上的 AUC 得分为 82.8%。

点击上方卡片，关注“AI学术工坊”公众号

各种重磅干货，第一时间送达

关键字

紧凑跟踪框架、混合注意力、分数预测、自监督、视觉Transormer、视觉跟踪。

引言

视觉对象跟踪 [2]、[6]、[26]、[35]、[36]、[55]、[65] 是计算机视觉领域数十年来一直存在的一个问题，其目的是在给定初始状态的情况下估计视频序列中任意目标的状态。它已被部署在人机交互 [52] 和视觉监控 [82] 等各种应用中。然而，到目前为止，如何设计一个简单而有效的端到端跟踪器在现实世界中仍然具有挑战性。主要挑战来自尺度变化、物体变形、遮挡和与相似物体的混淆等方面。

当前流行的跟踪器 [3]、[4]、[11]、[13]、[15]、[19]、[44]、[55]、[74]、[84]、[92] 通常采用如图 1 所示的多级流水线。它包含几个组件来完成跟踪任务：（1）主干网，用于提取跟踪目标和搜索区域的通用特征；（2）集成模块，用于在跟踪目标和搜索区域之间进行信息通信，以便随后进行目标感知定位；（3）任务特定的头，用于精确定位目标并估计其边界框。集成模块是跟踪算法的关键，因为它负责整合目标信息，以衔接通用特征提取和目标感知定位的步骤。传统的集成方法包括在线学习算法（例如 MOSSE [7]、CSK [35]、DCF [55]、KCF [36]、CSR-DCF [56]、ATOM [19]、DiMP [4]、FCOT [15]）和基于相关性的操作（例如 SiamFC [3]、SiamRPN [44]、CRPN [26]、SiamFC++ [83]、SiamBAN [13]、OCEAN [92]）。最近，由于其全局和动态建模能力，Transformers [70] 被引入进行基于注意的集成并产生良好的跟踪性能（例如 TransT [11]、TMT [74]、STMTrack [28]、TREG [14]、STARK [84]、DTT [87]）。然而，这些基于 Transformer 的跟踪器仍然依赖 CNN 进行通用特征提取，并简单地在后者的高级抽象表示空间中应用注意力操作进行目标信息集成。我们认为这些 CNN 表示是有限的，因为它们通常是针对通用对象识别进行预训练的，可能会忽略跟踪的更精细的结构信息。此外，这些 CNN 表示采用局部卷积核，在全局建模中无效。因此，解耦的 CNN 表示和集成模块仍然无法在整个跟踪管道中充分释放注意力操作（Transformer）的力量。

为了克服上述问题，我们通过将视觉特征提取和目标信息集成统一在单个模块中，为跟踪器设计提供了一种新视角。这种统一的处理范例有几个关键优势。首先，它使特征提取能够了解相应的跟踪目标，从而捕获更多特定于目标的特征。其次，它还允许将目标信息更广泛地集成到搜索区域中，从而更好地捕获它们的相关性。此外，如图 1 所示，这将导致更紧凑、更高效的跟踪管道，仅具有单个主干和跟踪头，而无需显式集成模块。

为此，在本文中，我们提出了 MixFormer，这是一个简洁的跟踪框架，旨在将特征提取和目标集成与基于转换器的架构统一起来。注意模块是一个灵活的架构构建块，具有动态和全局建模能力，它对数据结构几乎没有假设，可以应用于一般关系建模。我们的核心思想是利用这种注意力操作的灵活性，我们设计了混合注意力模块 (MAM)，它同时执行目标模板和搜索区域的特征提取和信息交互。具体来说，在我们的 MAM 中，我们提出了一种混合交互方案，其中既有自注意力操作，也有交叉注意力操作，针对目标模板和搜索区域的标记。自注意力负责提取目标模板或搜索区域的自身特征，而交叉注意力允许它们之间的通信以混合它们的信息。为了进一步降低 MAM 的计算成本并允许多个模板处理对象变形，我们通过修剪不必要的目标到搜索区域交叉注意力，进一步提出了一种定制的非对称注意力方案。这使我们的 MixFormer 跟踪器能够轻松适应多个目标模板输入。在实践中，我们提出了一种基于分数的模板更新机制，以选择可靠的在线模板。

我们实例化了两种类型的 MixFormer 跟踪器，一种是具有渐进式下采样和深度卷积投影的分层跟踪器（称为 MixCvT），另一种是建立在 ViT 普通主干上的非分层跟踪器（称为 MixViT）。对于前者，受混合卷积和变压器主干 [48]、[53]、[76]、[77]、[89] 成功的启发，我们希望在跟踪器设计中引入归纳偏差（例如，移位、尺度不变性），通过使用渐进式下采样架构并在宽混合注意模块 (W-MAM) 中引入局部性建模，为匹配目标提供更好的表示。具体来说，我们使用 CvT [77] 主干来构建我们的分层 MixFormer 跟踪器 MixCvT，通过堆叠卷积补丁嵌入和 W-MAM 层，最后在顶部放置一个简单的定位头。由于 MixCvT 中的渐进式下采样和局部性建模，它表现出 CNN [77] 的理想特性（即移位、缩放和失真不变性）并实现了有希望的性能。然而，这些设计产生了一个分层架构，前两个阶段有大量的标记，计算步骤相对复杂。

在另一个实例中，我们探索了更通用、更简单的非层次化 Vision Transformer (ViT) [23] 主干，用于设计 MixFormer 跟踪器。受其设计简单性和 ViT 在图像和视频识别中的良好结果的启发，我们旨在构建一个简单的 MixFormer 跟踪器 MixViT，它没有层次结构和复杂的深度卷积投影，以实现高建模灵活性和跟踪效率。我们通过删除 Wide MAM 中的卷积投影，使用简单的补丁方案和 Slim Mixed Attention Module (S-MAM) 构建了 MixViT 跟踪器。具体来说，我们首先将图像切成不重叠的补丁，并将它们投影到具有补丁嵌入和位置嵌入的标记序列中。然后，我们在固定长度的标记序列上堆叠多个 S-MAM，最后放置一个金字塔定位头。对于这两种类型的 MixFormer 跟踪器，我们设计了定制的定位头，以进行准确的边界框估计。特别是，我们为非层次化的 MixViT 设计了一个金字塔形的角头，可以补充一些多尺度信息。

由于跟踪数据集较小且跟踪任务复杂度较高，因此预训练对于构建有效的基于 Transformer 的跟踪器必不可少。现有的成功跟踪器 [3]、[12]、[13]、[14]、[44]、[84]、[92] 通常使用 ImageNet 预训练模型来初始化其特征提取模块的权重。虽然我们在 MAM 中混合了来自目标模板和搜索区域的标记，但由于注意力操作的灵活性，我们可以直接应用 ImageNet 预训练的 CvT 或 ViT 模型作为相应跟踪器的初始化。在实践中，对于 MixCvT，我们实证研究了在 ImageNet-1k 和 ImageNet-22k 上的监督预训练，证明具有更多语义监督的预训练模型有助于提高跟踪性能。对于 MixViT，由于其简洁的结构和更高的灵活性，ViT 解锁了丢弃图像补丁标记的能力，并释放了蒙版自动编码器 (MAE) [33] 作为可扩展视觉学习器的强大功能。我们广泛探索了 MixViT 的监督和自监督预训练策略，并提出了一种新的预训练方法 TrackMAE，该方法仅在没有 ImageNet 的跟踪数据集上进行。我们的 TrackMAE 在大规模 ImageNet 预训练中取得了非常有竞争力的性能。这种简单的预训练方法为未来定制的主干提供了机会，使其不必依赖预训练的主干。我们实例化了多个 MixFormer 跟踪器，包括 MixCvT、MixCvT-L、MixViT 和 MixViT-L，并在多个基准上进行了广泛的实验。我们的跟踪器在很大程度上超越了最先进的跟踪器。尤其是，使用 MAE 预训练的普通 ViT，我们的 MixViT 在 LaSOT 上实现了 69.6% 的 AUC，在 TOTB 上实现了 78.6% 的 AUC，实时运行速度为 75 FPS。主要贡献总结如下：

我们提出了一个基于混合注意模块 (MAM) 的紧凑型端到端跟踪框架，称为 MixFormer。MAM 允许同时提取目标特定的特征以及目标和搜索之间的广泛交流。
我们实例化了两种类型的 MixFormer 跟踪器，一种具有渐进式下采样和深度卷积投影的分层跟踪器（称为 MixCvT），以及一种基于ViT 的普通主干构建的非分层跟踪器（称为 MixViT）。特别是，我们为 MixViT设计了一个金字塔角头，它可以补充多尺度信息以实现准确的目标定位。r 我们实证研究了我们的 MixFormer框架的一系列预训练策略，并揭示了开发高效跟踪器的重要因素。特别是，我们提出了一个简单的自监督预训练策略 TrackMAE，其性能可与大规模ImageNet 预训练相媲美。
对于在线模板更新，我们在 MAM中设计了一个定制的非对称注意力机制，以提高效率，并提出了一个有效的分数预测模块来选择高质量的模板，从而实现高效、有效的基于Transformer 的在线跟踪器。
我们对 MixFormer 跟踪器的设计进行了深入分析，以证明每个模块的有效性，希望这能为后续更有效、更高效的跟踪器设计工作提供启发。

方法

在本节中，我们介绍了基于迭代混合注意模块 (MAM) 的端到端跟踪框架，称为 MixFormer，其整体流程如图 1(b) 所示。我们实例化了两种类型的 MixFormers，包括基于 W-MAM 构建的分层 MixCvT 和基于 S-MAM 构建的非分层 MixViT。具体而言，MixCvT 旨在利用渐进式下采样的视觉归纳偏差来拥抱 CNN 和变换的混合结构的成功。MixViT 专注于设计一种结构更简单的更高效的跟踪器，但需要仔细的预训练才能实现卓越的性能。在第三节 A 中，我们介绍了我们提出的 MAM，以统一特征提取和目标信息合并的过程。然后，我们分别在第三节 B 和第三节 C 中描述 MixCvT 和 MixViT。此外，我们在第三节 D 中介绍了探索的预训练方法的细节。最后，在 III-E 节中，我们描述了 MixCvT 和 MixViT 的训练和推理，以及基于置信度分数的目标模板更新机制，以处理跟踪过程中的对象变形。

A.混合注意力模块（MAM）

混合注意力模块 (MAM) 是追求紧凑型端到端跟踪器的核心设计。我们的 MAM 的输入是模板和搜索区域。MAM 旨在同时提取它们自己的视觉特征并融合它们之间的交互信息。与原始的多头注意力 [70] 相比，MAM 对目标模板和搜索区域的两个独立标记序列执行双重混合注意力操作。它对来自每个序列的标记进行自我注意，以捕获目标或搜索区域信息。同时，它在来自两个序列的标记之间进行交叉注意，以允许目标和搜索区域之间的信息通信。如图 2 所示，这种混合注意力机制可以通过连接的标记序列有效实现。在这项工作中，我们实例化了两种类型的 MAM，包括用于 MixCvT 的 Wide MAM 和用于 MixViT 的 Slim MAM。前者通过深度卷积投影将 CNN 的理想特性（即移位、缩放和失真不变性）引入到 Transformer 架构中。这使得跟踪器能够在训练数据规模有限的情况下实现良好的性能。而后者追求简单而通用的结构。特别是，W-MAM 是为适应 CvT 主干而量身定制的，这是一种分层方法，旨在将其用于预训练并避免引入额外的参数。同样，S-MAM 旨在适应 ViT 和 ConvMAE。W-MAM 和 S-MAM 的细节描述如下。

**宽混合注意模块 (W-MAM)**：正式地，给定多个目标和搜索区域的连接标记，我们首先将其分成两部分并将它们重塑为 2D 特征图。为了实现对局部空间上下文的额外建模，在每个特征图（即查询、键和值）上执行可分离的深度卷积投影层。它还通过允许在键和值矩阵中进行下采样来提供效率优势。然后，将目标和搜索的每个特征图展平并通过线性投影进行处理，以生成注意操作的查询、键和值。我们使用、和表示目标，、和表示搜索区域。混合注意力定义为：

其中表示键的维度，和分别是目标和搜索的注意力图。它包含自注意力和交叉注意力，统一了特征提取和信息集成。然后，将目标标记和搜索标记连接起来并通过线性投影进行处理。最后，连接的标记序列由层规范化和 MLP 函数处理，如图 2 所示。

**精简混合注意模块 (S-MAM)**：虽然 W-MAM 通过将平移等变先验引入 vanilla Transformer（即深度卷积投影）产生了强大的视觉表现，但它也存在一些问题。首先，由于每个注意元素（即查询、键和值）的复杂重塑操作和深度卷积操作，它导致跟踪速度较低。此外，它缺乏适应最近 ViT 开发的灵活性，例如自监督预训练 [33]。为了解决这些问题，我们通过删除 W-MAM 中的深度卷积投影，进一步提出了精简混合注意模块 (S-MAM)。S-MAM 的详细结构如图 2 所示。首先，我们将输入标记序列拆分为多个目标标记序列，包括静态标记序列和在线标记序列（如果我们使用多个在线模板）以及搜索标记序列。然后，通过层归一化和简单的线性投影处理目标和搜索的分割特征。接下来，对生成的查询、键和值执行混合注意操作。其余操作与 W-MAM 相同。

非对称混合注意力方案：直观地看，从目标查询到搜索区域的交叉注意力，即在搜索区域的键和值记忆的指导下作为查询的目标的变化，并不是那么重要，并且可能由于潜在的干扰因素而带来负面影响。在第四节-C中，我们直观地展示了干扰因素的存在如何影响目标跟踪。为了降低 MAM 的计算成本，从而允许有效地使用多个模板来处理对象变形，我们进一步提出了一种定制的非对称混合注意力方案，通过修剪不必要的目标到搜索交叉注意力。这种非对称混合注意力定义如下：

值得注意的是，与 (1) 相同。这样，每个 MAM 中的模板标记在跟踪过程中可以保持不变，因此只需处理一次。

讨论：为了更好地阐述混合注意力的见解，我们与其他 Transformer 跟踪器使用的注意力机制进行了比较。与我们的混合注意力不同，TransT [11] 使用自我上下文增强和交叉特征增强模块分两步逐步执行自我注意力和交叉注意力。与 STARK [84] 的 Transformer 编码器相比，我们的 MAM 具有类似的注意力机制，但有两个显着差异。首先，我们的 MAM 构建为联合特征提取和信息集成的多阶段主干，而它们依赖于单独的 CNN 主干进行特征提取，并且仅关注另一个阶段的信息集成。最后，我们还提出了一种不同的非对称 MAM，以进一步提高跟踪效率，而不会降低太多准确性。

B. 分层 MixFormer：MixCvT

总体架构：基于 W-MAM 块，我们构建了 MixCvT 的分层 MixFormer 跟踪器。MixCvT 的主要思想是逐步提取目标模板和搜索区域的耦合特征，并深入执行它们之间的信息集成。基本上，它包括两个组件：由迭代 W-MAM 组成的主干，以及用于生成目标边界框的简单定位头。特别是，虽然探索了两种不同类型的定位头，包括普通角头和基于查询的头，但 MixCvT 采用了普通角头，因为它具有良好的性能。与其他流行的跟踪器相比，通过将特征提取和信息集成的步骤解耦，它仅使用单个主干和跟踪头，而无需显式集成模块或任何后处理，从而实现了更紧凑、更整洁的跟踪管道。总体架构如图 3 所示。

基于 W-MAM 的主干：基于 W-MAM 的主干采用渐进式多阶段架构设计。每个阶段由个 MAM 层组成，这些 MAM 层在具有相同通道数的相同缩放特征图上运行。所有阶段都共享类似的架构，该架构由重叠的补丁嵌入层和 Ni 宽的混合注意模块组成。

具体来说，给定个模板（即第个模板和个在线模板），大小为，以及一个搜索区域（根据先前的目标状态裁剪的区域），大小为，我们首先使用步幅为 4、内核大小为 7 的卷积令牌嵌入层将它们映射到重叠的补丁嵌入中。在每个阶段引入卷积令牌嵌入层，以提高通道分辨率，同时降低空间分辨率。然后，我们展平补丁嵌入并将它们连接起来，得到一个融合的标记序列，大小为 (，其中等于 64 或 192，和为 128，和在 MixCvT 中为 320。之后，连接后的标记经过目标搜索 MAM 执行特征提取和目标信息合并。最后，我们得到大小为 ( 的标记序列。有关 MAM 主干的更多详细信息，请参见第 IV-A 节和表 II。在传递给预测头之前，搜索标记被拆分并重塑为的大小。特别是，为了简单起见，我们不采用其他跟踪器（例如 SiamRPN++ [43]）中常用的多尺度特征聚合策略。

基于角点的定位头：受 STARK [84] 中角点检测头的启发，我们采用全卷积基于角点的定位头直接估计被跟踪对象的边界框，仅使用几个 Conv-BN-ReLU 层分别对左上角和右下角进行预测。最后，我们可以通过计算角点概率分布的期望来获得边界框 [46]。与 STARK 的不同之处在于，我们的是全卷积头，而 STARK 高度依赖于编码器和解码器，设计更为复杂。

基于查询的定位头：受 DETR [8] 的启发，我们建议使用一个简单的基于查询的定位头。这个稀疏定位头可以验证我们的 MAM 主干的泛化能力，并产生一个纯粹的基于 Transformer 的跟踪框架。具体来说，我们在最后阶段的序列中添加了一个额外的可学习回归标记，并使用该标记作为锚点来聚合来自整个目标和搜索区域的信息。同时，在与基于 MAM 的主干中的搜索标记和目标标记交互期间，位置信息被解码为回归标记。最后，使用三个完全连接层的 FFN 直接回归边界框坐标。这个框架也不使用任何后处理技术。

C. 普通MixFormer：MixViT

总体架构：为了享受最近的自监督预训练（例如 MAE 和 ConvMAE）的好处并提高跟踪效率，我们构建了一个简单的非分层跟踪器，称为 MixViT。MixViT 的架构如图 3(b) 所示。MixViT 由一个补丁嵌入层、几个 Slim 混合注意模块 (S-MAM) 和一个顶部的新金字塔角头组成。在本节中，我们描述了基于 S-MAM 的主干、MixViT 的不同位置嵌入和定制的金字塔角头。

基于 S-MAM 的主干：与 MixCvT 跟踪器相比，MixViT 跟踪器进行了以下调整。首先，MixViT 的主干是非层次化的、单阶段的，由单个非重叠的补丁嵌入层和多个 S-MAM 组成。这避免了 MixCvT 中高分辨率阶段的大量标记，从而保证了更高的跟踪效率。其次，我们探索了不同类型的目标位置嵌入，并搜索标记以明确编码绝对位置信息。第三，由于 MixViT 主干具有与原始视觉Transformer [23] 相同的可训练权重，因此它可以与最近的 ViT 开发兼容，例如 MAE 预训练。

首先，给定个大小为的模板和大小为的搜索区域，我们使用卷积标记嵌入层将它们映射到非重叠的补丁嵌入中，其中内核大小为 16，步长为 16。然后，我们分别将两个不同的位置嵌入添加到搜索区域和模板补丁嵌入中。如第 III-C 节所述，实验了三种不同类型的位置嵌入。接下来，我们将大小为的模板和大小为的搜索区域标记连接起来，并将它们输入到 Slim 混合注意模块中。最后，准备将分割的搜索区域标记输入到定位头。

位置嵌入：我们在本文中研究了三种类型的位置嵌入，以对目标和搜索区域位置建模进行全面检查。对于这三种类型，我们对目标和搜索区域使用两个不同长度的位置嵌入。这三种位置嵌入之间的区别在于初始化方法和是否可学习。对于第一种类型，我们采用 2D 双线性插值来插值来自 MAE 预训练 ViT 模型的预训练位置嵌入。并且嵌入在训练过程中设置为冻结。对于第二种，采用与第一种相同的初始化方法。但是，嵌入被设置为可学习的，以实现动态调整。对于最后一种，我们使用 vanilla ViT [23] 中采用的冻结正余弦位置嵌入。

金字塔角头：由于 MixViT 采用非层次化主干，可能缺少多尺度信息，因此我们仅从 MixViT 主干的最后一个特征图设计了一个金字塔角头。金字塔头的结构如图 4(c) 所示。具体来说，我们首先通过多个卷积层和插值层构建特征金字塔，从而生成三个不同分辨率的特征图。然后，通过卷积层融合多尺度特征图以获得鲁棒表示。我们发现，与 MixCvT 中使用的普通角头相比，金字塔角头可以获得更好的性能，如实验所示。

D.MixFormer 的预训练

在这项工作中，我们发现骨干的预训练在构建有效的 MixFormer 跟踪器中起着重要作用。得益于注意力操作的灵活性，在 ImageNet 上用于图像分类的预训练 CvT 或 ViT 模型可以直接用于初始化我们的 MixFormer 跟踪器骨干的权重。我们为 MixFormer 框架探索的预训练方法如表 I 所示。具体来说，我们研究了 MixCvT 的不同监督预训练模型，以及 MixViT 的监督和自监督预训练模型。受掩蔽预训练 [33] 出色表现的启发，我们进一步在跟踪中常用的训练数据集（即 LaSOT [25]、TrackingNet [62]、GOT-10k [37] 和 COCO [51]）上设计了一个掩蔽自动编码器，并将其用作 MixViT 的预训练权重。

在 ImageNet 上进行监督预训练：对于 MixCvT，在 ImageNet-1k 或 ImageNet-22k 上训练的 CvT 模型权重用于初始化 MixCvT 主干。在 ImageNet-22k 上进行预训练比在 ImageNet-1k 上提供更强大的视觉表示。对于 MixViT，我们通过最近的 DeiT3 [68] 模型进行监督预训练，该模型在 ImageNet-1k 和 ImageNet-21k 上成功训练了高性能的 vanilla ViT 模型。值得注意的是，我们在使用 DeiT3 进行预训练时在 MixViT 的转换器块中添加了 LayerScale 以保持一致性。

在 ImageNet 上进行自监督预训练：受掩蔽自动编码器 (MAE) 预训练 [33] 的巨大成功及其在物体检测 [47] 中的应用的启发，我们还研究了 MixViT 中的 MAE 预训练。为了更好地研究监督和自监督预训练所学习到的表示之间的差异，我们在 IV-B3 节中通过改变 ViT 深度对预训练的效果进行了详细研究。我们观察到监督预训练和 MAE 预训练的不同行为，其中监督预训练模型倾向于在后期学习高级语义表示，而 MAE 预训练模型似乎专注于逐步学习所有层的低级信号结构。因此，在监督预训练模型中减少几层会导致非常小的性能下降，因为后期的高级语义特征对跟踪贡献很小。此外，我们通过借用 MAE 解码器中的变压器块，进一步增加 MAE 预训练 ViT 的深度，并获得进一步的性能提升。

为了结合掩蔽预训练和渐进式建模的视觉归纳先验的优势，我们进一步探索了 MixViT 跟踪器中的 ConvMAE [29] 预训练。ConvMAE 预训练模型的架构与普通 ViT 类似，不同之处在于它用轻量级 CNN 替换了原始的单层跨步补丁嵌入，以实现渐进式补丁嵌入。因此，我们可以通过简单地将补丁嵌入层更改为相应的 CNN，轻松地将 ConvMAE 预训练模型适配到我们的 MixViT。使用 ConvMAE 预训练的修改后的 MixViT 由三阶段补丁嵌入 CNN、S-MAM 的普通 ViT 编码器和金字塔角头组成。补丁嵌入 CNN 使用简单的卷积块分别将搜索和模板转换为标记嵌入。ViT 主干设计的细节与原始 MAE 预训练类似，如表 III 所示。

在跟踪数据集上进行简单的 MAE 预训练：受到 MAE 预训练 [33] 的出色性能及其在训练样本上的数据效率 [67] 的启发，我们想知道是否能够仅在常见的跟踪数据集上使用 MAE 对我们的 MixVit 进行预训练，而无需使用大规模 ImageNet 数据集。首先，我们通过直接在跟踪数据集上预训练一个带掩码的自动编码器来设计一个简单的 MAE 基线，并使用该预训练的 MAE 初始化我们的 MixViT。具体来说，我们首先在常用的跟踪训练数据集（包括 LaSOT、TrackingNet、GOT-10 k 和 coco）上训练一个带掩码的自动编码器，然后在相同的跟踪数据集上微调 MixViT。训练带掩码的自动编码器的主要过程与 MAE [33] 保持一致，数据集和数据增强除外。令人惊讶的是，我们观察到，仅在跟踪数据集上进行自我监督预训练的 MixViT 的表现远胜于从头开始训练的表现。

TrackMAE 在跟踪数据集上的预训练：为了更好地将 MAE 预训练适应我们的 MixViT 跟踪器，我们提出了一种新的自监督视觉对象跟踪预训练方法，称为 TrackMAE，如图 5 所示。TrackMAE 继承了随机丢弃标记并重建掩码标记的简单管道。然而，为了使其更适合跟踪框架并缩小跟踪器预训练和微调之间的差距，搜索图像被以一定的掩码率（本工作中为 75%）掩码，而模板完全可见并被放置以进行信息集成。然后，解码器重建搜索图像的不可见部分。这个范例背后的一个事实是，只有当搜索的可见标记能够聚合相应的目标标记时，未掩码的模板才可以帮助重建搜索区域。因此，在自监督重建过程中，模型的目标和搜索标记之间的匹配能力得到增强。特别是，我们仅使用跟踪数据集进行 TrackMAE 预训练。

E.训练和推理

训练：MixFormer 的训练过程遵循当前跟踪器 [12]、[84] 的标准训练方法。我们首先分别使用 CvT 模型 [77] 和 MAE [33] 的编码器对我们的 MixCvT 和 MixViT 主干进行预训练，然后在跟踪数据集上对整个跟踪框架进行微调。对于 MixCvT 训练，采用损失和广义 IoU 损失 (GIoU) [64] 的组合，如下所示：

其中和是两个损失的权重，是真实边界框，是目标的预测框。对于 MixViT 训练，我们用 Complete-IoU (CIoU) 损失 [93] 替换 GIoU 损失。

模板在线更新：在线模板在捕获时间信息和处理对象变形和外观变化方面起着重要作用。然而，质量差的在线模板可能会导致跟踪性能下降。因此，我们引入了图 6 中描述的分数预测模块 (SPM)，以选择由预测置信度分数确定的可靠在线模板。SPM 由两个注意块和一个三层感知器组成。首先，可学习的分数标记作为查询来关注搜索 ROI 标记。它使分数标记能够对挖掘的目标信息进行编码。接下来，分数标记关注初始目标标记的所有位置，以隐式地将挖掘的目标与第一个目标进行比较。最后，分数由 MLP 层和 S 形激活产生。当在线模板的预测分数低于 0.5 时，该模板被视为负数。对于 SPM 训练，它是在主干训练之后进行的，我们使用标准交叉熵损失：

其中是真实标签，是预测的置信度分数。

推理：在推理过程中，多个模板（包括一个静态模板和个动态在线模板）与裁剪的搜索区域一起输入 MixFormer 跟踪器以生成目标边界框和置信度得分。我们仅在达到更新间隔时更新在线模板，并选择置信度得分最高的样本。特别是，预测的边界框作为最终输出，无需进行余弦窗口或边界框平滑等后处理。

实验

A. 实施细节

我们的跟踪器使用 Python 3.6 和 PyTorch 1.7.1 实现。MixFormer 训练在 8 个 Tesla V100 GPU 上进行。特别地，MixFormer 是一款简洁的跟踪器，无需一些后处理策略。MixCvT 和 MixViT 的推理是在 Quadro RTX-8000 GPU 上执行的。

架构：如表 II 所示，我们通过改变每个阶段的 WMAM 块数量和隐藏特征维度，实例化了两种类型的 MixCvT 跟踪器，分别记为 MixCvT 和 MixCvT-L，具有不同的参数和 FLOP。MixCvT 和 MixCvT-L 的主干分别使用在 ImageNet [22] 上预训练的 CvT-21 和 CvT24-W [77]（使用前 16 层）进行初始化。此外，如表 III 所示，我们通过改变 S-MAM 块数量和隐藏特征维度，实例化了两种 MixViT 模型，即 MixViT 和 MixViT-L。MixViT 和 MixViT-L 的主干权重使用相应的 MAE 编码器进行初始化。此外，我们尝试使用具有与普通 ViT 相当的参数和 Flops 的 ConvMAE 预训练来初始化 MixViT。

训练：训练集包括 TrackingNet [62]、LaSOT [25]、GOT-10k [37] 和 COCO [51] 训练数据集，与 DiMP [4] 和 STARK [84] 相同。而对于 GOT-10 k 测试，我们仅使用遵循其标准协议的 GOT-10 k 训练分割来重新训练我们的跟踪器。MixFormer 的整个训练过程包括两个阶段，其中包含前 500 个 epoch 用于调整骨干和头部，以及额外的 40 个 epoch 用于分数预测头部调整。对于 MixCvT 训练，我们使用 ADAM [39]，权重衰减为。学习率初始化为，并在 400 个 epoch 时降低到。搜索图像和模板的大小分别为像素和像素。对于数据增强，我们使用水平翻转和亮度抖动。对于 MixViT 训练，我们使用 ADAMW，权重衰减为，权重衰减学习率为，并在第 400 个 epoch 降低到。在 MixViT 设置中，搜索图像和模板的大小分别为像素和像素。在 MixViT-L 设置中，为了提高跟踪器的表示能力，搜索图像和模板的大小分别设置为像素和像素。

推理：我们使用第一个模板和多个在线模板以及当前搜索区域作为MixFormer的输入。默认情况下，当达到200的更新间隔时，动态模板就会更新（更新间隔因不同的测试数据集而略有不同）。选择间隔内预测得分最高的模板来替换前一个模板。

B. 探索研究

为了验证有效性并对我们提出的 MixFormer 跟踪器（即 MixViT-L、MixViT、MixCvT-L 和 MixCvT）和预训练方法进行彻底分析，我们对大规模 LaSOT 数据集进行了详细的消融研究。AUC 被用作评估指标。

1）混合注意力模块研究：

同时处理与单独处理：由于我们的MixFormer的核心部分是将特征提取和目标信息集成过程统一到一个模块中，我们将其与单独的处理架构（例如TransT [11]）进行了比较。比较结果如表IV #0，#1，#2和#3所示。#0的实验是我们的MixCvT，没有多个在线模板和非对称机制，用MixCvT-Base表示。#1和#2的实验是端到端跟踪器，包括一个基于自注意的主干，n个用于执行信息集成的交叉注意模块和一个角头。#3是以CvT为主干，TransT的ECA + CFA（4）为交互的跟踪器。MixCvT-Base以较小的参数和FLOP将#1（使用一个CAM）和#2（使用三个CAM）的模型大大提高了8.6％和7.9％。这证明了统一特征提取和信息集成的有效性，因为它们可以相互受益。为了直观地展示我们的 MAM 的判别能力，我们在 IV-C 节中提供了一些注意力权重的可视化结果。

MAM 阶段研究：为了进一步验证 MAM 的有效性，我们进行了表 IV #0、#4、#5、#6 和 #7 中的实验，以研究 MixCvT 中不同数量的 W-MAM 的性能。我们将我们的 W-MAM 与没有跨分支信息通信的自注意操作 (SAM) 进行了比较。我们发现更多的 W-MAM 有助于提高 AUC 分数。这表明广泛的目标感知特征提取和分层信息集成在构建有效的跟踪器中起着至关重要的作用，这是通过迭代 MAM 实现的。特别是，当 W-MAM 的数量达到 16 时，性能达到 68.1，与包含 21 个 W-MAM 的 MixFormer-Base 相当。

非对称 MAM 研究：非对称 MAM 用于降低计算成本，并允许在在线跟踪期间使用多个模板。如表 V 所示，非对称 MixCvT-Base 跟踪器在实现相当性能的同时将运行速度提高了 24%，这表明非对称 MAM 对于构建高效的跟踪器非常重要。

2）结构设计研究：

从 MixViT 到 MixCvT 的演变：为了公平地比较分层跟踪器 MixCvT 和非分层跟踪器 MixViT，我们在没有任何预训练（即从头开始训练）的情况下使用相同的普通角头进行消融研究。我们旨在探索 MixCvT 主干是否表现出渐进式下采样和局部建模优于 MixViT 主干，我们逐渐将 MixViT 演变为 MixCvT，如表 VI 所示。为了公平比较，表 VI 中的所有模型都是从头开始训练的，使用普通角头，并且没有在线方案部署。值得注意的是，原始 MixCvT 中的批量归一化被层归一化取代，否则性能极差。表 VI 中具有 12 个 S-MAM 模块的模型 #1 在没有多阶段策略和深度卷积投影的情况下获得了 56.2 的 AUC。当将其扩展为具有三个卷积块嵌入的多阶段模型（如 MixCvT (#2)）时，AUC 得分增加了 2.6%。此外，当添加深度卷积投影 (#4) 时，AUC 得分略微增加了 0.2%。我们可以得出结论，在跟踪数据集上从头开始训练的设置下，MixCvT 获得了优于 MixViT 的性能，并且多阶段策略比深度卷积投影发挥了更重要的作用。

MixCvT 的定位头：为了验证 MAM 主干的泛化能力，我们使用第 III-B 节中描述的两种类型的定位头（普通角头头与基于查询的头）评估了 MixCvT。结果如表 VII 所示，其中第一行和第二行分别针对基于查询的头和普通角头。具有完全卷积角头的 MixCvT 优于基于查询的头。特别是，即使没有任何后处理和在线模板，带有角头的 MixCvT 也超越了最先进的 TransT 跟踪器。此外，带有查询头的 MixCvT（纯基于变压器的跟踪框架）的性能远优于 STARK-ST 的查询头（66.0 vs 63.7）。这些结果证明了 MixFormer 对不同定位头的泛化能力。

MixViT 的定位头：为了验证我们提出的金字塔角头在 MixViT 跟踪器上的有效性，我们评估了具有普通角头和金字塔角头的 MixViT 的性能，如表 VII 所示。表 VII 中的所有跟踪器都经过 MAE 编码器的预训练，并且在没有在线模板更新的情况下部署。当将普通角头替换为金字塔角头时，AUC 分数增加了 0.5。这表明了所提出的金字塔角头的有效性，它可以为非分层 MixViT 主干补充多尺度信息，以实现更好的对象定位。

MixViT 的位置嵌入：我们评估了第 III-C 节中提到的 MixViT 的三种位置嵌入类型。结果如表 VII 所示。所有跟踪器都使用 MAE 编码器进行了预训练，并且无需在线部署。我们可以看到，具有三种不同位置嵌入的 MixViT 模型实现了相当的性能，这证明了无论采用哪种位置嵌入的初始化方法以及是否将其设置为可学习，都没有关系。

3）预训练方法研究：

不同预训练方法的研究：基于 MAM 的主干预训练在 MixFormer 跟踪中起着重要作用。我们研究了 MixCvT 和 MixViT 的一些不同预训练方法，如表 VIII 所示。采用监督预训练或自监督预训练的 MixCvT 和 MixViT 的表现都比从头开始训练高出 9% 以上，这表明了预训练对于 MixFormer 跟踪器的重要性。采用 ImageNet-21k 预训练的 MixCvT 和 MixViT 获得的 AUC 高于采用 ImageNet-1k 预训练的 AUC，这表明了在更多监督下训练的语义特征的重要性。采用 MAE 自监督预训练的 MixViT 的表现优于采用 DeiT3 监督预训练的 MixViT。MixViT 仅使用跟踪数据进行 MAE（使用跟踪数据集而不是 ImageNet 进行训练）预训练，其性能与监督预训练相当，并且大大超过了从头开始训练的性能。同时，我们提出的 TrackMAE 比仅使用跟踪数据的 MAE 预训练高出 0.9。这表明为跟踪框架设计定制的自监督预训练管道是有意义的，从而缩小预训练和微调之间的差距。我们可以得出结论，我们的 TrackMAE 比 vanilla MAE 更适合用于跟踪器预训练，因为它可以提高模型的匹配能力。这种范式还为未来的研究人员提供了另一种选择，可以定制跟踪主干，而不仅仅依赖基础模型。

不同编码器和解码器层数的研究：为了更仔细地观察 Deit3 预训练和 MAE 预训练之间的差异，我们使用两种预训练方法研究了具有不同数量的 Transformer 层的 MixViT，如图 7 所示。图 7 中 X 轴上的“+DN”表示添加额外的 N 个 MAE 解码器（混合注意力）。对于 DeiT3 的监督预训练，8 层的 MixViT 达到了与 12 层的 MixViT 相当的性能。这表明监督预训练可能会学习与对象跟踪关系较小的高级语义特征。然而，对于 MAE 编码器的自监督预训练，我们看到了一条不同的曲线，12 层的 MixViT 比 8 层的 MixViT 提高了 2.6%。此外，我们添加了额外的 MAE 解码器，性能略有提升。我们假设最后几层提供的帮助很小，因为表示会逐渐调整以适应像素级重建任务。最后，我们惊讶地发现，使用 DeiT3 预训练的 4 层 MixViT 仍然获得了 63.4% 的高 AUC，并且运行速度极快，达到 300 FPS。由于层数很少的 MixFormer 可以给出类似的结果，因此出现了一种高效跟踪的新方法，即修剪主干的一些层，例如后续作品 MixFormerV2 [17]。

在线方案和 SPM 研究：我们评估了所提出的分数预测模块和在线方案的有效性。如表 IX 所示，使用在线模板的 MixCvT（按固定更新间隔采样）的性能比仅使用第一个模板的性能更差，而使用我们的分数预测模块的在线 MixCvT 获得了最佳 AUC 分数。具体而言，使用我们的 SPM 的在线 MixCvT 在 LaSOT 上将原始 MixCvT 的 AUC 提高了 0.9%。这表明，使用我们的分数预测模块选择可靠的模板至关重要，因为低质量的在线样本会给模板带来噪音。

C. 可视化结果

为了探索混合注意力在我们的 MixFormer 跟踪器中的工作方式，我们在图 8 中可视化了 MixCvT 的注意力图，在图 9 中可视化了 MixViT 的注意力图。从四种类型的注意力图中，我们得出：（i）背景中的干扰项被逐层抑制，证明了混合注意力对增强跟踪器判别能力的有效性；（ii）在线模板是对静态模板的补充，可能更适应外观变化并有助于区分目标和背景；（iii）多个模板的前景可以通过相互交叉注意力来增强（来自“OT-to-T Cross”可视化的第四行），（iv）某个位置倾向于与周围的局部补丁进行交互（来自“S-to-S Self。”可视化）。（v）与 MixCvT 的可视化结果相比，MixViT 产生了更清晰的注意力图，尤其是在最后的块中。我们认为这可能是由于不同的预训练方法造成的。

D. 与最先进的追踪器的比较

我们在七个基准测试中验证了我们提出的 MixCvT-1k、MixCvT-22k、MixCvT-L、MixViT 和 MixViT-L 的性能，包括 VOT2020 [40]、LaSOT [25]、TrackingNet [62]、GOT10k [37]、UAV123 [61]、TOTB [27] 和 OTB100 [78]。

VOT2020：VOT2020 [40] 包含 60 个视频，其中包括快速运动、遮挡等多项挑战。我们的跟踪器在数据集上进行了测试，并与最先进的跟踪器进行了比较。如表 X 所示，MixViT-L 在 EAO 标准上取得了 0.584 的最高排名，优于变压器跟踪器 STARK，EAO 幅度高达 7.9%。MixCvT-22k 和 MixViT-L 的表现优于其他跟踪器，包括 RPT（VOT2020 短期挑战赛冠军）。此外，使用 ConvMAE 预训练的 MixViT-L 获得的 EAO 低于 MixViT-L。我们分析这主要是因为 MixViT-L 与 ConvMAE 预训练删除了原始 ConvMAE 的最后三层，这可能缺少一些高级表示，从而对鲁棒性产生负面影响。

TOTB：TOTB [27] 是第一个具有多个挑战性属性的透明物体跟踪基准。具体来说，TOTB 由来自 15 个不同透明物体类别的 225 个视频（86 K 帧）组成。每个序列都用轴对齐的边界框手动标记。结果如图 10 所示。我们的 MixViT-L 的 AUC 得分达到 0.828，大大超过了 TransATOM 的 0.641，这表明所提出的跟踪器性能强劲。

LaSOT：LaSOT [25] 的测试集中有 280 个视频。我们在测试集上评估了我们的 MixFormer，以验证其长期能力。表 XI 显示，我们的 MixFormer 模型以很大的优势超越了所有其他跟踪器。具体来说，使用 ConvMAE 预训练的 MixViT-L 在 AUC 上取得了 73.3% 的最高排名，超过 ToMP [59] 4.8%，超过 SimTrack-L [9]（基于 ViT-Large）2.8%。为了进一步分析，我们在图 11 中提供了 LaSOT 的成功图和精度图。它证明了改进是由于更高的准确性和稳健性。

TrackingNet：TrackingNet [62] 提供超过 30 K 个视频，其中包含超过 1400 万个边界框注释。这些视频取样自 YouTube，涵盖现实世界中的目标类别和场景。我们在测试集上验证了 MixFormer 模型。从表 XI 中，我们发现使用 ConvMAE 预训练的 MixViT-L 在大规模基准上创下了新的最先进性能，AUC 为 86.3%。结果表明，所提出的框架对于跟踪是有效的。

GOT10k：GOT10k [37] 是一个包含超过 10000 个视频片段的大型数据集，其中有 180 个片段用于测试集。除了一般的移动物体和运动模式类之外，训练集和测试集中的物体类是零重叠的。如表 XI 所示，我们的 MixViT-L 在测试集上获得了最先进的性能，比 SBT-large 性能高出 5.3%。使用 ConvMAE-L 预训练的 MixViT-L 获得的 AO 低于使用 MAE-L 预训练的 MixViT-L，原因与 VOT2020 类似。

UAV123：UAV123 [61] 是一个大型数据集，包含 123 个序列，平均序列长度为 915 帧，是从低空无人机捕获的。表 XI 显示了我们在 UAV123 数据集上的结果。MixViT-L 和 MixCvT 的性能可与 ToMP-101 [59] 和 CSWinTT [66] 相媲美。

OTB-100：OTB100 [78] 是一种常用的基准，用于评估准确率和 AUC 分数的性能。图 12 展示了我们的跟踪器在这两个指标上的结果。MixCvT-L 的性能与最先进的跟踪器相比具有竞争力，在 AUC 分数上比 Transformer 跟踪器 TransT 高出 1.3%。使用 MAE 预训练的 MixViT 获得了最高的 AUC 分数 71.6%，准确率分数 94.4%。

VOT2022 挑战赛结果：我们还测试了我们的 MixFormer 跟踪器在 VOT2022 挑战赛中的表现。如表 XII 所示，我们的“MixFormerL”（即 MixViT-L 跟踪器）在 VOT2022-STb 公开挑战赛中排名 1/41。此外，我们注意到，由Lai Simiao实现的 MixForRGBD 和 MixForD 的 VOT2022-RGBD 和 VOT2022-D 获胜者都是基于我们会议版 [16] 的 MixFormer 构建的。这证明了所提出的 MixFormer 框架的有效性和泛化性。

总结

我们提出了 MixFormer，一种紧凑的端到端跟踪框架，具有迭代混合注意力，旨在统一特征提取和目标集成。混合注意力模块对目标模板和搜索区域执行特征提取和相互作用。我们实例化了两种类型的 MixFormer 跟踪器：MixCvT 的分层跟踪器和 MixViT 的非分层跟踪器。我们对 MixFormer 跟踪器的设计和预训练技术进行了广泛的研究。我们还将 MAE 预训练扩展到跟踪框架，并提出了 TrackMAE，以实现与大规模 ImageNet 预训练相媲美的性能。对七个常见跟踪基准的广泛评估表明，我们的 MixFormer 跟踪器比其他流行的跟踪器获得了显着的改进。

基于我们的广泛研究，我们根据以下几个发现总结了我们的 MixFormer 设计：i）最佳架构组合是配备大型基于 S-MAM 的主干、金字塔角头、MAE 预训练和在线分数预测模块的 MixViT-L，ii）自监督预训练在基于 MAM 的主干中起着关键作用，尤其是我们的 TrackMAE 在公平条件下的表现优于其他，因为它可以增强模型匹配能力，iii）我们发现网络深度对性能有显着影响，这可以鼓励研究人员探索修剪主干层以实现更有效的跟踪。

点击上方卡片，关注“AI学术工坊”公众号

各种重磅干货，第一时间送达

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487267&idx=1&sn=264bcfad120dfd92b30e8df143b2345e

AI学术工坊

分享最新AI资源