TPAMI 2024 | 非对称卷积:一种在多视觉任务中融合特征图的高效通用方法

文摘   2024-11-06 19:50   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:Asymmetric Convolution: An Efficient and Generalized Method to Fuse Feature Maps in Multiple Vision Tasks

非对称卷积:一种在多视觉任务中融合特征图的高效通用方法

作者:Wencheng Han; Xingping Dong; Yiyuan Zhang; David Crandall; Cheng-Zhong Xu; Jianbing Shen

摘要

在许多计算机视觉任务中,融合来自不同源的特征是一个关键部分。现有的方法大致可以分为无参数或可学习操作两类。然而,无参数模块在利用离线学习方面的能力有限,导致在一些具有挑战性的情况下表现不佳。可学习融合方法通常在空间和时间上都很耗费资源,尤其是在融合形状不同的特征时。为了解决这些缺点,我们对这两种融合方法的局限性进行了深入分析。基于我们的发现,我们提出了一个名为不对称卷积模块(ACM)的通用模块。该模块可以在特定任务中离线训练期间学习编码有效的先验知识,并有效地融合形状不同的特征图。具体来说,我们提出了一种数学等价方法,用于替换在连接特征上进行的昂贵卷积。这种方法可以广泛应用于不同形状的特征图融合。此外,与只能融合相同类型两个特征的无参数操作不同,我们的ACM是通用的、灵活的,并且可以融合不同类型的多个特征。为了证明ACM的通用性和效率,我们将其集成到三个代表性视觉任务的几个最先进模型中。在三个任务和几个数据集上的广泛实验结果表明,我们的新模块可以带来显著的改进和值得注意的效率。

关键字

  • 不对称卷积

  • 特征图

  • 融合特征

  • 视觉任务

一、引言

在计算机视觉的许多任务中,融合来自不同源的特征是一个基本组成部分。例如,跨模态任务,如视觉定位[17]、[24]、[53]和视觉问答[2]、[36],依赖于从多模态输入中提取的融合特征[3]、[48]、[57]。而特定目标的任务,包括视觉跟踪和视频目标分割,利用融合特征整合目标信息[23]、[42]、[50]。许多先前的工作[5]、[7]、[9]、[10]、[16]、[57]已经研究了融合方法,并提出了一些代表性的模块。Bertinetto等人[7]在Siamese网络中引入了交叉相关操作来融合从模板和搜索区域图像提取的特征图。Danelljan等人[16]通过从模板特征图中提取调制向量来实现相同的目标。Burceanu等人[9]提出了一种双路径方法,通过跟踪部分融合搜索和模板特征。Ye等人[57]使用交叉模态自注意力来融合自然语言特征和视觉特征图,等等。Marcu等人[5]提出了一种多任务超图方法,通过最少的注释改进多模态场景表示学习。这些操作大致可以分为两类:一类是无参数操作,包括[3]、[7]、[42],它们通常计算效率高。然而,由于它们无法适应多样化的情况,因此容易受到复杂挑战的影响。另一类是可学习的融合模块,如[6]、[16]、[48]、[57],它们可以从离线训练中受益,并显示出更好的适应性。然而,这些模块通常耗时且占用空间,尤其是当融合不同形状的特征图时。为了加深我们对现有融合方法局限性的理解,我们对现有融合方法的局限性进行了深入分析。

无参数操作的局限性:交叉相关(XCorr)是一种典型的无参数操作,用于融合两个不同形状的特征图,通常用于视觉目标跟踪[7]、[41]、[42]。它使用较小的特征作为卷积核,将其与较大的特征图进行卷积,以创建用于目标框预测的单通道特征图。Li等人[41]引入了深度相关(DW-XCorr)模块,用于多通道相关特征图生成,是许多方法中的核心操作[14]、[20]、[28]、[44]、[55]。因此,我们选择DW-XCorr作为无参数融合操作的代表性模块,以分析其在视觉跟踪任务中的局限性。

如前所述,DW-XCorr是一个手工制作的无参数模块,由于其在充分利用大规模离线学习方面的效率较低,因此在跟踪和融合特征方面面临挑战。它通常对具有均匀外观的目标和干扰物产生相似的响应。DW-XCorr特征图中像素的L1归一化可以揭示这种相似性。图1(a)中的热图显示,不仅在目标附近,而且在其他实例附近也有高响应。我们计算了目标和一个干扰物(绿色矩形)之间的余弦相似性,并发现相似性很高(cos θ > 0.8),表明DW-XCorr对两者都产生了相似的结果。这种相似性使得区域提议网络(RPN)[46]难以有效地区分目标和干扰物。另一个局限性是,在跟踪目标时,只有少数特征图通道被激活[41]。对于交叉相关,不同目标的特征需要在不同的通道中正交。这意味着只有少数相同目标的通道被激活,抑制了其他通道。最后,DW-XCorr经常产生与无关背景相关的响应,导致相关图模糊,没有清晰的边界。图1(b)中展示了一个例子。

可学习融合模块的分析:通常,可学习融合模块首先连接特征,然后使用可学习的模块进行融合。这些模块包括卷积[51]、[56]和注意力模块[48]、[57]。当特征具有不同的形状时,一种常见的连接方法是重塑或复制较小的特征,使其与较大的特征具有相同的形状,然后直接连接它们。更复杂的方法是逐元素连接,其中两个特征中的每个元素都被连接以构建更大的特征[48]。然而,所有这些方法都带来了更高的空间成本,并为随后的可学习模块带来了更大的计算负担。为了更好地理解可学习融合模块的成本,我们在图1(c)中为特定的指代表视频对象分割(R-VOS)任务说明了一种基于逐元素连接的方法。Seo等人[48]引入了一个跨模态注意力模块来融合视觉和语言特征。首先,它将每个空间位置的视觉特征fp和每个词嵌入el连接为cfpl = [fp; el] ∈ RC,其中C是通道数。然后,收集所有跨模态特征cpl并形成一个跨模态特征图CF =cfpl∀p, ∀l∈ RH×W×L×(C+C),其中W、H分别是视觉特征图F ∈ RH×W×C的宽度和高度,L是句子嵌入E ∈ RL×C的长度。最后,使用自注意力处理跨模态特征图,如图1所示。虽然这个过程是有效的,但它并不高效。它需要额外的空间(O((HWL)2))来存储自注意力中的亲和矩阵,并且这个可学习模块的计算复杂度是O((HWLC)2)。当视觉特征图(HWC)和句子嵌入(LC)扩展时,内存和计算负担变得非常重。

所有分析都指出需要一个通用且高效的模块,该模块可以通过在大规模数据上进行离线学习来学习融合特征图。本文介绍了一种名为非对称卷积(AC)的创新操作,该操作可以同时卷积几个不同形状的特征图并将它们融合。我们的贡献可以总结如下:

  • 不同形状特征融合的新机制:我们提出了一种新的、更有效的特征融合方法,称为AC。我们的方法涉及对两个或更多独立的特征图执行高效卷积,然后对生成的特征图进行广播求和。在数学上,我们的方法等同于之前对连接的特征图进行的卷积。

  • 克服无参数操作的局限性:AC增强了各种视觉任务中的区分特征,例如跟踪和单目3D目标检测,解决了无参数融合方法的局限性。

  • 通用且灵活的融合操作:AC是一种多功能操作,可以结合图像特征和其他类型的特征。这些包括先前信息,包括边界框大小、语言嵌入和相机的内在属性。在本文中,我们将基于AC的不同特征模态的融合模块称为ACM。

  • 高效的可学习融合模块:与以前的可学习模块相比,ACM在空间(O(WHC + LC))和计算复杂度(O(WHC^2 + LC^2))方面更有效,实现了更好的性能,同时减少了计算和推理时间。

  • 在各种视觉任务中的有效性:我们的基于ACM的模型在三个视觉任务上取得了显著的改进,这些任务是视觉跟踪、指代表视频对象分割和单目3D目标检测,以及几个代表性的基准测试。

这项工作显著扩展了我们之前的会议论文[1],进行了几项改进。先前的工作主要关注视觉跟踪任务,使用ACM融合从模板和搜索区域提取的特征。在这项工作中,我们研究了ACM在融合不同类型特征方面的通用性,并发现它可以轻松扩展到融合多模态信息。我们还将ACM集成到两个新的需要来自不同源的特征的视觉任务中,即指代表视频对象分割(R-VOS)和单目3D目标检测。我们提出了RefVOS-ACM和DD3D-ACM来证明ACM的通用性。此外,我们在代表性数据集Ref-Davis17和KITTI上评估了新模型。我们的实验表明,带有ACM的模型在基线上取得了显著的改进。最后,我们进行了一系列理论分析,深入分析了ACM的优势。我们发现ACM可以改善特征的表示空间,从而实现更强大的性能。将先验信息整合到视觉特征图中也可以增强模型的泛化能力。

Ⅲ 方法

本节介绍了在第三节A中提出的融合操作,即不对称卷积。除了融合视觉特征外,ACM还可以将非视觉信息纳入视觉特征图。我们在第三节B中讨论了这种能力。第三节C中对ACM的改进进行了理论分析。最后,我们通过将ACM模块整合到视觉跟踪、R-VOS和单目3D目标检测任务中,展示了改进。

A. 不对称卷积

与DW-XCorr和XCorr等无参数方法不同,我们研究了如何在大规模数据上训练融合方法。通过学习融合特征图,模型可以获得更丰富的先验信息。这允许融合方法更好地适应各种具有挑战性的情况,例如搜索任务中的运动模糊、变形、快速运动和复杂背景。然而,直接连接这些特征图存在问题,因为它们的大小不同。

一种直观的方法(图2(b))是首先将大尺寸特征图分割成与小尺寸特征图相同大小的子窗口。需要注意的是,每个子窗口应该是滑动窗口,以覆盖整个特征图。接下来,我们沿通道轴连接不同的子窗口和然后执行卷积操作以产生新特征。然而,这种方法计算量大,因为它需要对每个子窗口重复卷积操作。
我们为此问题提供了一个解决方案,称为不对称卷积(AC)。与直接卷积不同,AC对每个特征图使用两个独立的卷积。图2(c)显示了这一点。我们的不对称卷积由两个独立的卷积后跟一个求和组成,这等同于对子窗口的连接特征图进行直接卷积:
其中 的一个窗口, 是应用于 的核, 是应用于 的核。卷积操作后, 的形状为 。方程(1)显示左侧在数学上等同于右侧,这意味着它可以被两个独立的卷积和一个求和所替代。然后我们从 中的所有窗口收集特征以创建一个新的特征图,
其中 是一个广播求和。我们使用广播,因为它是处理不同形状矩阵的高效方式。广播在包括Numpy [31]和Pytorch [49]在内的科学计算包中广泛可用。它使用户能够通过虚拟复制较小数组(不复制任何内存中的数据,这引入的计算负担很小)来处理具有不同维度的数组,以便操作数具有匹配的形状 [31]。
此外, 中的所有子窗口共享相同的卷积。因此,我们通过将 替换为 来简化过程。这使我们能够同时对两个形状不同的特征图进行卷积操作。应用ReLU激活函数后,我们获得了新的融合 f(; ),这可以在训练期间进行优化:
如前所述,我们的AC方法从离线训练中受益,并克服了DW-XCorr等无参数方法的局限性。为了证明其增强的辨别能力,我们使用LaSOT数据集中的50k不同图像对进行了视觉目标跟踪分析。具体来说,我们计算了目标和干扰物基于AC和DW-XCorr方法生成的融合特征图之间的余弦相似性。为了完成这一点,我们将目标设置为搜索区域的中心,并找到最大响应作为干扰物的代表。然后我们计算了目标和干扰物特征之间的余弦相似性,以评估方法的辨别能力。如图3(a)所示,AC图为目标和干扰物产生了更具辨别力的特征,与DW-XCorr相比。此外,AC图比DW-XCorr包含更多的语义信息,如前述图1(b)所示。我们还使用相同的50k图像对验证了这一结论。我们首先通过将它们除以它们最高的全局值来使AC和DW-XCorr归一化。接下来,我们找到了每个通道的最高响应。然后,我们查看了所有通道的平均值,以比较图3(b)中的它们。这证明了AC通道在信息方面比DW-XCorr具有更多的多样性。此外,AC图比DW-XCorr更好地摆脱了不相关的背景,如前述图1(f)中所见。这使得RPN头部能够更准确地预测b框。

除了其有效性,AC在空间和计算复杂性方面仍然是一个高效的融合方法。如第一节所讨论的,我们选择了CAM [48],作为指代表达VOS任务中的代表性可学习融合方法进行比较。给定一个视觉特征图 和一个句子嵌入 ,AC的空间和计算复杂性分别为 。与CAM [48](空间和计算复杂性分别为 )相比,AC要高效得多。尽管计算负担较低,AC仍然可以实现比其它可学习方法更好的性能,将在第四节详细讨论。

B. 纳入非视觉信息

我们的AC不仅可以融合视觉特征图,而且能够将非视觉信息,如跨模态信息,纳入特征图。此外,对于许多任务,有一些先验信息可以提高性能,但这些信息并不总是编码在图像中,使模型难以使用。然而,AC可以有效地利用这些信息。非视觉信息可以提取成一维嵌入,可以被视为形状为 的特征图。因此,AC可以与视觉特征一起卷积,并生成跨模态特征图。
为了验证我们的融合方法的有效性,我们在MNIST数据集 [40] 上进行了简单的分析,以预测数字。如图5所示,我们将MNIST中的数字图像组合成一个 矩阵,并随机选择一个介于0和3之间的索引,以指示数字的位置。然后我们设计了一个网络,即ResNet-18,来预测给定位置的数字。为了纳入索引信息(一个单一数字),我们使用三层全连接网络提取索引特征,并使用我们的ACM与矩阵图像的特征图融合。然后我们将融合的特征输入预测网络。如图4(a)所示,没有使用索引信息时响应均匀很高。然而,在利用ACM整合索引信息后,响应变得更加集中在目标位置周围。尽管网络只给出了一个单一的索引数字,但它能够更好地区分目标位置,重点是属于目标的区域。因此,我们的网络能够准确预测给定位置的数字。

对于VOT和R-VOS任务,我们还展示了AC在注入非视觉信息方面的有效性。如图4(b)所示,在初始框的先验信息的帮助下,AC将激活区域集中在目标上。在图4(c)中,AC选择性地激活了由指代表达句指示的目标的特征。

C. ACM的理论分析

1) 不对称卷积增强了表示空间的鲁棒性: 我们可以得到不对称卷积的公式(3),它可以重写为:
根据具体公式,我们可以推导出这种不对称计算过程的系数。此外,我们使用ReLU作为相应的激活函数。不对称卷积可以表述为:
由于监督模式,不对称卷积提取的特征将肯定对应于真实标签。特征图 能够严格映射 ,例如 。这详细说明了两个流输入和目标之间的计算是完全不对称的。
因此,我们可以引入一个不对称核函数来近似我们提出的不对称卷积模块学习到的特征。
其中
形式上,我们可以通过组合积分核函数 来描述这个离散的复杂不对称函数,该函数处理图像域 上的向量位置编码。
其中 表示与 处不对称核的平均位置相关的狄拉克测度,而 表示Borel测度。 的存在确保了近似积分公式的精度。 之间独立的不对称计算可以被推导为一维高斯径向基函数(RBF)核 计算,这使得表示空间成为再生核希尔伯特空间[4]。RBF核满足 对于 。由于RKHS被定义为值函数有界 的希尔伯特空间。在RKHS中,我们可以从输出 反向传播以更新不对称核 的权重。随着RKHS的发展,我们得出结论,不对称卷积通过与 的不对称学习来提炼学习到的特征 ,有效地使表示空间更加健壮。
2)纳入先验优化了再生核希尔伯特空间中的传播: 同样,我们也可以得出纳入先验的公式:
其中 是先前信息。我们也可以近似ACM计算(7)来挖掘更多属性。
定理1. 有界性:假设ACM层满足条件 , ,并且ACM核可以转换为一维核以成为再生的。在迭代过程中, 被计算为ACM的输入和输出的特征图,且 之间的关系必须成立:
证明1. 通过这种方式,我们可以近似计算内部表示的传播结果,这些结果在 之间形成迭代。我们可以通过积分参考(8)重新构建 . 因此,传播可以导致以下连续模数表示:
我们可以将积分转换为假设 如下:
RKHS提供了一个强有力的先决条件,即通过 ,并且 是紧致的,存在 。我们可以采取 的替代品来产生结果。
(11) 结论1. 之间的界限反映了反向传播在整个内部表示中的稳定性。这证明了反向传播正根据不对称学习和非视觉先验连续更新。此外,值迭代之间的有界性将使学习到的特征更加可靠,使多流表示更加健壮,并增强了泛化能力。 ## D. ACM在视觉应用中 为了展示其通用性,本节将ACM集成到三个代表性的视觉任务中:视觉跟踪、R-VOS和单目3D目标检测。 ACM基础的跟踪器:为视觉目标跟踪设计的Siamese网络通常有两个分支,一个用于模板,一个用于搜索区域。两个分支共享相同的网络和参数,产生两个特征图,其中。在训练阶段,被优化以产生更具区分性的特征。然后使用函数组合特征图并生成相似性图,其中目标中心最有可能位于响应最高的位置上。最常用的函数之间的交叉相关(XCorr)操作
基于此,SiamRPN[42]是另一个基于Siamese的跟踪器,通过结合区域提议网络(RPN)[46]来提高性能,以产生跟踪序列中每一帧的b-boxes。为了生成多通道的相关图,SiamRPN使用逐深度交叉相关(UP-XCorr),这产生了一个不平衡的参数分布,使得训练优化具有挑战性。为了解决这个问题,SiamRPN++[41]引入了深度交叉相关(DW-XCorr)来有效生成多通道相关特征图,如图2(a)所示:
其中是两个特征图之间的逐深度卷积[34],是通道数。接下来,特征通过RPN头传递以产生最终的跟踪b-box。RPN头通常由一组1×1卷积层组成,包括分类模块,它预测每个b-box候选者的分类分数,以及回归模块,它获得每个b-box的细节(例如宽度和高度)。通过将这些头应用于相关图,我们可以产生分数图和b-box图
基于Siamese的跟踪器需要一种融合方法来组合特征,但XCorr和DW-XCorr都是无参数方法,这限制了它们从大规模训练中受益的能力。此外,它们有局限性,如第I节所讨论的。我们的提出的解决方案是非对称卷积模块(ACM),它引入了非对称卷积(AC)作为融合方法,表示为。参数可以在训练期间进行优化,允许AC学习更有效的特征融合方式。
如前所述,我们的ACM是灵活的,并且可以整合非视觉特征。我们展示了初始帧中目标b-box(宽度和高度)的先验信息的整合。值得注意的是,传统的RPN头没有关于目标边界框的确切先验信息,这些信息可以是任意形状的。ACM可以为RPN头提供有关初始b-box的额外先验信息,以实现准确的目标定位。然而,b-box信息是一维特征,不能直接输入到2D卷积网络中。我们将b-box信息视为具有大小的特定图像特征,其中代表通道数。这样,我们利用ACM将这些有用的先验与表示模板和搜索区域的标准高维视觉特征结合起来:
其中是初始帧的b-box,是一个三层全连接网络,参数为。在模板中,目标总是在图像中心,所以我们只需要b-box的宽度和高度。图4(b)比较了我们的基于ACM的跟踪器与基线(使用DW-XCorr)在目标只是部分对象(如手或身体)的示例帧上的表现。
我们将ACM集成到三个代表性的跟踪器中:SiamFC[7]、SiamRPN++[41]和SiamBAN[14],并分别命名为SiamFC-ACM、SiamRPN++ACM和SiamBAN-ACM:
我们的SiamFC-ACM:SiamFC[7]使用XCorr生成一个单通道的响应图。我们使用与SiamFC相同的网络来提取特征,并将由模板和搜索区域分支产生的特征图输入到ACM中,生成一个单通道的相关图。预测的目标中心通过识别具有最高响应的位置来确定。
我们的SiamRPN++ACM:对于SiamRPN++ACM,我们在原始SiamRPN++中用我们的ACM替换了DW-XCorr。具体来说,ACM结合了三个分支(模板、搜索区域和b-box)的特征,创建了一个相关特征图,如图6所示。我们对模板和搜索区域特征图应用两个5×5的卷积,不使用填充,以获得语义特征图。然后将这三个特征图(模板、搜索区域和b-box图)作为输入到RPN头。在推理过程中,模板和初始b-box保持固定,三个分支在广播求和之前保持独立。这使我们能够缓存两个分支(模板和b-box)以减少计算成本。

我们的SiamBAN-ACM:SiamBAN[14]方法不使用预定义的锚点,其性能优于其基线SiamRPN++,无论是在速度还是准确性方面。为了实现SiamBAN-ACM,我们对SiamRPN++ACM进行了上述更改,用ACM替换了DW-XCorr,应用于基线SiamBAN。
ACM基础的指代表视频对象分割(R-VOS):ACM可以受益于需要融合多模态特征的任务。为了展示这一点,我们将ACM集成到一个新的多模态任务R-VOS中。R-VOS是视频对象分割(VOS)[62]的一个子任务,它为每个帧生成目标的掩码。与传统的VOS不同,后者使用手动标记的首帧作为初始化,R-VOS是由语言指导初始化的。因此,多模态特征融合对于这项任务至关重要。
为了展示ACM在新任务中的有效性,我们选择了代表性的开源模型RefVOS作为我们的基线。如图7所示,RefVOS有两个分支。指代表分支从语言指导中提取目标信息。首先,使用一个通用的语言背景BERT[18]将指代表句转换为嵌入。然后,一个前馈网络降低了通道数以提高计算效率。另一个分支是视觉分支,其架构与DeepLabv3[12]相似,这是一个显著的分割模型。首先,背景提取输入图像的特征图。然后,具有不同扩张比率的卷积提取相同大小的不同感受野的特征。最后,这些特征图被连接并通过1×1卷积压缩成256个通道,与语言嵌入相同。

在原始的RefVOS中,视觉特征图和指代表嵌入通过逐元素乘法进行融合。具体来说,指代表嵌入首先在宽度和高度维度上重复,以达到与特征图相同的大小。然后,两个特征图进行逐元素乘法,成为多模态特征图。这个特征图被送入分割头并转换为二进制掩码。
在我们的实验中,我们用我们的ACM替换了原始模型中的逐元素乘法。得益于ACM的学习能力,视觉和自然语言特征可以被高效且有效地融合。
ACM基础的单目3D目标检测:为了展示ACM在实际应用中的多功能性,我们评估了其在自动驾驶领域的关键任务——单目3D目标检测中的有效性[64]。具体来说,我们使用了代表性的模型DD3D[61]作为基线模型,并采用了ACM作为融合模块来结合深度信息和相机的内在参数。图8展示了模型的架构。输入的前视图图像首先被背景网络处理以进行特征提取。接下来,具有不同分辨率的特征被传递到特征金字塔网络(FPN)进行多尺度融合。在FPN的每一层中,有几个共享的头部网络用于检测不同尺度的物体。与基线工作不同,我们添加了一个ACM融合模型,在相应的3D检测头之前进行特征融合。

深度估计单目3D目标检测的关键组成部分。由于在前视图中没有明确编码的深度信息,检测网络必须使用深度学习技术来估计物体的深度。先前的工作,如[61],已经采用了深度估计作为辅助任务,并使用了独立的头进行深度预测。然而,我们认为这种隐式过程无法充分利用深度先验。为了克服这个限制,我们采用了一个子网络来从预测的深度图中提取深度特征。最后,我们使用ACM融合了来自两种模态的特征图。
除了深度信息外,相机的内在矩阵也在3D目标检测中起着至关重要的作用。内在矩阵是从真实世界到相机坐标系统的转换矩阵。因此,不同的内在矩阵将导致即使给定相同的图像,真实世界中的坐标也会不同。先前的工作很少关注充分利用这些信息,因为这些参数很难与视觉特征图融合。然而,得益于ACM的融合能力,我们显式地将这些信息整合到了特征图中。如图8所示,ACM融合模块同时融合了来自三个源的特征,最终被送入3D检测头。

Ⅳ 实验

ACM是一个通用模块,可以整合到任何需要融合不同形状特征的方法中。如上所述,我们将ACM整合到三个代表性视觉任务中:视觉跟踪、指代表达视频对象分割和单目3D目标检测,并在五个不同的基线模型上进行了实验。我们在七个基准测试中评估了ACM:OTB-100[52]、TrackingNet[45]、VOT2016、VOT2019[39]和LaSOT[21]、Ref-Davis17[37]和KITTI[63]。在本节中,我们首先介绍所提出的模型的实现细节,然后在第四节A中展示了我们的模型在这些基准测试中的性能。我们还在第四节B中深入分析了ACM基础跟踪器在不同挑战场景下的性能。第四节C中的消融研究。
实现细节:我们的RefVOS-ACM模型是基于RefVOS开源模型使用PyTorch改编的。为了确保公平比较,我们保留了与原始模型相同的所有设置和训练数据集。我们在RefCOCO上预训练了所提出的模型,然后在RefDavis2017数据集的训练部分上对其进行了微调。我们基于代表性的基线模型DD3D[61]实现了DD3D-ACM模型。我们保留了与基线方法相同的所有训练和推理设置,除了架构设计。我们还使用了基线模型提供的预训练权重作为我们的初始权重。

A. 基准比较

我们在七个基准测试上评估了ACM:OTB-100[52]、TrackingNet[45]、VOT2016、VOT2019[39]和LaSOT[21]、Ref-Davis17[37]和KITTI[63]。以下是我们的模型在这些基准测试中的表现。

TrackingNet [45]:在表I中,我们比较了我们的三个跟踪器(SiamFC-ACM、SiamRPN++ACM和SiamBAN-ACM)与它们各自的基线(SiamFC、SiamRPN++和SiamBAN)在TrackingNet测试集上的表现。我们的跟踪器在各自的基线上持续改进。与KYS [11]和DiMP [8]相比,我们的SiamBAN-ACM在标准化精度(NP)上取得了更好的得分81.0。
OTB-100 [52]:图9(a)比较了OTB-100中所有100个视频的结果,按它们的AUC分数(图例中列出)排名。我们的SiamBAN-ACM表现优于所有其他跟踪器,AUC分数为72.0,比基线SiamBAN提高了2.5%。
LaSOT [21]:我们在包含280个长视频的测试集上测试了我们的方法。图9(b)显示了一个成功图,根据它们的AUC分数对跟踪器进行排名,这些分数在图例中列出。我们的方法,SiamBAN-ACM,优于最先进的跟踪器,通过提高AUC分数+5%超越了基线SiamBAN。

VOT 2016和2019 [39]:表I显示了VOT 2016和2019之间的比较。我们的SiamBAN-ACM在VOT2016上比之前最好的SiamBAN表现得更好,绝对增长了+4.4%的EAO。同样,在VOT 2019上,我们的三个跟踪器持续超越了它们的基线。
Refer-Davis2017:Davis17包含197个不同对象和89个视频,是VOS任务最具代表性的数据集之一。作为我们的基线模型,我们将数据集分为60个训练视频和30个验证视频。结果是在验证数据集上报告的。Refer-Davis17包含1544个表达式描述205个对象。在Refer-Davis17中使用了三个指标,区域相似性(J)、轮廓精度(F)以及它们的平均值(J &F)。在表II中,我们在两种表达类型上评估了我们的RefVOS-ACM,并与一些代表性模型进行了比较。结果表明,我们的模型在所有指标上都取得了最好的结果。与我们的基线相比,ACM在所有表达类型上带来了+6.63%的改进,在J &F上提高了+7.79%。

在图10中,我们展示了我们的RefVOS-ACM的几个结果。在前两行,我们的模型可以很容易地区分目标和背景对象,并为它们生成高质量的掩模。在第三排,场景中有很多干扰物。AC可以通过对穿着蓝色衣服的旋转的详细描述从它们中辨别出目标。在最后一行中,我们显示了来自同一场景的两个结果,但引用不同。通过ACM,我们的模型可以聚焦于正确的目标,并为它们预测完美的掩模。

KITTI [63]:KITTI是一个流行的3D目标检测基准。我们将训练集分为3,712个用于训练和3,769个用于验证,遵循[67]。基准测试有三个类别:汽车、行人和骑自行车的人,每个类别有三个难度级别:简单、中等和困难。大多数弱监督方法在验证集上使用IOU 0.5,在测试集上使用IOU 0.7。我们对验证集使用了相同的标准。如表III所示,我们使用APBEV和AP3D指标,以IOU阈值为0.5与几种最先进的方法进行了比较。我们的DD3D-ACM在所有三个难度级别上显著优于其他方法,证明了ACM融合模块的效率。

B. 不同挑战下的性能

为了评估我们的跟踪器在各种挑战下的性能,我们根据11种不同的属性评估了ACM基础跟踪器,这些属性包括:快速运动(FM)、背景混乱(BC)、运动模糊(MB)、变形(DEF)、光照变化(IV)、平面旋转(IPR)、低分辨率(LR)、遮挡(OCC)、平面外旋转(OPR)、视角外(OV)和尺度变化(SV)。这些属性如图11所示。总体而言,所有的ACM基础跟踪器都比它们的基线模型表现得更好,其中SiamBAN-ACM是其他最先进跟踪器中表现最好的。

根据成功率的阈值分布,ACM基础跟踪器通常在阈值较高时表现更好。这是因为ACM能够清晰地定位对象的边界,并且初始框先验信息为模型估计大小提供了准确的参考。然而,SiamFC-ACM有所不同,因为它主要在低阈值上优于其基线。这是因为SiamFC不回归框的大小,而是采用多尺寸图像搜索以匹配大小变化。ACM比XCorr操作具有更好的辨别能力,因此SiamFC-ACM比SiamFC具有更好的整体性能。但这种能力使其对大小变化不太敏感,以至于AC即使目标的大小与模板不同,也会产生高响应,最终导致在尺寸估计上的较差性能。
在光照变化、遮挡、运动模糊和变形序列中的性能提升尤为显著。我们将其归因于ACM的学习能力。这些属性将导致目标的外观发生严重变化,使得模型难以定位它们,而ACM可以在训练阶段学习处理这些情况,从而在这些场景中变得更加健壮。此外,我们发现我们的方法在快速运动序列上表现更好,因为ACM基础跟踪器能够为目标提供比基线模型更有信心的预测。通常,余弦窗口会惩罚前一帧中远离目标位置的对象,这是一种对大多数情况都有帮助的策略。但是当目标快速移动时,如果模型的信心低,这将导致错误的决定。因此,ACM基础跟踪器的高置信度在这些序列上实现了更好的性能。

C. 消融研究

我们进行了消融研究,分析了ACM在三个跟踪架构、R-VOS基准测试和KITTI基准测试中单目3D目标检测中的影响。
对于跟踪任务,我们在VOT2016和OTB-100数据集上进行了消融实验,遵循标准的评估协议。在VOT2016数据集上,跟踪器使用期望平均重叠(EAO)分数进行评估,该分数同时考虑了鲁棒性和准确性。在OTB-100上,跟踪器使用曲线下面积(AUC)分数进行评估,该分数平均了一定阈值范围内的重叠精度(OP)分数。OP指标表示在一定阈值下,真实边界框和跟踪器预测之间的交并比(IoU)大于某个特定阈值的帧的百分比。
表IV中提供了在这两个数据集上使用三个基线跟踪架构获得的结果。表中比较了速度(FPS)和FLOPs以评估效率。所有速度均在GTX1080Ti GPU上报告。在VOT2016数据集上,基线SiamBAN和SiamRPN++分别达到了50.5和46.4的EAO分数。当我们用我们的AC替换这两个基线架构中的DW-XCorr时,我们一致地提高了跟踪性能。我们的最终ACM,包括AC和先前的b框大小信息,在EAO上分别比各自的SiamBAN和SiamRPN++基线提高了4.4%和3.7%,仅增加了一小部分计算负担。对于基线SiamFC,我们的ACM只包含AC,没有额外的(非视觉)信息,因为SiamFC只需要预测目标的中心。我们的SiamFC-ACM比基线SiamFC实现了显著的6.1%的增益。我们的ACM基础跟踪器也在OTB-100上持续超越了它们各自的基线。作为ACM模型,额外的卷积被插入到基线模型中,确保它们具有相同的计算量。如卷积列所示,即使计算量相同,ACM模型也显著优于基线模型,证明改进是由于融合的改善。

表V显示了在R-VOS任务上的消融研究。根据结果,带有我们ACM的模型在两种表达类型上都取得了更好的性能。同时,我们的模型比原始模型更有效,以43 fps运行,比我们的基线快8 fps。表VI比较了DD3D-ACM的不同模块性能。“Depth”列表示通过ACM融合深度信息的模型。该模型在所有三个难度级别上都显示出显著的改进,特别是在Hard级别上,表明深度信息对于在困难情况下检测3D对象至关重要。“Intrinsic”列代表整合了相机内在先验的模型,并在所有三个级别上提高了性能。

V. 结论

在本文中,我们提出了一个名为ACM的可学习模块,用于高效地融合不同尺寸的特征图。ACM可以整合到许多需要融合不同特征的视觉任务中,例如跨模态任务和目标特定任务。我们在三个代表性视觉任务:视觉跟踪、R-VOS和单目3D目标检测中评估了ACM,并在七个基准测试中展示了其通用性。所有整合了ACM的模型都超越了它们各自的基线模型,证明了所提出模块的有效性。ACM还可以将侧面信息整合到视觉特征图中。在视觉跟踪中,我们利用了初始框信息,实验表明这可以带来显著的改进。在3D目标检测中,我们充分利用了内在先验来提高检测精度。深入研究ACM的理论,我们进行了一系列理论分析模块。不对称卷积提高了特征的鲁棒性,侧面信息使得预测更加可靠。除了上述三个代表性视觉任务之外,所提出的ACM还可以惠及其他有类似需求的视觉任务。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章