TPAMI 2024 | VST++：高效且强大的视觉显著性Transformer

文摘 2024-10-27 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

VST++: Efficient and Stronger Visual Saliency Transformer

题目：VST++：高效且强大的视觉显著性Transformer

作者：Nian Liu; Ziyang Luo; Ni Zhang; Junwei Han

摘要

尽管先前的基于CNN的模型在显著目标检测（SOD）方面展现出了有希望的结果，但它们探索全局长距离依赖性的能力受到限制。我们之前的工作，视觉显著性变换器（VST），从基于变换器的序列到序列的角度解决了这一限制，统一了RGB和RGB-DSOD。在VST中，我们开发了一个多任务变换器解码器，可以同时预测显著性和边界结果，采用纯变换器架构。此外，我们引入了一种新颖的标记上采样方法，称为反向T2T，以轻松预测高分辨率显著性图，而无需在基于变换器的结构中进行复杂的操作。在VST模型的基础上，我们进一步提出了一个高效且更强大的VST版本，即VST++。为了减轻VST模型的计算成本，我们提出了一个选择-集成注意力（SIA）模块，将前景划分为细粒度片段，并将背景信息聚合到一个粗粒度标记中。为了以低成本纳入3D深度信息，我们设计了一种针对深度图的新型深度位置编码方法。此外，我们引入了一个标记监督预测损失，以为与任务相关的标记提供直接指导。我们在各种基于变换器的主干网络上评估了我们的VST++模型，在RGB、RGB-D和RGB-T SOD基准数据集上进行了实验。实验结果表明，我们的模型在性能上超越了现有方法，同时实现了计算成本的25%降低，而没有显著的性能折衷。我们的VST++模型在泛化能力、增强性能和提高效率方面的强劲表现突显了其潜力。

关键字

多任务学习
RGB-D显著性检测
RGB-T显著性检测
变换器
显著性检测

I. 引言

显著目标检测（SOD）的目标是在图像中识别和分割最突出的目标。它可以用作预处理技术，以促进各种计算机视觉任务，例如弱监督学习[1]、[2]、人员重新识别[3]以及视频目标分割[4]、[5]、[6]。除了RGB图像，深度相机捕获的深度数据提供了宝贵的空间结构信息。RGB-D SOD利用这两种数据类型，近年来受到了越来越多的关注。

以前的RGB和RGB-D SOD方法主要是由卷积网络[7]主导的，即使用编码器-解码器CNN架构[8]、[9]，其中编码器通过预训练的主干网络[10]、[11]从输入图像中提取多层次特征，解码器则融合编码特征进行显著性预测。基于这种有效的架构，先前的工作主要集中于设计强大的解码器以准确生成显著性图。为此，他们提出了各种多尺度特征聚合方法[12]、[13]、[14]、[15]、多任务学习方案[16]、[17]、[18]、[19]、[20]和注意力机制[21]、[22]、[23]。对于RGBD SOD，一个额外的挑战是有效地融合跨模态线索，即RGB外观信息和深度信息。现有工作提出了许多跨模态融合方法，如注意力模型[24]、[25]、特征集成[14]、[26]、[27]、[28]、[29]、动态卷积[30]、图神经网络[15]和知识蒸馏[31]。因此，基于CNN的方法已经取得了有希望的结果，如[32]、[33]所总结。

然而，由于CNN的内在限制，先前的基于CNN的模型在探索全局长距离依赖性方面的能力有限，这被证明是显著性检测的一个关键因素，如全局上下文[21]、[34]、[35]、[36]、[37]和全局对比度[38]、[39]、[40]。尽管已经提出了全连接层[26]、[41]、全局池化层[21]、[37]、[42]和非局部模块[23]、[43]来缓解这个问题，但它们只是作为某些模块插入以探索全局线索，而标准的基于CNN的架构保持不变。

为了解决CNN的限制，[44]提出了变换器架构，以模拟机器翻译中单词序列之间的全局长距离依赖性。关键要素，即自注意力，计算序列中的查询-键相关性，并在编码器和解码器中的每一层进行层叠，从而允许在每个层的不同位置之间学习全局长距离依赖性。基于此，引入变换器到SOD以全面利用全局线索是自然的。

在我们2021年的ICCV版本[45]中，我们从新的序列到序列的角度重新思考SOD，并提出了第一个基于最近提出的Vision Transformer（ViT）模型[46]、[47]的纯变换器模型，以解决RGB和RGB-D SOD任务，即视觉显著性变换器（VST）。在ViT模型[46]、[47]中，每个图像最初被划分为一系列补丁作为补丁序列，然后进一步输入变换器模型以处理整个图像的全局长距离依赖性，而不依赖于任何卷积操作。然而，当遵循这种观点引入ViT进行SOD时，我们会遇到两个问题。一方面，SOD是一个与ViT模型解决的图像分类不同的密集预测任务，因此提出了如何基于纯变换器进行密集预测任务的开放问题。另一方面，ViT以粗粒度对图像进行标记，这与SOD对高分辨率预测的需求形成对比。因此，也不清楚如何将ViT适应于SOD的高分辨率预测需求。

为了解决第一个问题，我们提出了一个基于标记的变换器解码器，通过设计与任务相关的标记来获取与任务相关的决策嵌入。随后，这些标记被用来通过提出的新颖的补丁-任务-注意力机制生成密集预测，为在密集预测任务中应用变换器提供了一种新方法。此外，受到先前SOD模型[18]、[20]、[48]、[49]利用边界检测提高SOD性能的启发，我们构建了一个多任务解码器，通过结合显著性和边界标记来同时处理显著性和边界预测任务。这种方法通过关注学习特定于任务的标记来简化多任务预测过程，显著减少了计算开销，同时取得了改进的结果。为了解决第二个问题，受到Tokens-to-Token（T2T）变换[47]减少标记长度的启发，我们引入了一种新颖的反向T2T变换进行标记上采样。这种创新方法逐步上采样补丁标记，通过将每个标记扩展为多个子标记。随后，上采样的补丁标记与低级标记融合以生成完整的全分辨率显著性图。此外，采用了跨模态变换器，以全面挖掘RGB和深度线索之间的交互，用于RGB-D SOD。最终，我们的VST在RGB和RGB-D SOD基准数据集上的最先进SOD方法上证明了其优越性能。

尽管解决了上述问题，促进了ViT在SOD任务中的应用，VST模型仍然表现出一些局限性。为此，我们提出了一个新的改进版本，即VST++，从效率、性能和泛化的角度克服这些缺点。首先，自注意力所需的二次计算为VST带来了显著的高计算成本。为了提高模型效率，我们提出了一个选择-集成注意力（SIA）模块，基于最近的粗粒度全局注意力和细粒度局部注意力方法[50]、[51]、[52]。对于SOD任务，前景区域对于准确分割是必要的，而背景区域也提供了有用的上下文线索，但是它是多余的。为此，我们提出选择前景区域，保持它们的细粒度片段，并将背景区域集成到一个粗粒度的全局标记中。通过这种方式，我们保留了前景信息的准确性，同时也避免了对冗余背景区域的计算成本。其次，传统的正弦位置编码（PE）仅考虑x和y维度，忽略了RGB-D数据的重要深度信息。为了解决这一限制，我们设计了一种新的深度位置编码，特别适用于深度图，从而以简单轻量的方式将3D深度线索引入解码器。第三，我们通过引入额外的损失函数来提高模型性能。从VST的结果中，我们观察到预测严重依赖于补丁标记，而显著性和边界标记只编码了辅助任务相关信息。我们假设这个问题源于缺乏对显著性和边界标记的直接监督。因此，我们提出了一个标记监督预测损失，以为与任务相关的标记提供直接的监督。第四，我们验证了VST++在不同变换器主干网络上的泛化能力，并在一个新的多模态SOD任务上，即RGB-T SOD上进行了验证。这些全面的实验无疑展示了我们的VST++模型在不同网络规模和数据模态上的能力。

在我们之前的VST模型[45]中，我们主要有三个贡献。r据我们所知，我们的VST是第一个使用纯变换器架构的先驱模型，用于从新的序列到序列建模角度统一单模态和多模态基于SOD。r我们提出了一个多任务变换器解码器，通过设计与任务相关的标记和补丁-任务-注意力，同时执行显著性和边界检测。r作为CNN架构中常用的双线性上采样的替代品，我们引入了一种新颖的反向T2T标记上采样方法，在纯变换器框架下展示了其有效性。

在这项工作中，我们进一步做出以下贡献：

我们提出了一个SIA模块，通过将前景划分为细粒度片段，将背景信息聚合到单个粗粒度标记中。这种方法在不显著影响性能的情况下将计算成本降低了25%。
我们为RGB-D SOD引入了一种新颖的深度位置编码，作为传统2D空间PE的补充，以简单的方式在解码器中引入深度线索。
我们引入了一个标记监督预测损失，通过为与任务相关的标记提供直接监督，进一步增强了模型性能。
我们进一步验证了我们提出的VST++模型在不同主干架构上的有效性，并在RGB-T SOD任务上进行了验证。我们最终的结果在几个广泛使用的RGB、RGB-D和RGB-T SOD基准数据集上展示了新的最先进性能，标志着基于变换器的模型在SOD上的巨大潜力。

III. VST++

如图1所示，提出的VST++模型由三个关键组件组成，即依赖于T2T-ViT的变换器编码器，将编码器空间中的补丁标记转换为解码器空间的变换器转换器，以及具有选择-集成注意力（SIA）模块的多任务变换器解码器，以减少计算成本。

A. 变换器编码器

在基于CNN的SOD方法中，通常使用预训练的图像分类模型（例如，VGG[10]和ResNet[11]）作为特征提取器。在这项工作中，任何预训练的变换器主干都可以用作我们的编码器，例如T2T-ViT[47]和Swin Transformer[50]。这里我们采用T2T-ViT作为我们的默认骨干编码器，并详细描述其架构。

1) 标记到标记：

给定输入图像，其中、和分别代表高度、宽度和通道数，T2T-ViT最初将嵌入到长度为的补丁标记序列中，使用软分割操作。随后，补丁标记经历了一系列标记到标记（T2T）模块，每个模块由重构操作和软分割操作组成。

重构：

在重构步骤中，输入标记经历了多头自注意力和多层感知机，以产生新的标记序列，其中表示T2T模块的索引。在每个块之前应用层归一化。为了恢复空间结构，被重塑为2D图像，其中，如图2(a)所示：

这里，MSA表示多头自注意力，MLP表示原始变换器中的多层感知机。

软分割：

对于软分割步骤，被划分为补丁，重叠个像素。还应用了个像素的零填充以填充图像边界。之后，图像补丁被展开成一系列标记，其中序列的长度定义如下：

引入重叠补丁分割通过建立邻近补丁之间的相关性来引入空间先验，这与原始ViT[46]不同。

T2T变换可以多次迭代。在每次迭代中，重构步骤首先将前面的嵌入转换为新的嵌入，在所有标记之间建立长距离依赖性。在软分割操作期间，标记在每个邻居中合并成新的标记，并将用于下一层。可以通过设置逐渐减少标记的长度。按照[47]，我们首先软分割输入图像为补丁，然后应用T2T模块两次。重叠设置为，补丁大小定义为，填充大小指定为对于三个软分割步骤。经过这三个步骤，我们可以获取多级标记，即、和，其中、，和。如[47]所述，我们在上使用线性投影层，将其嵌入维度从改变为。

2) 带有T2T-ViT骨干的编码器：

为了编码2D位置信息，我们在最终的标记序列上添加正弦位置嵌入。此外，使用LE变换器层在之间建立长距离依赖性，从而创建强大的补丁标记。

对于RGB SOD，我们使用单个变换器编码器从每个输入RGB图像中派生RGB编码器补丁标记。在RGB-D SOD的情况下，我们使用双流架构以整合额外的变换器编码器。这个编码器负责从输入深度图中提取深度编码器补丁标记，遵循与RGB编码器相似的程序。这个过程的概述如图1所示。

B. 变换器转换器

在变换器编码器和解码器之间，我们引入了一个转换器模块，将编码器补丁标记从编码器空间转换为解码器空间。因此，我们获得了转换后的补丁标记，然后可以在解码器中用于后续处理。

1) RGB-D转换器：

为了整合RGB和深度数据之间的互补信息，我们开发了一个跨模态变换器（CMT），它包括LC交替的跨模态注意力层和自注意力层，以在RGB-D转换器中融合和。

跨模态注意力：

按照纯变换器架构，跨模态注意力层用于探索图像和深度数据之间的长距离跨模态依赖性。跨模态注意力遵循[44]中描述的自注意力格式，但是从不同模态生成查询、键和值。具体来说，我们使用生成键和值以增强，并使用生成键和值以增强：

其中表示softmax函数。分别是查询、键和值的投影权重。

我们采用[44]中描述的标准变换器架构，并在跨模态注意力中使用多头注意力机制。我们的CMT层还包括相同的位置前馈网络、残差连接和层归一化[100]。

在CMT之后，对每个RGB和深度补丁标记序列应用标准变换器层以增强其标记嵌入。最后，如图1所示，我们连接获得的RGB标记和深度标记，然后投影到最终转换后的标记。

2) RGB转换器：

为了与我们的RGB-D SOD模型保持一致，我们直接在上使用LC个标准变换器层，从而产生转换后的补丁标记序列。

C. 多任务变换器解码器

我们解码器的目标是将补丁标记解码以生成显著性图。为此，我们提出了一种新的标记上采样方法，具有多级标记融合和基于标记的多任务解码器。与我们之前的ICCV版本[45]不同，我们在最后两个解码器层中用我们提出的选择-集成注意力（SIA）替换了自注意力，它选择前景区域，将其分割为细粒度片段，并聚合背景信息到一个标记中。这种策略在结果上没有显著下降的情况下将计算成本降低了25%。此外，我们还在先前的密集预测方案之外引入了标记监督预测损失以增强显著性和边界标记的学习能力。对于RGB-D SOD，我们还提出了一种深度位置编码方法，以计算效率的方式在解码器中引入3D深度线索。

1) 标记上采样和多级标记融合：

由于的长度相对较小，即，我们认为直接从生成显著性图往往会限制密集预测性能并导致低质量结果。因此，我们采用了两步方法：首先，我们上采样补丁标记，然后与编码器特征进行融合以促进密集预测。与大多数基于CNN的方法中常用的双线性上采样方法不同[18]、[28]、[43]、[54]，我们提出了一种新的变换器框架内的标记上采样方法。受到T2T模块[47]逐渐减少标记长度的启发，通过合并邻近标记，我们提出了反向T2T（RT2T）变换来通过将每个标记扩展为多个子标记来上采样标记，如图2(b)所示。

首先，输入补丁标记首先被投影以减少其嵌入维度从到，然后使用线性投影将嵌入维度从扩展到。每个标记可以被视为一个的图像补丁，与软分割步骤中的重叠相邻补丁，使我们能够通过零填充来重建图像。输出图像的大小可以使用逆向方法(2)计算。具体来说，给定输入补丁标记的长度为，输出图像的空间尺寸为。最后，我们将图像重塑回获得的上采样标记大小，其中。

通过设置，RT2T变换促进了标记长度的增加。受到T2T-ViT的启发，我们三次使用RT2T，参数设置为，和。因此，补丁标记的长度可以逐步上采样以匹配，对应于原始输入图像的大小。

此外，受到现有SOD方法中多级特征融合的成就的启发[12]、[13]、[14]、[15]、[54]，我们利用具有较大长度的低级标记来提供精确的局部结构细节。对于RGB和RGB-D SOD，我们只使用来自RGB变换器编码器的低级标记。具体来说，我们逐渐通过连接和线性投影融合与上采样的补丁标记，表述为：

其中，[,]表示沿标记嵌入维度进行连接。“Linear”表示在连接后将嵌入维度减少到的线性投影。之后，另一个线性投影用于将的嵌入维度恢复到。

2) 基于标记的多任务预测：

以前的纯变换器方法[46]、[47]通常使用可学习的类标记进行图像分类。基于这个想法，我们也引入了与任务相关的标记来进行预测。然而，[46]、[47]使用MLP对类标记进行操作以生成分类概率，这不能直接应用于SOD的密集预测。因此，我们提出进行补丁-任务-注意力来聚合与任务相关的知识和执行SOD预测。

此外，受到最近在SOD模型中引入边界检测的进展的启发[18]、[19]、[20]、[49]，我们也遵循多任务学习方案，通过我们提出的新颖的基于标记的多任务解码器引入边界检测任务，以促进显著性预测的性能，通过对象和边界信息之间的交换来促进性能。

为此，我们设计了两个与任务相关的标记：显著性标记和边界标记。我们将它们与补丁标记序列连接，并使用变换器层进行处理。在每一层中，输入的两个任务标记用作前一层的输出，即：

在每一层中，自注意力用于交互两个任务标记和补丁标记。这种方法使得从图像补丁到两个任务标记聚合任务相关信息，并且也从任务标记到补丁标记传播特定于任务的信息。之后，我们上采样增强的补丁标记到层，并融合相应层的编码器补丁标记，如(4)中所述，获得补丁标记。然后，更新的任务标记被重用来进一步更新自身和下一层中的。这个过程重复进行，直到我们到达最终的解码器层，即尺度。

基于这两个任务相关的标记，我们进行密集预测以同时生成显著性和边界预测。具体来说，我们首先将嵌入到查询中，将嵌入到键和值中，用于显著性预测。类似地，对于边界预测，我们将嵌入到中，将嵌入到和中。然后，我们使用补丁-任务-注意力获得与任务相关的补丁标记：

由于每个方程中我们只有一个键，这里我们使用Sigmoid激活进行注意力计算。

随后，我们应用两个线性变换，使用Sigmoid激活将和映射到[0,1]范围内的单通道。结果随后被重塑为2D显著性图和2D边界图。我们重复这种预测，直到达到全分辨率层。在这一层，我们通过RT2T变换上采样1/4大小的补丁标记，以获得全分辨率补丁标记，并应用相同的密集预测方法。

3) 选择-集成注意力：

由于自注意力的二次计算成本，我们之前的VST模型[45]面临显著的计算挑战。从最近结合粗粒度全局注意力和细粒度局部注意力方法的工作中获得灵感[50]、[51]、[52]、[85]、[86]，我们设计了选择-集成注意力（SIA），专门针对降低解码器层中的计算负担。

在SOD任务的背景下，前景信息起着关键作用，背景信息提供了必要的上下文线索。为了在前景和背景之间取得平衡，我们将背景信息聚合到一个标记中，表示粗粒度片段，同时将前景区域划分为细粒度片段。

具体来说，我们使用SIA替换原始的自注意力，在第层中，我们首先引入上一步生成的显著性图，即。然后，我们对其进行上采样两次，并使用0.5的阈值进行二值化处理，以将其作为掩码进行处理。

对于细粒度片段，我们通过选择中的补丁来划分前景区域：

对于粗粒度片段，背景补丁对应于掩码中值为0的索引，通过平均池化集成到背景标记中：

之后，我们使用和两个任务标记的连接来生成查询，并使用、和任务标记的连接来生成键和值以执行交叉注意力：

其中MCA意味着使用标准的多头注意力[44]在交叉注意力(CA)中。我们提出的SIA结构如图3所示。

上述操作使我们能够通过考虑细粒度和粗粒度的上下文传播来构建我们的SIA。由于在第一阶段没有来自前一阶段的掩码，我们保留在(5)中使用的自注意力，并在1/16解码器层应用SIA。

假设解码器层包含个补丁标记，其中只有个前景标记，每个自注意力的计算复杂度为，而SIA的计算复杂度变为。由于，这种方法确保了节省计算成本，同时在前景区域保留准确信息，同时也保留了全局背景上下文。

由于我们的SIA打破了补丁标记的原始空间结构，我们对和采用了正弦位置编码[44]。此外，我们为显著性标记、边界标记和背景标记采用了三个可学习的位置编码。

值得注意的是，我们的SIA训练方法与测试方法不同。由于不确定选定的前景补丁数量，这阻碍了并行计算，我们仍然在训练期间使用所有补丁标记，并采用掩码注意力[96]来过滤背景补丁标记。

4) 深度位置编码：

SIA中的正弦位置编码包含了2D位置信息。然而，对于RGB-D SOD，我们还提供了3D深度结构，这在我们之前的VST模型[45]中被忽略了。因此，我们设计了一种新深度位置编码（DPE）方法，基于2D正弦位置编码。通过这种方式，我们也有效地将深度信息集成在解码器中，并没有改变整体架构，也没有像以前的双分支RGB-D SOD方法那样引入太多的计算成本。

我们主要解决的挑战是深度作为连续变量与2D坐标作为离散变量之间的差异。为了解决这个问题，对于每个解码器层，我们首先获得与空间尺寸相匹配的初始深度图的调整大小。接下来，我们将深度图归一化到[0,1]，然后乘以并四舍五入到最近的整数以获得离散深度图。这使得深度值具有与2D坐标相同的值范围。稍后步骤类似于正弦位置编码，表述为：

其中表示深度值，表示维度。此外，我们提出了三个可学习的缩放因子，即，用于三个解码器层，以建立DPEs相对于2D空间PEs的相对重要性。我们将每个缩放因子乘以相应的DPE，然后将其与2D空间PEs连接起来以获得3D PEs。3D PEs被添加到SIA或解码器层中的自注意力的查询和键中，以提供3D结构先验。

D. 损失函数

在我们之前的VST模型[45]中，我们只在每个解码器层的显著性和边界预测上采用了BCE损失，即和。然而，我们观察到预测直接从增强的补丁标记和通过两次线性变换获得。因此，密集预测与两个任务标记没有直接关系，可能阻碍了它们有效学习任务相关信息的能力。

因此，在本文中，我们提出了一个标记监督预测损失，直接为显著性和边界标记提供监督信号。具体来说，在每个解码器层中，我们直接对两个任务标记和补丁标记执行内积，从而生成两个分割预测和，表述如下：

接下来，我们使用Sigmoid激活并将它们重塑为2D显著性和边界图，以应用BCE损失。通过这种方式，梯度可以直接流向任务相关标记和，从而提高它们的学习效率。

总结，我们在每个解码器阶段的1, 1/4, 1/8和1/16层优化密集预测损失和标记监督预测损失，如下所示：

其中和分别代表显著性预测损失和边界预测损失的总数。和表示显著性和边界任务的地面真实。和实现为BCE损失。

最终的损失函数表述为它们的总和：

IV. 实验

A. 数据集和评估指标

对于RGB SOD，我们使用六个常用的基准数据集来评估我们提出的模型，如下所述。DUTS[101]是目前可用的最大的显著目标检测数据集，包含10,553训练图像和5,019测试图像。ECSSLD[102]包括1,000个语义上有意义的图像，而HKU-IS[103]由4,447个包含多个前景对象的图像组成。PASCAL-S[104]包含850个图像，这些图像收集自PASCAL VOC 2010数据集[105]。DUT-O[106]包括5,168个图像，SOD[107]包含300个图像。

对于RGB-D SOD，我们使用九个广泛使用的基准数据集进行评估。STERE[108]是第一个立体显著性数据集，包含1,000个图像。NJUD[109]包括1,985个从互联网、3D电影和照片中收集的图像。NLPR[110]、DUTLF-Depth[57]和SIP[111]是使用Microsoft Kinect、光场相机和华为Mate 10智能手机捕获的，分别包含1,000个、1,200个和929个显著人物图像。LFSD[112]、RGBD135[113]和SSD[114]是三个小规模数据集，分别包含100个、135个和80个图像。ReDWeb-S[66]包含3,179个图像，这些图像具有多样化和具有挑战性的视觉场景以及高质量的深度图。

按照最近的工作，我们使用四个广泛使用的评估指标来评估模型性能。结构度量 Sm [115] 考虑了区域级和目标级的结构相似性。最大 F-measure (maxF) 将 SOD 视为二元分类任务，并在不同阈值下同时考虑精确度和召回率。最后，它报告了在最优阈值下的最高分数。最大增强对齐度量 Emaxξ [116] 结合了项的局部像素值与图像级平均值，以捕获图像级统计信息和局部像素匹配信息。我们使用的最后一个度量是平均绝对误差 (MAE)，它计算了像素级平均绝对误差。同时，我们报告参数数量 (Params) 和乘法累积操作 (MACs)，以更好地评估模型的计算复杂性。

B. 实现细节

先前的 SOD 方法 [13]、[19]、[54]、[117] 通常使用 DUTS 训练集来训练他们的 RGB SOD 模型。同样，我们使用相同的数据集来训练我们的网络。对于 RGB-D SOD，我们遵循 [20]、[25]、[31]、[49] 来构建我们的训练集，其中包括来自 NJUD 的 1,485 张图像、来自 NLPR 的 700 张图像和来自 DUTLF-Depth 的 800 张图像。

要生成 GT 显著性图的边界真值，我们应用了 [18] 中描述的 Sobel 算子。我们在 GTX 1080 Ti GPU 上使用公开可用的 Pytorch 库 [118] 进行所有实验。训练和测试都在 GTX 1080 Ti GPU 上进行。对于数据预处理，原始单通道深度图被归一化到范围 [0,1] 并复制到三个通道。RGB 和深度图像都被调整到 256 × 256 像素大小，然后随机裁剪到 224 × 224 图像区域进行训练。还应用了数据增强技术，如随机翻转。在我们的转换器和解码器中，我们根据实验结果设置了 LC = LD3 = 4 和 LD2 = LD1 = 2。对于 RGB SOD，批量大小设置为 9 (T2T-ViTt-14 / Swin-T / Swin-S) 或 8 (Swin-B)，而对于 RGB-D SOD，批量大小设置为 7 (T2T-ViTt-14 / Swin-T / Swin-S) 或 6 (Swin-B)。RGB 和 RGB-D 的总训练步数分别为 60,000 和 40,000。我们采用了 Adam 优化器，初始学习率为 0.0001，在总训练步数的一半和四分之三时减少 10 倍。

C. 消融研究

我们在三个常用的 RGB SOD 数据集和三个 RGB-D SOD 数据集上进行消融实验，以展示我们提出的模型元素的有效性。实验结果列在表 I 和表 II 中。值得注意的是，在此背景下，我们仅对 VST++ 中的扩展组件进行消融研究，并使用我们之前的 VST 模型作为基线，因为 VST 中的组件已经在我们之前的 VST 论文 [45] 中证明了它们的有效性。

1) 标记监督预测损失的有效性：

我们的发现表明，加入标记监督预测损失 (Lsup) 可以提高大多数 RGB 和 RGB-D SOD 数据集上的整体检测性能。这种显著的改进可以归因于我们的标记监督预测损失带来的任务相关标记的直接学习能力。

2) 选择-集成注意力的有效性：

原始 VST 模型和具有 Lsup 损失的对应模型在解码器层中都使用了原始自注意力 (5)，这带来了二次计算复杂度。我们进一步用我们提出的选择-集成注意力 (SIA) 替换了最后两个解码器层中的自注意力，并报告了 MACs 和检测性能。

表 I 和表 II 中的结果表明，使用 SIA 在某些数据集上实现了可比或略低的检测精度，这主要是由于涉及背景区域的粗略信息。然而，尽管存在这种轻微的性能下降，SIA 带来了大约 25% 或更多的计算成本降低的好处，这表明我们的 SIA 方法有效地在准确性和计算效率之间取得了平衡，通过丢弃不太有信息量的背景标记。

3) 深度位置编码的有效性：

考虑到深度图的特殊性，我们设计了一种新的深度位置编码 (DPE)，除了广泛使用的 2D 空间位置编码。表 II 中的结果表明，使用我们提出的 DPE 在大多数数据集上获得了改进的性能，与仅依赖 2D 空间 PEs 相比，MACs 增加可以忽略不计。与传统的基于特征融合的 RGB-D 解码器 [15]、[30]、[43]、[57]、[124] 相比，这些解码器通常使计算成本翻倍，我们的 DPE 探索了轻量级深度感知解码器设计的一条新途径。请注意，表 II 中的 MACs 略有下降表示添加 DPE 导致更准确和更小的前景区域分割，因此结果在选择的标记更少。

D. 与最先进方法的比较

对于 RGB SOD，我们将我们的 VST++ 与 10 种最先进的基于 CNN 的 RGB SOD 方法进行比较，包括 PiCANet [21]、AFNet [120]、TSPOANet [121]、EGNet-R [18]、ITSD-R [48]、MINet-R [13]、LDF-R [19]、CSF-R2 [117]、GateNet-R [54] 和 MENet [122]，以及三种基于变换器的 RGB SOD 方法：EBMGSOD [88]、ICON [87] 和我们之前的 VST [45]。此外，我们还考虑了一个通用的密集预测模型，即 Mask2FormerT [96]。表 III 显示了比较结果。

对于 RGB-D SOD，我们采用了 15 种最先进的基于 CNN 的 RGB-D SOD 方法，即 S2MA [43]、PGAR [61]、DANet [123]、cmMS [124]、ATSA [25]、CMW [24]、CasGnn [15]、HDFNet [30]、CoNet [20]、BBS-Net [14]、JL-DCFR [28]、SPNet [29]、CMINet [125]、DCF [126] 和 SPSN [127]，以及四种基于变换器的 RGB-D SOD 模型，即 SwinNet [89]、HRTransNet [90]、EBMGSOD [88] 和我们之前的 VST [45]，进行比较。表 IV 和表 V 报告了比较结果。

遵循 VST，我们使用预训练的 T2T-ViTt-14 模型 [47] 作为我们的骨干，创建了 VST-t++ 模型。此外，一些基于变换器的模型已经提出用于 RGB SOD [87]、[88] 和 RGB-D SOD [88]、[89]、[90]，使用 Swin Transformer 家族 [50] 作为骨干。按照这一趋势，我们探索了三种不同规模的 Swin Transformer 模型，即 SwinT-1k、SwinS-1k 和 SwinB-22k [50]，从而获得了我们的 VST-T++、VST-S++ 和 VST-B++ 模型。由于 Swin Transformer 家族在 1/4、1/8、1/16 和 1/32 尺度上包含四个块，与 T2T-ViTt-14 模型不同，我们只将 1/32 特征上采样到 1/16 通过 RT2T，然后沿着通道维度与原始的 1/16 特征连接。之后，我们使用一个 MLP 将它们投影回并输入到转换器中。结果表明，我们的 VST-t++ 模型在大多数数据集上超越了我们之前的 VST，同时在 MACs 方面减少了计算成本，从而证明了我们扩展的有效性。当将骨干从 T2T-ViTt-14 [47] 切换到 Swin 骨干 [50] 时，我们观察到随着模型规模的扩大，性能逐渐提高。

与现有的基于 CNN 的方法相比，特别是那些广泛使用 ResNet50 [11] 骨干的方法，我们的 VST-T++ 模型在大多数 RGB 和 RGB-D SOD 数据集上超越了它们进行了公平比较，因为 SwinT 展示了与 ResNet50 相似的计算复杂性，根据 [50]。

当与基于变换器的方法进行比较时，为确保与 ICON [87] 的公平比较，该方法使用了 SwinB-22k 骨干和 384 的输入图像大小，我们也尝试将我们的输入图像大小从 224 更改为 288 × 288，并将 SwinB 骨干的窗口大小减少到 9。这导致了与 ICON (52.59 G) 相当的MACs 和 Params，但我们的 VST-B++ 模型在六个 RGB 数据集中的五个上都优于它们。表 IV 和表 V 显示了在 RGB-D 数据集上的相似结果。与最先进的基于变换器的方法 SwinNet [89] 相比，我们的 VST-B++ 模型在九个数据集中的六个上都显示出相似的 Params 和 MACs，同时表现出更好的性能。

我们还评估了我们的 VST-T++ 与重新训练的 Mask2Former-T [96]，使用相同的骨干。发现我们的 VST++ 在性能上优于 Mask2Former-T，突出了我们独特设计的优势。

图 4 和图 5 显示了顶级执行模型之间的视觉比较结果。我们提出的 VST++ 能够在一些具有挑战性的情况下准确检测显著对象，例如大型显著对象、复杂背景和多个显著对象。

E. 失败案例分析

尽管我们的方法在其他 RGB SOD 和 RGB-D SOD 算法中性能优越，并且很少产生完全错误的预测结果，但仍存在一些失败案例，如图 6 所示。左侧（RGB-D）和右侧（RGB）展示了前景和背景混乱或相似的情况，这使得定义显著对象变得具有挑战性。在这些场景中，我们的方法持续突出显示最显著的区域。例如，在 RGB-D 示例的第二行中，描绘了一个充满混乱前景和背景的小巷，我们的方法不确定板子、灯、装饰和小人都是否构成显著对象。因此，它突出了最亮的部分，即板子的最显著区域。类似地，在 RGB 示例的第二行中，前景和背景显示出高度的相似性，我们的方法突出显示了最显著的人，而真实标注则指向了裸地。同样，其他最先进的方法也对这些样本感到困难。

F. 在 RGB-T SOD 上的应用

为了进一步证明我们提出的 VST++ 模型的泛化能力，我们将其应用于另一个基于多模态的 SOD 任务，即 RGB-T SOD，该任务旨在根据 RGB 和热成像图像对来推断显著性。与 RGB-D SOD 中的深度图类似，热成像图也提供了独特且互补的信息，例如穿透烟雾和雾气。然而，热成像图与深度图相比具有独特的特性。深度图擅长区分前景和背景，而热成像图则专注于辨别场景的热属性，这与前景和背景的相关性较小。因此，我们没有为热成像图采用深度位置编码，而是采用了正弦位置编码。

为确保公平比较，我们遵循先前的 RGB-T SOD 方法 [72]、[73]、[130]、[131] 并采用 VT5000 数据集 [72] 的训练集来训练我们的模型。随后，我们在 VT5000 和另外两个基准数据集 VT821 [67] 和 VT1000 [69] 的测试集上评估我们的模型。对于这三个基准数据集，VT821 [67] 包含 821 对在复杂场景（如低光照和多个显著对象）中注释但未注册的图像对。VT1000 [69] 包括 1,000 对使用高度对齐的 RGB 和热成像相机捕获的 RGB-T 图像对。VT5000 [72] 是一个大规模数据集，具有高分辨率、高多样性和低偏差样本，包含 5,000 对 RGB-T 图像。

我们将我们的模型与八个基于 CNN 的最先进 RGB-T SOD 模型进行比较，即 SGDL [69]、FCMF [70]、ADF [72]、ECFFNet [130]、CGFNet [73]、CSRNet [131]、MGAI [132] 和 MIDD [71]，以及一个基于变换器的最先进 RGB-T SOD 方法：SwinNet [89]。此外，我们将两个基于 RGB 的最先进 SOD 模型（CPD [128] 和 BASNet [62]）和三个基于 RGB-D 的最先进 SOD 模型（BBSNet [14]、TANet [63] 和 MMNet [129]）应用于 RGB-T SOD 任务进行比较，分别表示为“RGB → RGB-T”和“RGB-D → RGB-T”。对于 RGB SOD 模型，我们保持模型不变，但将 RGB 和热数据作为输入结合起来。对于 RGB-D SOD 模型，我们将深度输入替换为热输入。它们的结果由 [130] 提供。比较结果列在表 VI 中。

结果表明，我们的模型超过了所有其他 RGB → RGB-T 和 RGB-D → RGB-T 模型，展示了我们模型与以前基于 RGB 和 RGB-D 的模型相比的优越泛化能力。总体而言，我们的 VST++ 优于大多数 RGB-T 模型，具有可比的计算成本，除了在 VT821 数据集上。由于 VT821 包含比其他数据集更多的噪声样本，我们假设我们的纯变换器基模型可能比基于 CNN 的模型对噪声更敏感。值得注意的是，SwinNet 模型的解码器完全基于 CNN，这可能是其结果受到的影响较小的原因。我们在图 7 中提供了一些示例，以直观地比较我们的方法与几种最先进解决方案。显然，我们的 VST++ 更全面、更精确地突出显示显著对象。

V. 结论

本文扩展了我们之前的视觉显著性变换器（VST）模型，该模型基于纯变换器，通过序列到序列任务的视角统一了 RGB 和 RGB-D SOD。在 VST 中，我们设计了一个多任务变换器解码器，允许在纯变换器架构中同时执行显著性和边界检测。此外，我们引入了一种新颖的标记上采样方法，用于变换器基框架，使我们的模型能够轻松获得全分辨率的显著性图。在 VST 模型的基础上，本文提出了选择-集成注意力（SIA）模块，以减少传统自注意力的计算成本。它选择了前景区域，将其分割为细粒度片段，并聚合背景信息到一个代表粗粒度片段的单一标记中。为了以低成本纳入深度位置信息，我们设计了一种针对深度图的新型深度位置编码方法。我们还引入了一种有效的标记监督预测损失，为显著性和边界标记提供直接的监督信号，从而提高模型性能。为了评估我们提出的 VST++ 的有效性，我们使用不同的基于变换器的主干网络在 RGB、RGB-D 和 RGB-T 基准数据集上进行了广泛的实验。实验结果展示了我们模型在泛化能力、增强性能和提高效率方面的强劲表现。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247494165&idx=1&sn=bf4114cbf0a4ea963c64b71daf5df149

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文