点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
摘要
虽然之前基于 CNN 的模型在显著性物体检测 (SOD) 方面表现出了良好的效果,但它们探索全局长距离依赖关系的能力受到限制。我们之前的工作,视觉显著性变换器 (VST),从基于变换器的序列到序列的角度解决了这一限制,以统一 RGB 和 RGB-D SOD。在 VST 中,我们开发了一个多任务变换器解码器,可以在纯变换器架构中同时预测显著性和边界结果。此外,我们引入了一种称为反向 T2T 的新型标记上采样方法,用于在基于变换器的结构中轻松预测高分辨率显著性图。在 VST 模型的基础上,我们在本工作中进一步提出了一个高效且更强大的 VST 版本,即 VST++。为了降低 VST 模型的计算成本,我们提出了一个选择整合注意力 (SIA) 模块,将前景划分为细粒度段,并将背景信息聚合为单个粗粒度标记。为了以低成本整合 3D 深度信息,我们设计了一种针对深度图量身定制的新型深度位置编码方法。此外,我们引入了一个标记监督预测损失,为与任务相关的标记提供直接指导。我们在 RGB、RGB-D 和 RGB-T SOD 基准数据集上跨各种基于转换器的主干评估我们的 VST++ 模型。实验结果表明,我们的模型优于现有方法,同时实现了 25% 的计算成本降低,而性能没有显著下降。我们的 VST++ 模型表现出强大的泛化能力、增强的性能和提高的效率凸显了其潜力。
论文链接:https://arxiv.org/pdf/2310.11725
论文标题:VST++: Efficient and Stronger Visual Saliency Transformer
论文作者:Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han
1.关键字
多任务学习、RGB-D 显著性检测、RGB-T 显著性检测、Transformer、显著性检测。
2.引言
显著性物体检测 (SOD) 旨在识别和分割图像中最突出的物体。它可以用作预处理技术来促进各种计算机视觉任务,例如弱监督学习 [1]、[2]、人员重新识别 [3] 和视频对象分割 [4]、[5]、[6]。除了 RGB 图像外,深度相机捕获的深度数据还提供有价值的空间结构信息。RGB-D SOD 利用这两种数据类型,近年来引起了越来越多的关注。
先前的前沿 RGB 和 RGB-D SOD 方法主要以卷积网络 [7] 为主,即使用编码器-解码器 CNN 架构 [8]、[9],其中编码器通过预训练的主干 [10]、[11] 从输入图像中提取多级特征,解码器融合编码特征进行显着性预测。基于这种有效的架构,以前的工作主要集中在设计强大的解码器以准确生成显着性图。为此,他们提出了各种多尺度特征聚合方法 [12]、[13]、[14]、[15]、多任务学习方案 [16]、[17]、[18]、[19]、[20] 和注意机制 [21]、[22]、[23]。对于 RGBD SOD,补充挑战涉及有效融合跨模态线索,即 RGB 外观信息和深度信息。现有研究已经提出了许多跨模态融合方法,例如注意模型 [24]、[25]、特征集成 [14]、[26]、[27]、[28]、[29]、动态卷积 [30]、图神经网络 [15] 和知识蒸馏 [31]。因此,基于 CNN 的方法已经取得了有希望的结果,如 [32]、[33] 中所述。
然而,由于 CNN 的内在限制,以前基于 CNN 的模型在探索全局长距离依赖关系方面的建模能力有限,而这已被证明是显着性检测的关键因素,例如全局上下文 [21]、[34]、[35]、[36]、[37] 和全局对比度 [38]、[39]、[40]。尽管已经提出了全连接层 [26]、[41]、全局池化层 [21]、[37]、[42] 和非局部模块 [23]、[43] 来缓解这一问题,但它们只是作为某些模块插入以探索全局线索,而基于 CNN 的标准架构保持不变。
为了解决 CNN 的局限性,[44] 提出了 Transformer 架构来为机器翻译建模单词序列之间的全局长距离依赖关系。关键元素,即自注意力,计算整个序列的查询-键相关性,并在编码器和解码器中逐层级联,从而允许学习每一层中不同位置之间的全局长距离依赖关系。考虑到这一点,将 Transformer 引入 SOD 以充分利用全局线索是很自然的。
在我们对此工作的 ICCV 2021 版本 [45] 中,我们从新的序列到序列的角度重新思考了 SOD,并提出了第一个基于最近提出的 Vision Transformer (ViT) 模型 [46]、[47] 的纯 Transformer 模型来处理 RGB 和 RGB-D SOD 任务,即 Visual Saliency Transformer (VST)。在 ViT 模型 [46]、[47] 中,每个图像最初被分成多个块作为一个块序列,然后进一步输入到 Transformer 模型中以处理整个图像的全局长距离依赖关系,而不依赖于任何卷积操作。然而,当按照这个观点为 SOD 引入 ViT 时,我们会遇到两个问题。一方面,SOD 是一个密集预测任务,不同于 ViT 模型解决的图像分类,从而提出了一个悬而未决的问题,即如何基于纯 Transformer 执行密集预测任务。另一方面,ViT 以粗尺度对图像进行标记,这与 SOD 的细粒度要求形成对比。因此,如何使 ViT 适应 SOD 的高分辨率预测需求也尚不明确。
为了解决第一个问题,我们提出了一种基于 token 的 Transformer 解码器,通过设计与任务相关的 token 来获取与任务相关的决策嵌入。随后,这些 token 被用于通过提出的新型补丁任务注意机制生成密集预测,为在密集预测任务中应用 Transformer 提供了一种新方法。此外,从以前的 SOD 模型 [18]、[20]、[48]、[49] 中汲取灵感,这些模型利用边界检测来提高 SOD 性能,我们构建了一个多任务解码器,通过结合显着性和边界 token 来同时处理显着性和边界预测任务。这种方法通过专注于学习特定于任务的 token 来简化多任务预测过程,从而显着减少计算开销,同时获得更好的结果。为了解决第二个问题,受减少标记长度的标记到标记 (T2T) 转换 [47] 的启发,我们引入了一种新颖的反向 T2T 转换来进行标记上采样。这种创新方法通过将每个标记扩展为多个子标记来逐步上采样补丁标记。随后,将上采样的补丁标记与低级标记融合以生成完整的全分辨率显着性图。此外,还采用了跨模态变换器来彻底挖掘 RGB-D SOD 的 RGB 和深度线索之间的相互作用。最终,我们的 VST 证明与 RGB 和 RGB-D SOD 基准数据集上最先进的 SOD 方法相比具有卓越的性能。
尽管上述问题的解决方案有助于将 ViT 应用于 SOD 任务,但 VST 模型仍然存在一些局限性。为此,我们提出了一个新的改进版本,即 VST++,以从效率、性能和泛化的角度克服这些缺点。首先,自我注意所需的二次计算对 VST 造成了非常高的计算成本。为了提高模型效率,我们提出了一个选择整合注意 (SIA) 模块,该模块建立在粗粒度全局注意和细粒度局部注意方法的最新发展之上 [50]、[51]、[52]。对于 SOD 任务,前景区域对于准确分割是必要的,而背景区域也提供了有用的上下文线索,然而,它是多余的。为此,我们建议选择前景区域,保留其细粒度片段,并将背景区域集成到粗粒度全局标记中。这样,我们既保留了前景信息的准确性,又避免了冗余背景区域的计算成本。其次,Transformers 中使用的传统正弦位置编码 (PE) 仅考虑 x 和 y 维度,而忽略了 RGB-D 数据的关键深度信息。为了解决这一限制,我们设计了一种针对深度图量身定制的新型深度位置编码,从而以简单轻量的方式将 3D 深度线索引入解码器。第三,我们通过引入额外的损失函数来提高模型性能。从 VST 的结果中,我们观察到预测严重依赖于补丁标记,而显着性和边界标记仅编码了辅助任务相关信息。我们假设这个问题源于对显着性和边界标记缺乏直接监督。因此,我们提出了一个 token 监督的预测损失,以便为与任务相关的 token 提供直接的监督。第四,我们验证了 VST++ 在不同的 transformer 主干和新的多模态 SOD 任务(即 RGB-T SOD)上的泛化能力。这些全面的实验明确展示了我们的 VST++ 模型在不同网络规模和数据模态下的能力。
在我们之前的 VST 模型[45]中,我们主要有三个贡献。
据我们所知,我们的 VST 是采用纯 Transformer 架构的开创性统一模型,从序列到序列建模的新视角实现了基于单模态和多模态的SOD。 我们提出了一种多任务 Transformer 解码器,通过设计与任务相关的标记和补丁任务注意来同时执行显着性和边界检测。 代替 CNN 架构中常用的双线性上采样,我们在纯 Transformer 框架下引入了一种反向 T2T 标记上采样方法,并展示了其有效性。
在这项工作中,我们进一步做出了以下贡献:
我们提出了一个 SIA 模块,将前景划分为细粒度段,并将背景信息聚合为单个粗粒度标记。这种方法将计算成本降低了25%,同时不会显著影响性能。 我们为 RGB-D SOD 引入了一种新颖的深度位置编码,作为传统 2D 空间 PE 的补充,以简单的方式在解码器中引入深度线索。 我们引入了一个 token 监督的预测损失,通过为任务相关的 token 提供直接监督来进一步提高模型性能。 我们进一步使用不同的骨干架构和 RGB-T SOD 任务验证了我们提出的 VST++ 模型的有效性。我们的最终结果在几个广泛使用的RGB、RGB-D 和 RGB-T SOD 基准数据集上展示了新的最先进性能,这表明基于 Transformer 的 SOD 模型具有巨大的潜力。
3. VST++
如图 1 所示,所提出的 VST++ 模型由三个关键组件组成,即依赖于 T2T-ViT 的变换器编码器、将补丁标记从编码器空间转换到解码器空间的变换器转换器,以及具有选择集成注意 (SIA) 模块的多任务变换器解码器,以降低计算成本。
A.Transformer 编码器
预训练图像分类模型(例如 VGG [10] 和 ResNet [11])通常用作基于 CNN 的 SOD 方法中的特征提取器。在这项工作中,任何预训练的 Transformer 主干都可以用作我们的编码器,例如 T2T-ViT [47] 和 SwinTransformer [50]。在这里,我们将 T2T-ViT 作为我们的默认主干编码器,并在下面详细介绍其架构。
1)Tokens to Token:给定一个输入图像 ,其中 和 分别表示高度、宽度和通道数,T2T-ViT 最初使用软分割操作将 嵌入到长度为 的补丁标记序列 中。随后,补丁标记经过一系列 Tokens to Token (T2T) 模块,每个模块由重构操作和软分割操作组成。
重构:在重构步骤中,输入标记 经过多头注意和多层感知器处理,产生新的标记序列 ,其中 i 表示 T2T 模块的索引。在每个块之前应用层归一化。为了恢复空间结构,将 重塑为 2D 图像 ,其中 ,如图 2(a) 所示:
这里,MSA 表示多头自注意力,MLP 表示原始 Transformer 中的多层感知器 [44]。
软分割:对于软分割步骤, 被分割成具有 个重叠像素的 个块。还应用 个像素的零填充来填充图像边界。之后,图像块展开为一个标记序列 ,其中序列的长度 定义为:
重叠块分割的引入通过建立相邻块之间的相关性来整合空间先验,这与原始的 ViT [46] 不同。
T2T 转换可以迭代多次。在每次迭代中,重构步骤首先将前面的嵌入转换为新的嵌入,从而在所有标记之间建立长距离依赖关系。在软拆分操作期间,标记将合并到每个 邻居内的新标记中,并将在下一层中使用。可以通过设置 来逐渐减少标记的长度。
按照 [47] 的方法,我们首先将输入图像软分割成块,然后应用两次 T2T 模块。对于三个软分割步骤,重叠设置为 ,块大小定义为 ,填充大小指定为 。经过这三个步骤,我们可以获得多级标记,即 、 和 ,其中 、 和 。如 [47] 所述,我们在 上使用线性投影层将其嵌入维度从 更改为 。
2) 具有 T2T-ViT 主干的编码器:为了对 2D 位置信息进行编码,我们在最终标记序列 上添加了正弦位置嵌入。此外, 变换器层用于在 之间建立长距离依赖关系,从而创建强大的补丁标记嵌入 。
对于 RGB SOD,我们使用单个变换器编码器从每个输入 RGB 图像中导出 RGB 编码器补丁标记 。对于 RGB-D SOD,我们使用双流架构来合并额外的变换器编码器。该编码器负责从输入深度图中提取深度编码器补丁标记 ,遵循与 RGB 编码器类似的程序。该过程的概述如图 1 所示。
B. Transformer Convertor
在 Transformer 编码器和解码器之间,我们引入了一个转换模块,将编码器补丁标记 从编码器空间转换到解码器空间。结果,我们得到了转换后的补丁标记 ,然后可以在解码器中使用它进行后续处理。
1) RGB-D 转换器:为了整合 RGB 和深度数据之间的互补信息,我们开发了一个跨模态变换器 (CMT),它由 交替跨模态注意层和自注意层组成,以融合 RGB-D 转换器中的 和 。
跨模态注意:遵循纯 Transformer 架构,使用跨模态注意层来探索图像和深度数据之间的长距离跨模态依赖关系。跨模态注意遵循 [44] 中描述的自注意格式,但是从不同的模态生成查询、键和值。具体来说,我们使用 生成键和值以增强 ,并使用 生成键和值以增强 :
其中 表示softmax函数。 分别是query,key,value的投影权重。
我们采用 [44] 中描述的标准 Transformer 架构,并在跨模态注意中使用多头注意机制。我们的 CMT 层还结合了相同的位置前馈网络、残差连接和层规范化 [100]。
在 CMT 之后,将标准转换器层应用于每个 RGB 和深度块标记序列,以增强其标记嵌入。最后,如图 1 所示,我们将获得的 RGB 标记和深度标记连接起来,然后将它们投影到最终转换的标记 。
2)RGB 转换器:为了与我们的 RGB-D SOD 模型同步,我们直接在 上使用 标准转换器层进行 RGB SOD,从而生成转换后的补丁标记序列 。
C.多任务 Transformer 解码器
我们的解码器的目标是解码补丁标记 以生成显着图。为了实现这一目标,我们提出了一种具有多级标记融合的新型标记上采样方法和基于标记的多任务解码器。与我们之前的 ICCV 版本 [45] 不同,我们部署了 SIA 而不是自注意力,它选择前景区域,将它们分成细粒度的片段并将背景信息聚合为一个标记。这种策略将计算成本降低了 25%,而结果没有显着下降。此外,除了以前的密集预测方案外,我们还结合了标记监督的预测损失,以增强显着性和边界标记的学习能力。对于 RGB-D SOD,我们还提出了一种深度位置嵌入方法,以在解码器中以计算效率结合 3D 深度线索。
1) 标记上采样和多级标记融合:由于 的长度相对较小,即 ,我们认为直接从 生成显着图往往会限制密集预测性能并导致低质量结果。因此,我们采用两步方法:首先,我们对补丁标记进行上采样,然后将它们与编码器特征集成以促进密集预测。我们没有采用大多数基于 CNN 的方法 [18]、[28]、[43]、[54] 中常用的双线性上采样方法来恢复大规模特征图,而是在纯 Transformer 框架内提出了一种新的标记上采样方法。受 T2T 模块 [47] 的启发,该模块通过组合相邻的标记来逐渐减少标记长度,我们提出了一种逆 T2T (RT2T) 转换,通过将每个标记扩大为多个子标记来对标记进行上采样,如图 2(b) 所示。
首先,输入补丁标记首先被投影以将其嵌入维度从 减少到 ,然后使用线性投影将嵌入维度从 扩展到 。每个标记都可以看作是一个 图像补丁,其中 个相邻补丁重叠,模仿 T2T 中的软分割步骤。这使我们能够通过使用 零填充折叠标记来重建图像。可以使用 (2) 反向计算输出图像大小。具体而言,给定输入补丁标记的长度为 ,输出图像的空间大小为 。最后,我们将图像重塑回来以获得大小为 的上采样标记,其中 。
通过设置 ,RT2T 变换有助于增加 token 长度。受 T2T-ViT 的启发,我们使用 RT2T 三次,参数设置为 和 。因此,补丁标记的长度可以逐步上采样以匹配 ,这对应于原始输入图像大小。
此外,从现有 SOD 方法 [12]、[13]、[14]、[15]、[54] 中展示的多级特征融合成果中汲取灵感,我们利用来自编码器的较长的低级标记来提供精确的局部结构细节。对于 RGB 和 RGB-D SOD,我们仅使用来自 RGB 变换器编码器的低级标记。具体而言,我们通过连接和线性投影逐渐将 与上采样的补丁标记 融合,公式如下:
其中 和 表示沿标记嵌入维度的连接。“线性”表示在连接后将嵌入维度减小到 的线性投影。之后,使用另一个线性投影将 的嵌入维度恢复回 。
2) 基于标记的多任务预测:以前的纯 Transformer 方法 [46]、[47] 通常使用可学习的类标记进行图像分类。基于这个想法,我们还结合了与任务相关的标记来进行预测。然而,[46]、[47] 在类标记上使用 MLP 来生成分类概率,这不能直接应用于 SOD 中的密集预测。因此,我们建议进行补丁任务注意以聚合与任务相关的知识并执行 SOD 预测。
此外,借鉴最近在 SOD 模型中引入边界检测的进展 [18]、[19]、[20]、[49],我们还遵循多任务学习方案,将边界检测任务引入显著性预测,通过促进对象和边界信息之间的交换来提高显著性预测的性能。
为此,我们设计了两个与任务相关的标记:一个显著性标记 和一个边界标记 。我们将它们与补丁标记序列 连接起来,并使用 转换器层对其进行处理。在每一层中,输入的两个任务标记用作前一层的输出,即:
在每一层中,自我注意力用于将两个任务标记与补丁标记进行交互。这样可以将与任务相关的信息从图像补丁聚合到两个任务标记,并将特定于任务的信息从任务标记传播到补丁标记。之后,我们将增强的补丁标记上采样到 级,并像 (4) 中那样融合相应级别的编码器补丁标记,从而获得补丁标记 。然后重新使用更新的任务标记来进一步更新自身和下一层中的 。重复此过程,直到我们达到 1/4 比例的最终解码器级别。
基于这两个与任务相关的标记,我们进行密集预测以同时生成显着性和边界预测。具体来说,我们首先将 嵌入查询 ,将 嵌入键 和值 ,以进行显着性预测。同样,对于边界预测,我们将 Q^D_{b_i}t^b_iK_{b_i}V_{b_i}$。然后,我们使用 patch-task-attention 来获得与任务相关的补丁标记:
由于每个方程中只有一个键,因此我们在这里使用 Sigmoid 激活进行注意力计算。
随后,我们应用两个具有 Sigmoid 激活的线性变换,将 和 映射到 [0,1] 范围内的单通道。然后将结果分别重塑为 2D 显着性图 和 2D 边界图 。我们在每个解码器层执行此类预测,直到达到全分辨率级别。在此级别,我们通过 RT2T 变换对 1/4 大小的补丁标记进行上采样,以获得全分辨率补丁标记并应用相同的密集预测方法。
3) 选择-整合注意力:由于与自我注意力相关的二次计算成本,我们之前的 VST 模型 [45] 面临着巨大的计算挑战。从最近的工作中汲取灵感,这些工作结合了粗粒度的全局注意力和细粒度的局部注意力方法 [50]、[51]、[52]、[85]、[86] 来优化计算成本,我们设计了选择-整合注意力 (SIA),专门用于减少解码器层的计算负担。
在 SOD 任务中,前景信息起着关键作用,而背景信息则提供了必要的背景线索。为了在前景和背景之间取得平衡,我们将背景信息聚合为一个标记,代表粗粒度段,同时将前景区域划分为细粒度段。
具体来说,我们使用 SIA 来代替解码器中原有的自注意力机制。在层 中,我们首先引入上一阶段生成的显著性图,即 。然后,我们对其进行两次上采样,并使用阈值 0.5 对其进行二值化,以将其处理为掩码 。
对于细粒度的分割,我们根据掩码从 中选择补丁来划分前景区域:
对于粗粒度的片段,与掩码 中值为 0 的索引相对应的背景块通过平均池化集成到背景标记 中:
随后,我们使用 和两个任务标记的连接来生成查询,并使用 T^D_{i_f}t^g_i$ 和任务标记的连接来生成键和值以执行交叉注意:
其中 MCA 表示在交叉注意 (CA) (3) 中使用标准多头注意 [44]。我们提出的 SIA 的结构如图 3 所示。
上述操作使我们能够通过考虑细粒度和粗粒度上下文传播来构建 SIA。由于第一个 1/16 解码器级别没有来自前一阶段的掩码,因此我们保留了 (5) 中用于此解码器级别的自注意力,并在 1/8 和 1/4 解码器级别应用 SIA。
假设解码器层 包含 个块标记,其中只有 个前景标记,则每个自注意力的计算复杂度为 ,而 SIA 的计算复杂度变为 。由于 ,这种方法可确保节省计算成本,同时保留前景区域的准确信息,并保留全局背景上下文。
由于我们的 SIA 打破了补丁标记的原始空间结构,我们采用了 [44] 中引入的 和 的正弦位置编码。此外,我们对显着性标记、边界标记和背景标记采用了三种可学习的位置编码。
必须承认,我们的 SIA 的训练方法与测试方法不同。由于所选前景补丁数量的不确定性阻碍了并行计算,我们仍然使用所有补丁标记,并采用掩蔽注意力 [96] 在训练期间过滤掉背景补丁标记。
4) 深度位置嵌入:SIA 中的正弦位置编码包含 2D 位置信息。然而,对于 RGB-D SOD,我们还提供了 3D 深度结构,这在我们之前的 VST 模型 [45] 中被忽略了。因此,我们设计了一种基于 2D 正弦位置编码的新型深度位置编码 (DPE) 方法。这样,我们还可以在解码器中有效地集成深度信息,而不会像之前的双分支 RGB-D SOD 方法那样改变整体架构并引入大量计算成本。
我们旨在解决的主要挑战是深度作为连续变量和二维坐标作为离散变量之间的本质差异。为了解决这个问题,对于每个解码器级别 i,我们首先从初始深度图中获得调整大小的深度图,以匹配 的空间维度。接下来,我们将深度图归一化为 [0,1],然后将归一化的深度值与 相乘并将它们四舍五入以获得离散深度图。这使得深度值具有与二维坐标相同的值范围。后面的步骤类似于正弦位置编码,其公式为:
其中 表示深度值, 表示维度。此外,我们为三个解码器层提出了三个可学习的缩放因子,即 ,以建立 DPE 相对于 2D 空间 PE 的相对重要性。我们将每个缩放因子与相应的 DPE 相乘,然后将其与 2D 空间 PE 连接起来以获得 3D PE。3D PE 被添加到解码器层中的 SIA 或自注意力的查询和键中,以提供 3D 结构先验。
D.损失函数
在我们之前的 VST 模型 [45] 中,我们仅在每个解码器级别的显着性和边界预测(即 和 )上采用了 BCE 损失。然而,我们观察到,这些预测是直接从增强的补丁标记(即 和 )通过两个线性变换获得的。因此,密集预测与两个任务标记没有直接关系,因此可能会阻碍它们有效学习任务相关信息的能力。
因此,在本文中,我们提出了一种标记监督的预测损失,直接为显著性和边界标记提供监督。具体来说,在每个解码器层 i 中,我们直接对两个任务标记和块标记进行内积运算,从而生成两个分割预测 和 ,公式如下:
接下来,我们使用 Sigmoid 激活函数,将其重塑为 2D 显着性和边界图,以部署 BCE 损失。这样,损失的梯度可以直接流向与任务相关的标记 和 ,从而提高它们的学习效率。
综上所述,我们采用 1、1/4、1/8、1/16 级的密集预测损失 和标记监督预测损失 来优化每个解码器阶段,如下所示:
其中 和 分别表示显著性预测损失和边界预测损失。 和 分别表示显著性和边界任务的基准值。 和 实现为 BCE 损失。最终的损失函数表示为它们的总和:
4.实验
A.数据集和评估指标
对于 RGB SOD,我们使用六个常用的基准数据集评估我们提出的模型,接下来将介绍这些数据集。DUTS [101] 是目前可用于显著性物体检测的最大数据集,包含 10,553 张训练图像和 5,019 张测试图像。ECSSD [102] 包含 1,000 张具有语义意义的图像,而 HKU-IS [103] 由 4,447 张具有多个前景物体的图像组成。PASCAL-S [104] 包含从 PASCAL VOC 2010 数据集 [105] 收集的 850 张图像。DUT-O [106] 包含 5,168 张图像,SOD [107] 包含 300 张图像。
对于 RGB-D SOD,使用九个广泛使用的基准数据集进行评估。第一个立体显着性数据集 STERE [108] 包含 1,000 张图像。NJUD [109] 包括从互联网、3D 电影和照片收集的 1,985 张图像。NLPR [110]、DUTLF-Depth [57] 和 SIP [111] 分别使用 Microsoft Kinect、光场相机和华为 Mate 10 智能手机捕获。它们分别由 1,000 张图像、1,200 张图像和 929 张显着人物图像组成。LFSD [112]、RGBD135 [113] 和 SSD [114] 是三个小规模数据集,分别有 100、135 和 80 张图像。ReDWeb-S [66] 包含 3,179 张图像,其中包含多样化且具有挑战性的视觉场景和高质量的深度图。
根据最近的研究,我们采用了四种广泛使用的评估指标来评估模型性能。结构度量 [115] 考虑了区域级和对象级的结构相似性。最大 F 度量 (maxF) 将 SOD 视为二元分类任务,并在不同阈值下同时考虑精度和召回率。最后,它报告最佳阈值下的最高分数。最大增强对齐度量 [116] 将项目中的局部像素值与图像级平均值相结合,以捕获图像级统计数据和局部像素匹配信息。我们使用的最后一个指标是平均绝对误差 (MAE),它计算逐像素的平均绝对误差。同时,我们报告参数 (Params) 的数量和乘法累积运算 (MAC),以更好地评估模型的计算复杂度。
B. 实施细节
先前的 SOD 方法 [13]、[19]、[54]、[117] 通常使用 DUTS 训练集来训练其 RGB SOD 模型。同样,我们使用相同的数据集训练我们的网络。对于 RGB-D SOD,我们遵循 [20]、[25]、[31]、[49] 来构建我们的训练集,其中包括来自 NJUD 的 1,485 张图像、来自 NLPR 的 700 张图像和来自 DUTLF-Depth 的 800 张图像。
为了从 GT 显着性图生成边界地面实况,我们应用了 [18] 中描述的清醒算子。我们使用公开的 Pytorch 库 [118] 进行所有实验。训练和测试在 GTX 1080 Ti GPU 上进行。对于数据预处理,将原始单通道深度图归一化到 [0,1] 范围并复制到三个通道。RGB 和深度图像均调整为 256 × 256 像素,然后随机裁剪为 图像区域进行训练。还应用了数据增强技术,例如随机翻转。在我们的转换器和解码器中,我们根据实验结果设置 和 。对于 RGB SOD,批处理大小设置为 9(T2T-ViTt-14 /Swin-T /Swin-S)或 8(Swin-B),而对于 RGB-D SOD,批处理大小设置为 7(T2T-ViTt-14 /Swin-T /Swin-S)或 6(Swin-B)。RGB 和 RGB-D 的总训练步骤分别为 60,000 和 40,000。我们采用 Adam 优化器,初始学习率为 0.0001,在总训练步骤的一半和四分之三处将其降低了 10 倍。
C. 消融研究
我们对三个常用的 RGB SOD 数据集和三个 RGB-D SOD 数据集进行了消融实验,以展示我们提出的模型元素的有效性。实验结果如表 I 和表 II 所示。值得注意的是,在这种情况下,我们专门对 VST++ 中的扩展组件进行消融研究,并使用我们之前的 VST 模型作为基线,因为 VST 中的组件已经在我们之前的 VST 论文 [45] 中证明了它们的有效性。
1) 标记监督预测损失的有效性:我们的研究结果表明,结合标记监督预测损失 () 可以增强大多数 RGB 和 RGB-D SOD 数据集的整体检测性能。这种显著的增强可以归因于我们的标记监督预测损失带来的与任务相关的标记的直接学习能力。
2) 选择整合注意力的有效性:原始 VST 模型和具有 损失的对应模型都在解码器层中使用原始自注意力 (5),这带来了二次计算复杂度。我们进一步在最后两个解码器层中用我们提出的选择整合注意力 (SIA) 替换自注意力,并报告 MAC 和检测性能。
表 I 和表 II 中的结果表明,使用 SIA 在某些数据集上实现了相当或略低的检测精度,这主要是由于背景区域涉及的粗略信息。然而,尽管存在这种轻微的性能下降,但 SIA 带来了大约 25% 甚至更多的计算成本降低的好处。这凸显了我们的 SIA 方法通过丢弃信息量较少的背景标记有效地平衡了准确性和计算效率。
3) 深度位置编码的有效性:考虑到深度图的特殊性,我们在广泛使用的 2D 空间位置编码之外设计了一种新的深度位置编码 (DPE)。表 II 的结果表明,与仅依赖 2D 空间 PE 相比,使用我们提出的 DPE 在大多数数据集上都能提高性能,同时带来可忽略不计的 MAC 增加。与传统的基于特征融合的 RGB-D 解码器 [15]、[30]、[43]、[57]、[124](通常计算成本增加一倍)相比,我们的 DPE 探索了一种轻量级深度感知解码器设计的新方法。请注意,表 II 中略有下降的 MAC 表示添加 DPE 会导致更准确、更小的前景区域分割,从而导致更少的选定标记。
D.与最新方法的比较
对于 RGB SOD,我们将 VST++ 与 10 种最先进的基于 CNN 的 RGB SOD 方法进行了比较,包括 PiCANet [21]、AFNet [120]、TSPOANet [121]、EGNet-R [18]、ITSD-R [48]、MINet-R [13]、LDF-R [19]、CSF-R2 [117]、GateNet-R [54] 和 MENet [122],以及三种最先进的基于 Transformer 的 RGB SOD 方法:EBMGSOD [88]、ICON [87] 和我们之前的 VST [45]。此外,我们还考虑了一个通用的密集预测模型,即 Mask2FormerT [96]。表 III 显示了比较结果。
对于 RGB-D SOD,我们采用了 15 种最先进的基于 CNN 的 RGB-D SOD 方法,即 S2MA [43]、PGAR [61]、DANet [123]、cmMS [124]、ATSA [25]、CMW [24]、CasGnn [15]、HDFNet [30]、CoNet [20]、BBS-Net [14]、JL-DCFR [28]、SPNet [29]、CMINet [125]、DCF [126] 和 SPSN [127],以及四种最先进的基于 Transformer 的 RGB-D SOD 模型,即 SwinNet [89]、HRTransNet [90]、EBMGSOD [88] 和我们之前的 VST [45],进行比较。表 IV 和 V 报告了比较结果。
遵循 VST,我们利用预先训练的 T2T-ViTt-14 模型 [47] 作为我们的主干来创建 VST-t++ 模型。此外,一些基于 Transformer 的模型已被提出用于 RGB SOD [87]、[88] 和 RGB-D SOD [88]、[89]、[90],并以 Swin Transformer 系列 [50] 为主干。按照这一趋势,我们探索了三种不同规模的 Swin Transformer 模型,即 SwinT-1k、SwinS-1k 和 SwinB-22k [50],从而获得了我们的 VST-T++、VST-S++ 和 VST-B++ 模型。由于 Swin Transformer 系列由四个块组成,分别为 1/4、1/8、1/16 和 1/32 比例,这与 T2T-ViTt-14 模型不同,我们只需通过 RT2T 将 1/32 特征上采样到 1/16,然后沿通道维度将它们与原始 1/16 特征连接起来。之后,我们使用 MLP 将它们投影回 d 并将它们输入到转换器。结果表明,我们的 VST-t++ 模型在大多数数据集上都优于我们之前的 VST,同时降低了 MAC 方面的计算成本,从而证明了我们扩展的有效性。当将主干从 T2T-ViTt-14 [47] 切换到 Swin 主干 [50] 时,我们观察到性能随着模型规模的扩大而逐渐提高。
与现有的基于 CNN 的方法(尤其是广泛使用 ResNet50 [11] 主干的方法)相比,我们的 VST-T++ 模型在大多数 RGB 和 RGBD SOD 数据集上都超越了它们,因为根据 [50],SwinT 表现出与 ResNet50 相似的计算复杂度。
与基于 Transformer 的方法相比,为了确保与 ICON [87](采用 SwinB-22 k 主干,输入图像大小为 384)进行公平比较,我们还尝试将输入图像大小从 224 更改为 384。然而,与 ICON(52.59 G)相比,这会导致 MAC(247.75 G)明显更高。因此,我们将输入图像大小减小到 288×288,并将 SwinB 主干中的窗口大小减小到 9。这导致 MAC 和 Params 与 ICON 和 EBMGSOD [88] 相当。然而,我们的 VST-B++ 模型在六个 RGB 数据集中的五个上都优于它们。表 IV 和 V 在 RGB-D 数据集上显示了类似的结果。与最先进的基于变换器的方法 SwinNet [89] 相比,我们的 VST-B++ 模型具有相当的 Params 和 MAC,同时在九个数据集中的六个上表现出更好的性能。
我们还利用相同的主干网络对 VST-T++ 与重新训练的 Mask2Former-T [96] 进行了比较。研究结果表明,VST++ 的表现优于 Mask2Former-T,凸显了我们独特设计的优势。
图 4 和图 5 显示了表现最佳的模型之间的视觉比较结果。我们提出的 VST++ 可以在一些具有挑战性的情况下准确检测出显著物体,例如大型显著物体、复杂背景和多个显著物体。
E. 失败案例分析
尽管我们的 VST++ 方法优于其他 RGB SOD 和 RGB-D SOD 算法,并且很少产生完全错误的预测结果,但仍存在一些失败的情况,如图 6 所示。左侧部分(RGB-D)和右侧部分(RGB)展示了前景和背景杂乱或相似的情况,这使得定义显着对象变得具有挑战性。在这种情况下,我们的方法始终突出显示最显着的区域。例如,在第二行 RGBD 示例中,它描绘了一条前景和背景杂乱的小巷,我们的方法不确定棋盘、灯、装饰和孩子是否都构成了显着的物体。因此,它突出显示了最显着的区域,即棋盘最亮的部分。类似地,在第二行 RGB 示例中,前景和背景看起来相似度很高,我们的方法突出显示了最突出的人,而地面真相则表明是裸露的地面。同样,其他最先进的方法也遇到了这些样本的困难。
F. 应用于RGB-T SOD
为了进一步证明我们提出的 VST++ 模型的泛化能力,我们将其应用于另一个基于多模态的 SOD 任务,即 RGB-T SOD,该任务旨在根据一对 RGB 和热图像推断显着性。与 RGB-D SOD 中的深度图类似,热图像也为 RGB 图像提供独特且互补的信息,例如穿透烟雾和雾。然而,与深度图像相比,热图像具有独特的特征。深度图像擅长区分前景和背景,而热图像仅专注于辨别场景的热特性,与前景和背景的相关性较小。因此,我们不对热图像采用深度位置编码,而是采用正弦位置编码。
为了确保比较的公平性,我们遵循以前的 RGB-T SOD 方法 [72]、[73]、[130]、[131],并采用 VT5000 数据集 [72] 的训练集来训练我们的模型。随后,我们在 VT5000 的测试集和其他两个基准数据集(即 VT821 [67]、VT1000 [69])上评估我们的模型。对于这三个基准数据集,VT821 [67] 包含 821 个带注释但未配准的图像对,这些图像对处于低光和多个显著物体等复杂场景中。VT1000 [69] 包括使用高度对齐的 RGB 和热像仪捕获的 1,000 个 RGB-T 图像对。VT5000 [72] 是一个广泛的大规模数据集,具有高分辨率、高多样性和低偏差样本,包含 5,000 对 RGB-T 图像。
我们将我们的模型与八个基于 CNN 的最新 RGB-T SOD 模型进行比较,即 SGDL [69]、FCMF [70]、ADF [72]、ECFFNet [130]、CGFNet [73]、CSRNet [131]、MGAI [132] 和 MIDD [71],以及一个最先进的基于变换器的 RGB-T SOD 方法:SwinNet [89]。此外,我们将两个最先进的 RGB SOD 模型(CPD [128] 和 BASNet [62])和三个最先进的 RGB-D SOD 模型(BBSNet [14]、TANet [63] 和 MMNet [129])应用于 RGB-T SOD 任务进行比较,分别表示为“RGB → RGB-T”和“RGB-D → RGB-T”。对于 RGB SOD 模型,我们保持模型不变,但将 RGB 和热数据组合为输入。对于 RGB-D SOD 模型,我们用热输入代替深度输入。其结果由 [130] 提供。比较结果如表 VI 所示。
结果表明,我们的模型超越了所有其他 RGB → RGB-T 和 RGB-D → RGB-T 模型,展示了我们的模型与之前的 RGB 和 RGB-D 模型相比更出色的泛化能力。总体而言,我们的 VST++ 优于大多数具有可比计算成本的 RGB-T 模型,但 VT821 数据集除外。由于与其他数据集相比,VT821 包含更多噪声样本,我们假设我们的纯基于 Transformer 的模型可能比基于 CNN 的模型对噪声更敏感。值得注意的是,SwinNet 模型的解码器完全基于 CNN,这可以解释其结果与我们的模型相比影响较小。我们在图 7 中提供了说明性实例,以直观地将我们的方法与几种最先进的解决方案进行比较。显然,我们的 VST++ 更全面、更准确地突出了显著的对象。
5.总结
这项工作扩展了我们之前的视觉显著性变换器(VST)模型,该模型基于纯变换器,通过序列到序列任务视角统一 RGB 和 RGB-D SOD。在 VST 中,我们设计了一个多任务变换器解码器,允许在纯变换器架构中联合执行显著性和边界检测。此外,我们为基于变换器的框架引入了一种新颖的标记上采样方法,使我们的模型能够毫不费力地获得全分辨率显著性图。基于我们的 VST 模型,在这项工作中,我们提出了一个选择整合注意力(SIA)模块来降低传统自注意力的计算成本。它选择前景区域,将它们分成细粒度段,并将背景信息聚合到代表粗粒度段的单个标记中。为了以低成本整合深度位置信息,我们设计了一种针对深度图量身定制的新型深度位置编码方法。我们还引入了有效的 token 监督预测损失,为显著性和边界 token 提供直接监督信号,从而提高模型性能。为了评估我们提出的 VST++ 的有效性,我们在 RGB、RGB-D 和 RGB-T 基准数据集上对各种基于 Transformer 的主干进行了全面的实验。实验结果表现出强大的泛化能力,并提高了模型的性能和效率。