超越传统:新型变换器框架在 WSSS 中展现卓越性能!

2024-11-18 11:14   安徽  


点击上方卡片,关注“AI学术工坊”公众号

各种重磅干货,第一时间送达


MCTformer+:用于弱监督语义分割的多类标记转换器

摘要

本文提出了一种基于变换器的新型框架,用于为弱监督语义分割 (WSSS) 生成精确的类特定对象定位图。利用标准视觉变换器中一类标记的关注区域可以生成类无关定位图的见解,我们研究了变换器通过学习多个类标记来捕获类特定注意力以进行类判别对象定位的能力。我们提出了多类标记变换器,它结合了多个类标记以实现与补丁标记的类感知交互。这是通过类感知训练策略来实现的,该策略在输出类标记和真实类标签之间建立了一一对应关系。我们还引入了对比类标记 (CCT) 模块来增强判别类标记的学习,使模型能够更好地捕捉每个类的独特特征。因此,所提出的框架有效地从与不同类标记相关的类到补丁注意力中生成类判别对象定位图。为了改进这些定位图,我们建议利用从补丁到补丁转换器注意力机制中得出的补丁级成对亲和力。此外,所提出的框架无缝补充了类激活映射 (CAM) 方法,从而显著提高了 PASCAL VOC 2012 和 MS COCO 2014 上 WSSS 的性能。这些结果强调了类标记对 WSSS 的重要性。

论文链接:https://arxiv.org/pdf/2308.03005

论文标题:MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation

论文作者:Lian Xu, Mohammed Bennamoun, Farid Boussaid, Hamid Laga, Wanli Ouyang, Dan Xu

1.关键字

弱监督学习、Transformer、类别标记、语义分割、对象定位。

2.引言

传统的语义分割方法通常依赖于精确注释的像素级标签,而这些标签的获取成本高昂且需要大量标签。另一方面,弱监督语义分割 (WSSS) 方法在弱监督的前提下运行,这涉及使用更容易获得且不太精确的注释形式。WSSS 的主要目标是实现准确的分割结果,同时最大限度地减少对像素级注释的需求。相反,弱监督方法利用较弱的监督形式,包括图像标签 [1]、[2]、[3]、[4]、涂鸦 [5] 和边界框 [5]。这些弱注释仅提供有关图像内对象或类的空间范围的有限信息,而不指定每个区域的确切边界。

WSSS 任务的一个重要方面是利用弱标签生成高质量的伪语义掩码。这通常是通过依赖卷积神经网络 (CNN) 的类激活映射 (CAM) [6] 来实现的。然而,CAM 技术只能提供粗略且不精确的类特定密集定位图。为了解决这个问题,WSSS 技术采用了各种算法和策略,包括利用额外的线索和先验,例如上下文信息、共现统计或类之间的关系,从弱注释中推断出像素级分割掩码。虽然 WSSS 方法取得了重大进展,但它们仍然面临各种挑战。弱标签中的模糊性和噪声,以及 CNN 架构的固有问题(例如,有限的感受野),可能导致不完善的伪地面真值语义掩码,需要复杂的算法来处理不确定性并提高准确性。

视觉变换器 (ViT) 是专为计算机视觉量身定制的先驱变换器模型,在各种视觉任务中表现出色。值得注意的是,ViT 通过利用其捕获大量上下文信息的卓越能力,在大规模图像识别方面取得了显著成功。ViT 通过将图像分割成块并将它们转换为矢量的顺序表示来处理图像数据。通过利用基于标记的设计并结合基于自注意的数据处理机制,ViT 有助于在块之间建立有意义的连接,捕获图像内的依赖关系和关系。此外,ViT 的一个特殊功能在于它使用了一个额外的类标记,它可以整合来自整个块标记序列的信息。虽然一些变换器方法 [7]、[8]、[9] 省略了类标记,但这项工作强调了它的关键意义,特别是对于 WSSS。Caron 等人[10] 观察到,自监督 ViT 的图像特征可以明确呈现语义分割信息。特别是,人们注意到,类标记注意力能够发现语义场景布局,在无监督分割任务中产生令人鼓舞的结果。虽然 Caron 等人 [10] 已经表明 ViT 的多头注意力层中的各个头可以专注于语义上不同的图像区域,但准确将头部链接到语义类的方法仍然不确定。换句话说,这些注意力图仍然独立于特定类别(见图 1 (a))。

利用 Transformer 的特定类别注意力提出了重大挑战。我们认为,使用单一类别标记会阻碍 Transformer 在单个图像中定位各种对象的能力。这主要有两个原因。(i)单一类别标记的存在本身就能够学习多种图像信息,包括各种类别和背景上下文。因此,特定类别和通用对象特征都可在此单一类别标记中捕获。这不可避免地会导致嘈杂且类别区分性较差的定位。(ii)一个类别标记缺乏有效建模数据集内多个不同类别与补丁标记的复杂关系的能力,导致不同对象的定位不精确。

为了解决这些限制,一个简单的解决方案是使用多个类标记,每个标记都针对特定类的学习表示。为了实现这一点,我们提出了一个多类标记转换器 (MCTformer) [12],它使用多个类标记通过转换器注意力来捕获与不同对象的独特关系。然而,ViT 中类标记数量的增加并不能固有地赋予它们特定的含义。为了确保各个类标记对各自对象类别的判别能力,提出了一种类感知训练策略。更具体地说,我们通过执行类平均池化来处理转换器编码器的最后一层生成的多个类标记。这会生成类分数,这些分数从真实图像级标签直接接受监督,形成从每个类标记到其各自类标签的一对一映射。这种设计的固有好处在于直接使用每个类标记和补丁标记之间学习到的注意力作为不同对象类别的类特定定位图。

需要强调的是,在补丁标记之间学习到的 Transformer 注意力机制本身就产生了补丁级别的成对亲和力,而无需在训练期间进行任何额外的计算。可以利用这一宝贵信息来增强特定于类的 Transformer 注意力图,从而产生更平滑、更连贯的边界以及更好的连续性,从而显著提高定位性能。此外,这项工作还表明,所提出的 MCTformer 与 CAM 协同作用,在补丁标记(我们称之为 PatchCAM)上实现时可产生强大的组合。通过对多个类标记和补丁标记进行联合学习以实现相同的分类目标,可以实现它们之间的强对齐,从而大大增强生成的定位图的类别判别能力。

在本文中,我们提出了 MCTformer+,它主要从两个方面改进了 MCTformer [12]:(i)为了增强类到补丁转换器注意力图的类别区分能力,我们在输出类别标记上引入了额外的正则化损失。这些正则化损失确保类别标记彼此不同,迫使它们关注不同的补丁标记。这鼓励模型为每个类别学习更多样化和更具体的注意力模式,从而提高类别区分和定位能力(见图 1 (b) 和 (c))。(ii)我们引入了全局加权排名池化来取代全局平均池化,用于聚合输出补丁标记以预测类别分数。根据补丁标记与目标对象类的相关性,为它们分配不同的权重。这种加权池化策略可确保更具信息性和区分性的补丁标记对最终类别分数预测做出更大贡献。因此,PatchCAM 地图表现出显著的改进,不相关背景区域的包含显著减少。这有效地提高了物体定位的精度和准确度。这两种方法共同有助于提高特定类的密集定位性能,从而提高整体 WSSS 性能。

本文的主要贡献有三方面:

  • 我们提出了一种用于弱监督语义分割的新型多类标记转换器。(MCTformer+)。据我们所知,这是第一项利用转换器注意力来生成特定类定位图的工作。
  • 为了实现特定类的标记学习,我们提出了一种类感知训练策略和一个对比类标记模块,共同为类判别多类转换器注意力图做出贡献。
  • 所提出的方法充分利用了 WSSS 的转换器注意力。我们从每个类标记和补丁标记之间的转换器注意力中提取特定类的定位图。我们还建议将补丁之间的转换器注意力用作补丁级成对亲和力,从而大大增强生成的定位图。

所提出的 MCTformer+ 的每个组件的有效性都得到了广泛的验证。所提出的 MCTformer+ 与 PASCAL VOC 2012 和 MS COCO 2014 基准上针对 WSSS 的最新先进方法以及 OpenImages 数据集上针对弱监督对象定位的最新先进方法进行了比较,证明了所提出方法的优越性。

3.方法

3.1概述

我们提出了一种新颖的多类标记转换器框架,以利用类特定转换器注意力机制对 WSSS 进行判别性对象定位。如图 2 所示,所提出的 MCTformer 的整体架构包括转换器编码器和类激活 (CAM) 模块。与只有一个类标记的标准 ViT 不同,所提出的 MCTformer 配备了多个类标记。我们还提出了一种类级训练策略以及所提出的多类标记设计,以引导每个类标记学习带有 patch标记的类特定注意力机制。所提出的框架可以轻松集成 CAM 模块,该模块可以使用 patch标记生成额外的类激活图来补充类特定转换器注意力图。我们进一步提出了一个扩展框架,即 MCTformer+(如图 4 所示),它在转换器编码器和 CAM 模块上都对 MCTformer 进行了改进。我们引入了在传统 CAM 模块中使用全局加权排名池化而不是全局平均池化。我们还提出了一个对比类标记模块,将其插入到 transformer 编码器中,以实现更具判别性的类标记学习。对于特定类的定位推理,可以融合来自 transformer 注意力和 CAM 模块的两种类型的地图。我们还建议在补丁之间提取 transformer 注意力来细化融合的地图,从而进一步提高特定类的定位性能。以下小节将详细描述这些步骤。

3.2 MCTformer

在本节中,我们介绍了所提出的多类变换器 MCTformer(如图 2 所示)的细节,包括其核心多类标记结构设计,以及所提出的类感知训练和 CAM 的集成。

多类标记结构设计。RGB 图像被划分为 个块。这些块经过矢量化并线性投影到一系列块标记中,表示为 ,其中 是嵌入维度,。我们提出学习多个类标记 ,其中 表示类数。然后将这些类标记与块标记和位置嵌入相结合。得到的标记 用作 Transformer 编码器的输入,该编码器由一系列 编码层组成。在每个 Transformer 编码层中,都使用多头注意 (MHA) 模块和多层感知器 (MLP)。在 MHA 和 MLP 之前,分别应用两个 LayerNorm 层。

在每个 MHA 模块中,自注意力机制用于学习标记之间的成对交互。作为输入,首先对标记序列进行归一化,然后将其线性投影到三个向量序列,分别表示查询 、键 和值 。缩放点积注意力 [41] 机制用于计算查询向量和键向量的每对之间的注意力得分。此注意力模块通过根据所有标记的特定注意力权重动态聚合它们的信息来更新每个标记。其公式如下:

其中获得了全局成对标记注意图 。我们建议使用 Transformer 自注意力来提取和细化 WSSS 的类特定定位图。详细过程在第 3.4 节中详细说明。

类别感知训练。传统的 Transformer 在最终输出的类别标记上应用 MLP 头来预测类别得分。我们的方法涉及多个类别标记,表示为 。我们的目标是确保每个类别标记都捕获唯一且具有区分性的类别相关信息。为了实现这一点,我们在输出类别标记上采用类别平均池化来预测类别得分,如下所示:

其中 表示类别预测。在类别得分和真实图像级标签之间计算多标签软边距损失,如下所示:

这为每个类别标记提供了直接的类别感知监督,使它们能够有效地封装特定于类别的信息。

CAM 的集成。提出的 MCTformer 可以通过合并 CAM 模块进行扩展 [6]、[45]、[47]。我们从 Transformer 编码器 的输出标记中提取补丁标记 。如图 3 所示,重塑的补丁标记通过具有 个输出通道的卷积层,生成 2D 特征图,表示为 。然后通过全局平均池 (GAP) 层处理这些特征图以产生类别分数。由于输出类别标记也有助于类别预测(参见等式 (2)),因此整体损失函数包括两个分类损失,如下所示:

在这里插入图片描述

MCTformer [12] 引入了一种有效的基于变换器的框架,使 CAM 模块能够灵活而稳健地适应多标签图像。通过将分类损失应用于类标记和补丁标记的类预测,所提出的框架强制了这两类标记之间的强一致性,从而增强了模型学习。直觉主要有两个方面。首先,这种一致性约束充当辅助监督,引导学习过程朝着更有效的补丁表示方向发展。其次,通过消息传递实现的补丁标记和多类标记之间的强成对交互产生了更具代表性的补丁标记。因此,这会生成更多类别区分的 PatchCAM 图,超越了仅使用一个类标记获得的结果,如 TS-CAM [45] 中所示。

3.3 MCTformer+

图 4 概述了所提出的 MCTformer+。所提出的 MCTformer+ 旨在增强 MCTformer 的两个组件,即变换器编码器和 CAM 模块,从而改进它们派生的类特定定位图。本节详细介绍了 MCTformer+ 引入的两个增强方面。

全局加权排名池化。CAM [6] 建议使用全局平均池化 (GAP) 使 CNN 仅使用图像级标签即可实现定位能力。然而,Kolesnikov 等人 [13] 发现,传统的全局池化技术有其缺点。例如,全局平均池化 (GAP) 鼓励模型在所有位置上都有高响应,而全局最大池化 (GMP) 鼓励模型仅在一个位置上有高响应。这导致 GAP 和 GMP 分别对对象区域的大小估计过高和低估。为了解决这些限制,我们在 Transformer 框架中引入了全局加权排名池化 (GWRP) 方法 [13],以聚合用于类预测的补丁标记。与在聚合过程中为每个补丁分配相同权重的 GAP 不同,GWRP 考虑到每个通道的所有补丁的激活排名而分配不同的权重:

其中 表示通过对从输出补丁标记派生的 2D 特征图执行通道向量化而得到的输出; 表示最终池化结果,即类预测; 表示排名指数,例如,对于类 表示衰减率。这种 GWRP 策略允许模型优先考虑更具信息量的补丁,确保它们对最终的全局类得分做出更大的贡献。这可以缓解传统池化方法面临的对象高估或低估问题,从而产生更准确、更可靠的类特定定位图。

使用 GWRP 池化策略,可以从输出补丁标记中获得类别预测分数:

该分支最终导致类别预测和图像级标签 之间的分类损失:

其中 由公式(3)给出。

对比类标记增强。虽然类感知训练策略使不同的类标记能够关注不同的对象区域,但同一图像中存在的不同类的类到块转换器注意力图通常包含重叠的局部对象区域。这一观察结果可以归因于两个因素:(i) 通过聚合每个类标记嵌入实现的类分数上的多标签一对多损失的利用并不能严格确保不同类标记之间的区分;(ii) 通过仅对最高级别的输出类标记应用损失,这种损失的影响主要限于网络的最后几层。中间层或下层可能无法从损失中获得足够的指导,以有效区分不同的类标记。

为了获得不同且不重叠的类到补丁 Transformer 注意力图,我们提出了一个具有正则化损失的对比类标记 (CCT) 模块,该模块提供更强的监督并鼓励对类标记进行类别区分。更具体地说,如图 5 所示,给定第 个 Transformer 编码层的输出类标记 ,我们计算每两个类标记之间的成对相似性,形成相似性矩阵 。为了鼓励每个类标记仅与自身相似并且与所有其他类标记不相似,在相似性矩阵和单位矩阵 $I \in \mathbb{R}^{D \times D} 之间计算交叉熵损失。此对比损失施加于每个 Transformer 编码块的输出类标记。这使得模型能够在整个网络中接收更强、更频繁的指导,以学习更具区分性和特定于类的表示。这有助于提高定位性能,同时减少由于关注区域重叠而产生的歧义。相似性矩阵和提出的对比损失定义如下:

在这里插入图片描述

其中 是变换器编码层的索引, 是变换器编码层的数量。

总损失由两个分类损失和一个正则化损失组合而成,如下所示:

3.4 类别特定的定位推断

在本节中,我们详细介绍了生成特定类定位图的过程,这些定位图来自两个来源,即一个来自所提出的特定类的多类标记注意力,另一个来自集成的 CAM 模块。本节还描述了建议使用 transformer 注意力来细化地图。

类特定的多类标记注意力。如图 2 所示,提取的 Transformer 自注意力图由小圆圈阵列表示。小圆圈阵列的前 行表示 个类和所有标记之间的注意力分数。我们提取数组的黄色部分,表示每个类和所有块标记的注意力分数,表示为类到块注意力 ,其中 。通过将每行注意力分数映射回各自的原始块位置,可以将类到块注意力转换为类特定的定位图。每个 Transformer 层都有其类到块注意力图。特别是,较深(顶层)层捕获更多特定于任务的高级表示,而较浅(底层)层捕获更通用的低级表示。为了在生成的特定类定位图的准确率和召回率之间取得平衡,我们建议结合来自前 个变换器编码层的类到块注意机制。这个过程可以表述为:

其中 表示从所提出的 MCTformer 的第 l 层获得的类到块注意力。 表示生成的组合图。该图进一步归一化,生成最终的类特定定位图 。K 的选择在第 4 节中有广泛讨论,并在图 9 中进行了可视化。

地图融合。由于 CAM 模块已集成到所提出的框架中,我们还可以从补丁标记中提取特定类的定位图(表示为 PatchCAM,)。PatchCAM 图是通过对特征图 进行归一化从 CAM 模块的卷积层获得的。PatchCAM 图可以作为所提出的多类变压器注意图的补充。改进的类特定定位图 可以通过以下两种地图类型的组合来获得:

其中 表示逐元素乘法运算符。

特征图细化。先前的研究 [37]、[38]、[39] 经常利用成对亲和力来增强对象定位图。通常,实现这一点需要训练额外的参数来学习亲和力。相比之下,我们的方法引入了一种新技术,其中成对亲和力图直接从补丁之间的变压器注意力中获得,而无需任何额外的计算或监督。更具体地说,我们从全局成对注意力图中提取补丁到补丁的注意力 ,因为 ,这由图 2 中带有蓝点的矩阵表示。然后,我们将补丁到补丁的注意力重新格式化为 4D 张量 。该张量用于增强融合图,如下所示:

其中 是经过改进的融合类特定定位图。如表 7 和图 8 所示,使用块对块注意力作为成对亲和力可获得更优的类特定定位图,并增强外观连续性和平滑度。[45] 中没有提到这一点。

4.实验

4.1 实验设置

数据集。使用三个数据集(包括 PASCAL VOC 2012 [48]、MS COCO 2014 [49] 和 OpenImages [50])来评估所提出的方法。PASCAL VOC 分别分为训练 (train)(1,464 张图像)、验证 (val)(1,449 张图像)和测试 (1,456 张图像) 集。此数据集中有 21 个类别,包括一个背景类。一种广泛采用的训练实践 [19]、[20]、[25]、[29]、[39]、[51] 涉及合并来自 [52] 的额外数据,以组成总共 10,582 张训练图像。MS COCO 分为训练(80K 幅图像)和验证(40K 幅图像)集。有 81 个类别,包括背景类。 OpenImages 分为训练集(29,819 张图像)、验证集(2,500 张图像)和测试集(5,000 张图像)。此数据集中有 100 个类别。

评估指标。对于 WSSS 任务,根据先前的研究 [19],使用平均交并比 (mIoU) 来评估训练集上生成的伪语义掩码的质量以及 PASCAL VOC 和 MS COCO 数据集的验证集上的最终语义分割性能。官方在线评估服务器用于在 PASCAL VOC 测试集上生成分割结果。对于 WSOL 任务,我们的重点是像素级评估。根据先前的研究 [50]、[75],使用峰值交并比 (pIoU) 和像素平均精度 (PxAP) 来评估测试集上的类特定定位图。

实施细节。为了构建所提出的多类标记转换器,我们使用 DeiT-S 作为主干 [45]、[76]。我们使用 DeiT-S 在 ImageNet [77] 上的预训练权重进行模型初始化。具体而言,所有类标记都由 DeiT-S 的预训练类标记权重初始化。我们使用了 [45]、[76] 中建议的数据增强方法和其他训练超参数。GWRP 中的衰减参数设置为 0.996,如 [13] 中建议的那样。对于语义分割网络,我们遵循先前的研究 [15]、[20]、[37]、[39],使用 DeepLab-V1 和 ResNet38 [78] 作为主干。在推理阶段,使用多尺度输入和 CRF [79] 进行后处理。

4.2 与 WSSS 最新成果的比较

PASCAL VOC。我们使用细化方法 [37]、[53] 评估了由所提出的方法生成的类特定定位图(表示为种子)及其后处理输出(表示为掩码)的 mIoU,遵循了常见的做法 [19]、[20]、[25]、[29]、[51],其中掩码是用于训练分割网络的伪标签。如表 1 所示,所提出的 MCTformer+ 在种子和掩码方面都比现有方法表现出显着的性能改进。特别是,所提出的方法在种子和 MCTformer [12] 方面分别比最佳方法 (LPCAM) [60] 好 3.5% 和 7.1%。如表 3 所示,所提出的 MCTformer+ 在验证集和测试集上实现的分割 mIoU 分别为 74.0% 和 73.6%。值得注意的是,所提出的 MCTformer+ 方法超越了所有现有的仅使用图像级标签的方法,甚至取得了与使用额外显著性图的方法相当或更优的结果。表 4 中可以找到更详细的每类 IoU,该表表明,在验证集和测试集中,所提出的 MCTformer+ 在大多数类中的表现都优于 MCTformer,无论是否使用后处理方法。图 6 展示了 MCTformer+ 和 MCTformer 在验证集上的定性分割比较。它表明 MCTformer+ 产生了更具判别性的分割模型,即使在遮挡等具有挑战性的场景中也能够有效识别物体。例如,它成功区分了第三列中的沙发,克服了遮挡,准确定位了感兴趣的物体。此外,MCTformer+ 可以很好地分割透明物体,如在第七列中观察到的那样,它准确地区分了中间的瓶子。此外,该模型还能够分割小物体,例如它成功识别了第六列中的猫。这些结果突出了所提出的 MCTformer+ 的稳健性和有效性。

MS COCO。如表 2 所示,所提出的 MCTformer+ 获得了 45.2% 的分割 mIoU,取得了优于近期方法的结果。值得注意的观察是,一些采用额外显着性信息的方法的性能低于仅依赖图像级标签的近期方法。这凸显了使用预训练显着性模型的局限性,这些模型可能会在复杂数据集上表现出次优性能。我们在图 7 中提供了定性分割结果。

4.3 与 WSOL 最新成果的比较

OpenImages。我们在最近推出的具有复杂背景环境的具有挑战性的多类单标签 OpenImages 数据集上评估了所提出的 MCTformer+ 的密集定位性能。表 5 显示,我们的方法实现了 55.6% 的 pIoU 和 72.8% 的 PxAP,远远优于以前的方法。

4.4 弱监督实例分割

PASCAL VOC。为了进一步评估所提方法的有效性,我们使用所提方法的输出生成伪标签进行训练,评估了弱监督实例分割的性能。更具体地说,我们遵循 IRN [53] 生成伪实例分割标签,并使用生成的伪标签训练 Mask R-CNN 模型,以 ResNet-50-FPN [87] 为骨干。表 6 报告了生成的伪标签和实例分割结果的评估结果。它表明,在不同 IoU 阈值下,所提出的方法在平均精度方面大大优于 IRN [53] 和 LIID [86]。

4.5 MCTformer 消融研究

多类标记学习的效果。具有一个类标记的传统 ViT 只能生成独立于类的定位图。TS-CAM [45] 通过将 CAM 应用于 ViT 的补丁标记实现了特定于类的定位图。在不对其官方实现进行任何修改的情况下,我们使用 TS-CAM 仅获得了 29.9% 的 mIoU。通过简单地在其 CAM 图上添加 ReLU 层,TSCAM(表示为 TS-CAM∗)获得了 11.4% 的大幅增益,如表 7 所示。相比之下,我们提出的基线网络 MCTformer 从多个类标记和补丁标记之间的 transformer 注意力中生成特定于类的定位图,在 mIoU 中实现了 47.2%,比 TS-CAM∗ 明显高出 5.9%。这个结果表明了通过学习多个类标记实现的类特定 transformer 注意力的优势。

特征融合的效果。表 7 表明,类特定 Transformer 注意力图与扩展版中从补丁标记派生的 CAM 图融合,可使定位 mIoU 达到 58.2%。通过利用补丁到补丁注意力作为亲和力进一步细化融合的定位图,所得 mIoU 显着提高,达到 61.7%。 在图 8 中,很明显,类特定 Transformer 注意力有效地定位了物体,尽管它表现出较低的响应和一些噪音 (e)。相反,PatchCAM 图 (f) 在物体区域显示出更高的响应,但它们也会激活物体周围的更多背景像素。融合这两种地图类型可显着改善定位图 (g),这些定位图仅集中在物体区域,同时显着降低背景噪音。这证明了我们提出的方法比 TS-CAM [45] (b) 具有显著的优势,后者在大多数情况下表现出稀疏和低物体响应。

特征图细化的效果。如表 7 所示,所提出的 PatchAffinity 的有效性(即补丁标记之间的变换器注意力)在增强生成的类特定定位图和在具有和不具有 CAM 模块的不同 MCTformer 变体之间产生的分割性能方面保持一致。结果表明,它们产生的种子图持续显著改善。它们的分割性能分别提高了 3.2% 和 1.5%。如图 8 (d) 和 (h) 所示,细化的类特定定位图表现出增强的完整性和更平滑的物体轮廓。这些结果进一步证明了所提出的方法在生成有效的成对亲和力方面具有显著优势,无需额外的计算。

不同的类别预测方法。为了实现有效的特定类别标记学习,我们评估了处理输出类别标记的不同方法,并研究了它们对产生的多类别 Transformer 注意力的影响。表 8 显示,平均池化表现最佳,mIoU 为 47.2%,而最大池化表现最低,为 26.8%。利用全连接层可获得 41.5% 的 mIoU。这证实了我们最初的设计动机,因为平均池化鼓励类别标记关注更相关的补丁,与最大池化相比,可以改善定位的空间上下文,而通过全连接层包含其他参数可能会使模型的判别定位学习变得复杂。

注意力融合的层数。我们评估了通过将来自没有 CAM 模块的 MCTformer 不同层的多类 Transformer 注意力图组合而生成的类特定定位图的质量。根据 [29],我们采用了三个评估指标,即假阳性率 (FP)、假阴性率 (FN) 和 mIoU。FP 可作为 CAM 图中存在的过度激活问题程度的指标,而 FN 可洞察激活不足问题的程度。图 9 显示,组合来自更多层的注意力图往往会产生过度激活的类特定定位图。这表明浅层主要有助于学习通用的低级表示,这可能不利于精确的高级语义定位。另一方面,减少层数会导致更具判别性的物体定位图,但代价是降低激活覆盖率。图 9 显示,融合最后三层的注意力图可产生质量最佳的种子(mIoU 为 47.2%)。

4.6 MCTformer+ 消融研究

计算复杂度。表 9 比较了所提出的 MCTformer+、基于 DeiT-S 的 MCTformer 和广泛使用的模型 ResNet38 [78] 的计算复杂度,用于生成特定于类的定位图 [20]、[29]、[37]。比较基于参数数量 (#Params)、乘法累加运算 (MAC)、GPU 内存使用量和推理速度。表 9 清楚地表明,所提出的 MCTformer+ 在所有指标上都表现出比 ResNet38 低得多的复杂度。尽管是 MCTformer 的扩展,但所提出的 MCTformer+ 产生了类似数量的 MAC、#Params,GPU 内存使用量增加不到 0.3%,处理单个图像的推理速度降低了 0.3 毫秒,突显了其效率。请注意,模型的 GPU 内存使用量是使用命令行工具“gpustat”以 1 的小批量进行测量的,同时不计算任何梯度,并且推理速度是在单个 GeForce RTX 3090 GPU 上测量的。

不同全局空间池化方法的效果。表 10 显示了通过学习使用不同的空间池化方法来聚合用于类预测的补丁标记而获得的密集定位结果。全局最大池化 (GMP) 通过跨空间维度(即高度和宽度)取最大激活值来聚合特征图,并导致 mIoU 为 59.4% 的密集定位结果。GMP 有助于定位每个类预测最相关和最具区分性的信息。但是,它可能导致对象定位图不完整。全局平均池化 (GAP) 通过跨空间维度取平均值来聚合特征图。GAP 平等对待所有空间位置,这隐含地假设所有空间位置都具有相同的包含有用信息(例如感兴趣的对象)的概率。这有助于生成更全面的对象定位图,mIoU 显着提高 66.1%,但容易覆盖不相关的信息。相比之下,GWRP 执行加权池化,其中分配给每个空间位置的权重由其相应的等级决定。通常,等级越低,分配给该空间位置的权重越高。GWRP 通过基于等级的加权在考虑空间分布(如 GAP)和突出显着特征(如 GMP)之间取得平衡,从而获得 68.8% 的最佳定位 mIoU。如表 11 所示,在使用不同的训练分辨率时,GWRP 的功效在提出的 MCTformer+ 中保持一致。如图 10 所示,通过使用 GWRP,与使用 GAP 的 MCTformer 相比,MCTformer+ 生成了更准确的 PatchCAM 地图,背景噪声显著降低,表明 GWRP 在引导模型仅关注对象区域方面的有效性。

CCT 约束下不同层的影响。我们研究了将提出的 CCT 模块应用于不同层的输出类标记的影响。图 11 显示,仅在最后一层的输出类标记上应用 CCT 会产生最差的定位 mIoU,为 64.8%,与完全不使用 CCT 相比,性能有所下降。其背后的原因在于损失梯度对早期层的影响有限,并且最终输出类标记上存在两个损失,这对优化提出了挑战。相反,在所有层的输出类标记上应用 CCT 可获得最佳的定位性能,mIoU 为 68.8%。由于输入类标记共享相同的初始化,没有任何额外的指导,因此早期层的输出类标记往往会变得相似。考虑到层之间的相互依赖性,这种相似性阻碍了中间层或顶层生成不同的类标记。这表明,在所有层上加入密集约束可显著增强判别性类别标记的学习。如表 11 所示,在使用不同的训练分辨率时,所提出的 CCT 的功效保持一致。如图 10 所示,通过使用 CCT 模块,与 MCTformer 相比,MCTformer+ 在 MCT 注意力和 PatchCAM 中均能生成更具类别判别性的定位图。例如,MCTformer 中“人”和“船”的不同类别标记都关注 transformer 注意力中属于“船”类的补丁,而 MCTformer+ 的不同类别标记则能正确关注不同的补丁。

5.结论和未来工作

在本文中,我们介绍了 MCTformer+,这是一种创新的基于 Transformer 的框架,旨在生成针对特定类别的精确对象定位图。 我们证明,学习多个类标记可以从类到块注意力中发现特定于类的定位信息。提出的 ContrastiveClass-Token 模块进一步促进了更多类判别定位图的生成。此外,块到块注意力学习成对亲和力,这可以有效地细化定位图以使其更准确。此外,我们展示了我们提出的框架与 CAM 机制的无缝集成,共同为 WSSS 贡献了高质量的伪地面真值标签。总体而言,我们的研究结果突出了所提出的 MCTformer+ 的有效性和简单性,以及它显着提高 WSSS 模型性能的潜力。我们的方法超越了现有方法,并在 WSSS 领域建立了新的基准。

我们提出的方法的一个限制是它受限于封闭集场景,其中模型在预定义的类别内运行。这在实际环境中带来了挑战,因为可能存在可见和不可见的类别,从而限制了该方法对动态环境的适应性。未来的研究可以探索诸如少样本学习、零样本学习或持续学习方法等技术。另一个有希望的方向是集成大规模预训练的视觉语言模型 (VLM) 或大型语言模型 (LLM),它们在理解复杂的视觉和文本数据方面表现出卓越的能力。通过结合这些技术,可以增强该方法的适应性和鲁棒性,从而扩展其在具有不断发展的类别分布的现实世界或开放世界场景中的实际效用。此外,我们的方法在语义分割任务之外还有潜在的应用,例如医学图像分析、环境监测和城市规划,其中精确定位物体和区域至关重要。


AI学术工坊
分享最新AI资源
 最新文章