CMAE横空出世,在视觉任务中取得惊人成果

2024-11-20 11:16   安徽  


点击上方卡片,关注“AI学术工坊”公众号

各种重磅干货,第一时间送达


对比掩蔽自动编码器是更强大的视觉学习者

摘要

掩码图像建模 (MIM) 在各种视觉任务上取得了令人鼓舞的成果。然而,学习到的表征的有限可辨别性表明,要打造更强大的视觉学习器,还有很长的路要走。为了实现这一目标,我们提出了对比掩码自动编码器 (CMAE),这是一种新的自监督预训练方法,用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和掩码图像模型 (MIM),CMAE 利用它们各自的优势,学习具有强大实例可辨别性和局部可感知性的表征。具体而言,CMAE 由两个分支组成,其中在线分支是一个非对称编码器-解码器,动量分支是一个动量更新编码器。在训练期间,在线编码器从掩码图像的潜在表示中重建原始图像以学习整体特征。动量编码器以完整图像为输入,通过与其在线对应方进行对比学习来增强特征可辨别性。为了使 CL 与 MIM 兼容,CMAE 引入了两个新组件,即用于生成合理正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计,CMAE 有效地提高了其 MIM 对应物的表示质量和传输性能。CMAE 在图像分类、语义分割和对象检测等竞争激烈的基准测试中实现了最先进的性能。值得注意的是,CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别比之前的最佳结果高出 0.7% 和 1.8%。

论文链接:https://arxiv.org/pdf/2207.13532

论文题目:Contrastive Masked Autoencoders are Stronger Vision Learners

论文作者:Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng

1.关键字

掩码图像建模、对比学习、自监督学习。

2.引言

掩码图像建模 (MIM) [23, 30, 56] 因其方法简单且能够学习丰富而全面的表示,最近在自监督学习领域引起了越来越多的关注。遵循 NLP 中掩码语言建模的思想 [19],他们随机屏蔽大部分训练图像块,并使用自动编码器 [31] 重建掩码块的原始信号(例如,原始像素、离线提取的特征)。[23, 30, 56] 表明,这种简单的框架在 ImageNet 分类 [18] 和一些下游任务(如对象检测和语义分割)中都优于以前的自监督学习方法。

当我们反思 MIM 的成功时,不可避免地会将其与另一种久经考验且流行的 SSL 方法,即对比学习 (CL) [2, 42] 进行比较。通过采用一种简单的判别思想,即从同一幅图像中拉出更接近的表示并推开不同的图像,CL 方法自然赋予了保留模型强大的实例可辨别性。与 CL 相比,MIM 更侧重于学习输入图像中的局部关系以完成重建任务,而不是对不同图像之间的关系进行建模 [35]。因此,人们怀疑 MIM 在学习判别性表示方面效率较低。[30, 56] 中的实验结果已经表明了这个问题。基于以上分析,我们很自然地会问这样一个问题:我们能否利用对比学习来进一步加强 MIM 方法学习到的表示?或者换句话说,MIM 方法是否会从对比学习中受益?沿着这个方向,一些当代作品试图通过简单地结合对比学习和 MIM 学习目标来训练视觉表示模型 [46, 65]。但与 MIM 方法相比,它们仅显示出微不足道的性能提升。这些结果表明,充分利用这两个框架的优势并非易事。挑战归因于它们之间的各种区别,包括输入增强、训练目标、模型架构等。

为了克服挑战并为下游任务学习更好的图像表示,我们旨在探索一种在统一框架中通过对比学习来增强 MIM 的可能方法。通过一系列仔细的研究,我们发现输入视图增强和潜在特征对齐在协调 MIM 和对比学习方面发挥着重要作用。因此,我们致力于这些组件以开发我们的方法。

图 1 显示了所提出方法的概述。更具体地说,我们的方法引入了一个用于表示学习的对比 MAE (CMAE) 框架。它采用了连体架构 [5]。一个分支是一个在线更新的非对称编码器-解码器,它学习潜在表示以从几个可见的补丁中重建掩码图像,类似于 MAE。另一个分支是一个动量编码器,它提供对比学习监督。为了利用对比学习来提高编码器输出的特征质量,我们在在线分支中引入了一个辅助特征解码器,其输出特征用于与动量编码器输出进行对比学习。

我们精心设计了每个 CMAE 组件,以使对比学习能够使 MIM 受益。与输入仅包含可见补丁的在线编码器不同,CMAE 动量编码器被输入全套图像补丁。这种设计确保其输出特征的语义完整性以指导在线编码器。另一个值得注意的设计选择是:我们的方法使用两个解码器,一个用于预测图像像素并执行 MIM 任务;另一个用于恢复掩码标记的特征。由于每个补丁的语义都是不完整且模糊的,因此直接使用补丁的特征进行对比学习是有问题的。使用辅助特征解码器可以解决这个问题,从而有利于在线分支中的潜在表示学习。此外,与使用强空间数据增强进行输入的现有方法不同,我们提出了一种像素移位增强方法,用于在对比学习中生成更合理的积极观点。这种简单的增强被证明可以有效地通过对比学习改善 MIM。通过上述新颖的设计,我们的 CMAE 方法的在线编码器可以学习更多整体信息的判别特征,并在各种预训练和迁移学习视觉任务中实现最先进的性能。

我们的贡献总结如下。1)我们提出了一种新的 CMAE 方法来探索如何通过使用对比学习来改进 MIM 的表示。其学习到的表示不仅保留了局部上下文敏感特征,而且还对不同图像之间的实例判别性进行了建模。2)为了对 MIM 进行对比学习,我们提出了一个特征解码器来补充掩蔽特征,并提出了一种弱空间移位增强方法来生成合理的对比视图,这两种方法都可以有效地提高编码器特征质量。3)如图 2 所示,我们的方法显着改善了 MIM 的学习表示并设定了新的最先进性能。值得注意的是,与现有技术相比,CMAE 在 ImageNet-1k 分类验证分割上实现了 0.7% 的绝对增益,在 ADE20K 语义分割验证数据集上实现了 1.8% 的 mIoU,在 CoCo 验证分割上实现了 0.4% 的 APb 和 0.5% 的 APm。

3.方法

3.1 框架

我们方法的总体框架如图 3 所示,由三个组件组成。在线编码器和解码器学习从掩蔽的观察中重建输入图像。与现有的 MIM 方法(例如 MAE [30] 和 SimMIM [56])不同,我们的方法通过空间移位裁剪操作进一步处理输入图像。更重要的是,我们的解码器结合了一个额外的特征解码器来预测输入图像特征。动量编码器将输入图像的增强视图转换为特征嵌入,以便与在线特征解码器的预测视图进行对比学习。这样,在线编码器学习到的表示不仅可以捕获输入图像的整体特征,还可以捕获判别特征,从而实现更好的泛化性能。我们现在详细阐述这些组件。

我们将输入图像 表示为在线编码器,它被标记为 个图像补丁标记序列 ,其中 是图像补丁的总数。对于 的掩码版本,可见标记集表示为 。类似地,输入图像 被标记为图像补丁标记序列 ,以作为动量编码器的输入。

在线编码器。在线编码器 将可见标记 映射到嵌入特征 。给定标记序列 ,我们屏蔽掉大部分补丁并将访问过的补丁提供给在线编码器。在线编码器采用 Vision Transformer (ViT) 架构 [21],遵循 MAE [30]。它首先通过线性投影将可见标记 嵌入为标记嵌入,并添加位置嵌入 [49] 。我们将融合的嵌入提供给一系列 Transformer 块,并得到嵌入特征

预训练后,在线编码器 用于在下游任务中提取图像表示。

动量编码器。引入动量编码器是为了为在线编码器提供对比监督,以学习判别性表示。与现有的基于连体的方法 [10, 65] 不同,我们的动量编码器 仅用于对比学习,并引导在线编码器学习更多判别性特征。它与在线编码器 共享相同的架构,但将整个图像作为输入,以保留学习表示的语义完整性和判别性。将整个图像作为动量编码器的输入对于方法性能很重要,这在第 4.4 节中通过实验验证了这一点。与 NLP 中的标记不同,其语义几乎是确定的,图像标记的语义含义是模糊的 [65]。为了避免歧义,我们采用全局表示进行对比学习。动量编码器的均值池特征因其简单性而被使用,即

其中 是动量编码器的输入标记, 是动量编码器的输出序列, 是对输出序列 进行均值池化操作后得到的特征,用于表示输入图像。

与在线编码器不同,我们通过指数移动平均 (EMA) 更新动量编码器的参数。也就是说,将 的参数分别表示为 ,参数通过 进行更新。这里 在整个实验中固定为 0.996。使用动量更新是因为它通过促进平滑的特征变化来稳定训练,如在 MoCo [29] 和 BYOL [26] 中发现的那样。

在线解码器。解码器旨在将潜在特征 和 MASK 标记特征映射到动量编码器和原始图像的特征空间。具体来说,解码器接收编码的可见标记 和 MASK 标记

与 MAE [30] 类似,位置嵌入被添加到输入标记中。由于映射目标不同,我们的在线解码器有两个解码器结构分支,一个是像素解码器,另一个是特征解码器。像素解码器 学习重建被遮罩的补丁的像素。我们使用包含 的全套标记来预测补丁 的像素。该模块可以促进模型学习图像中每个补丁的整体表示。我们将像素解码器设置为堆叠的 Transformer 块:

其中 是一个指标,表示仅从输出序列 中选择与被屏蔽的标记相对应的预测,而 是被屏蔽的补丁的输出预测。

为了与动量编码器的输出保持一致,应用特征解码器 来恢复掩码标记的特征。特征解码器具有与像素解码器相同的结构,但不共享参数以服务于不同的学习目标。此类设计选择的重要性将在第 3.4 节的架构部分中讨论。给定编码的可见标记 ,我们添加掩码标记 ,并使用这个完整集合来预测掩码标记的特征。与动量编码器中所做的类似,我们将均值池化操作应用于特征解码器 的输出作为整个图像表示 ,然后使用此特征进行对比学习。

其中 是全集中标记的总数。

3.2 视图增强

通常,掩蔽图像建模预训练任务仅使用输入图像的单个视图,该视图仅包含访问过的补丁。但对比学习通常采用两种不同的增强视图。为了使 MIM 和对比学习相互兼容,我们的方法还生成两个不同的视图并分别将它们提供给其在线和动量分支。

在对比学习中,最常用的视图增强可分为两种类型:空间传输(例如,随机调整大小裁剪、翻转)和颜色传输(例如,颜色抖动和随机灰度)。对于 MIM 任务,颜色增强会降低结果 [30],因此我们不将它们应用于在线分支的输入。空间和颜色数据增强应用于动量分支输入,以避免出现简单的解决方案。

我们首先考虑使用两种不同的随机裁剪的两个分支,遵循对比学习中的常见做法。然而,我们观察到这种方法对模型性能有不利影响(参见第 4.4 节)。我们推测,当随机裁剪的区域相距较远或语义相关性不大时,这个问题与在线/动量编码器的输入之间存在较大差异有关。与在通常的对比方法中使用完整的配对视图不同,在 MIM 中屏蔽大部分输入的操作可能会放大这种差异,从而产生假阳性视图。因此,对这些未对齐的正对进行对比学习实际上会产生噪音,并妨碍学习有区别的、有意义的表示。

为了解决上述问题,我们提出了一种称为像素移位的弱增强方法来生成在线/动量编码器的输入。核心思想是首先通过从原始图像中调整大小的随机裁剪获得主图像。然后两个分支共享相同的主图像并通过在主图像上稍微移动裁剪位置来生成各自的视图。更详细地说,我们将主图像表示为 的形状为 ,其中 是模型目标输入大小的宽度和高度, 是允许的最长移位范围。对于在线分支,我们使用 区域作为输入图像 。对于动量分支,我们使用 区域作为输入图像 范围内的独立随机值。随后,我们仅对在线编码器 的输入应用掩码操作而不应用颜色增强,这与 MAE 一致。对于动量编码器的输入图像,我们利用颜色增强但不应用掩码操作。每个编码器输入的不同增强会生成同一图像的不同视图,以促进在线和动量编码器之间的对比学习。

3.3 训练目标

重建损失。按照 [30],我们在重建任务中使用归一化像素作为目标。我们采用均方误差 (MSE) 作为损失函数,并仅计算像素解码器预测和原始图像之间的掩码块的损失。数学公式为

其中 是图像中被遮罩的块的数量, 是损失值。

对比损失。为了清楚起见,我们从两个方面描述了我们方法的对比损失设计:损失函数和头部结构。考虑了两种广泛使用的损失函数,即 InfoNCE [12, 29] 损失和 BYOL 样式 [10, 26] 损失。前者试图同时从同一样本中拉出接近的正视图并推开负样本,而后者仅最大化正视图之间的相似性。尽管最近的一些研究发现它们可能本质上是统一的 [45],但由于它们对表示学习的不同影响,我们仍然分别分析它们。在我们的方法中,我们观察到使用 InfoNCE [42] 的性能更好,因此我们默认使用它。详细信息请参阅第 4.4 节。对于头部结构,我们采用广泛使用的“投影-预测”结构,遵循 [14, 26]。具体来说,我们分别将“projectionprediction”和“projection”头附加到特征解码器和动量编码器。带有动量编码器的投影头 也通过指数移动平均线更新。由于在线/动量编码器的生成输入存在很大差异(参见第 3.2 节),我们使用非对称对比损失,这与以前的方法 [14, 26] 不同。来自特征解码器 的表示通过“projection-prediction”结构进行转换以得到 。类似地,对于来自动量编码器 的表示,我们应用投影头并得到 。然后我们计算它们之间的余弦相似度

我们将 表示为正对余弦相似度,它由来自同一图像的 构建而成。 表示第 个负对的余弦相似度。我们使用来自同一批次中不同图像的 来构建负对。InfoNCE 损失的损失函数为

其中 是温度常数,设置为0.07。 是批次大小。

总体学习目标是重构损失 和对比损失 的加权组合,定义为:

3.4 连接与分析

为了阐明 CMAE 与先前方法之间的相关性和区别,我们从训练目标、输入和架构等各个角度进行了比较评估。结果如表 1 所示。我们主要关注的是利用 MIM 中的对比信息或蒙版图像输入的方法。仅采用 MIM 或对比学习的方法不属于本次讨论的范围,因为它们显然与我们的方法不同。

训练目标。CMAE 在优化过程中同时利用了重建损失和对比损失。从公式 (7) 可知,CMAE 中的对比损失包括视图内匹配和图像间对比。因此,生成的表示被鼓励表现出实例区分和空间敏感性的理想特征。相比之下,MSN [1] 和 ExtreMA [54] 等方法与我们的方法动机不同,它们忽略了重建损失,并使用掩码输入进行正则化或数据增强。iBot [65] 通过最大化视图内匹配分数,专门采用正视图之间的蒸馏损失,而忽略了使用负样本的对比学习。此外,CMAE 仅采用非对称损失进行对比学习,这比 iBot 的计算成本更低。虽然 SIM [46] 也利用了这两种损失,但它在重建目标方面与 CMAE 不同。CMAE 恢复了同一视图的掩码内容,而 SIM 则重建了另一个视图的特征。我们的实证结果表明,CMAE 在表征学习方面不仅更简单,而且更有效,其卓越的性能就是明证。

输入。大多数先前的对比学习方法 [12, 29] 都实现了稳健的增强技术(例如,随机裁剪、随机缩放)以从同一图像生成正视图。这些操作也常用于掩蔽图像建模场景下的对比学习模型,例如 iBot。然而,考虑到使用大掩蔽率(例如 [30] 中的 75%)的掩蔽操作已经显著降低了输入的质量,进一步应用这些增强可能会生成无效的正视图,从而阻碍对比学习。相比之下,我们提出了一种新颖的、适度的数据增强操作,称为像素移位,以实现正视图之间更好的对齐。与在两个连体分支中使用完全相同视图的 ExtreMA [54] 相比,像素移位引入了适度的输入方差,这对对比学习有益(参见表 4a)。

架构。在 CMAE 中,在在线编码器之后附加了一个轻量级特征解码器来补充掩码特征。这与其他方法(例如 SIM 和 iBot)有显著区别,后者直接利用可见补丁的表示来匹配未掩码视图的表示。我们认为,在掩码部分的特征和输入图像之间进行对比学习是不切实际的,因为它们表现出不同的抽象级别和语义覆盖范围。特征解码器有望通过缩小对比特征之间的分布差距来促进优化。特征解码器的有效性已通过经验验证,如表 4c 所示。值得注意的是,CMAE 的设计是非侵入式的,允许将其直接应用于现有的 MIM 模型(例如 MAE 和 ConvMAE),而无需对 MIM 模型进行重大修改。

4.实验

4.1 实现细节

预训练。我们遵循 MAE [30] 的设置对我们的模型进行预训练。我们默认采用 AdamW [40] 优化器,动量设置为 。此外,权重衰减设置为 0.05。我们使用线性缩放规则 [25]: 来设置学习率。基本学习率为 ,批处理大小为 4096。采用余弦学习率计划 [39],预热 40 个epoch。所有预训练实验均在 32 个 NVIDIA A100 GPU 上进行。

编码器结构。我们使用 ViT [21] 基础模型作为默认设置。为了进一步验证我们提出的模型的可扩展性,我们用混合卷积 ViT 替换 ViT,ConvMAE [23] 也使用了该模型。在混合 ViT 中,使用多层卷积网络 [34] 作为标记投影。请注意,混合 ViT 的模型大小与 ViT 相同,以便进行公平比较。我们还尝试使用扩展编码器来评估我们方法的可扩展性。

4.2 ImageNet 上的结果

遵循现有研究 [3、14、30、56],我们使用包含 1k 类别的 1.3M 张图像的 ImageNet-1K [18] 作为预训练和微调数据集。数据集包含两个子集:训练集和验证集。我们仅使用训练集对 CMAE 进行预训练。预训练后,使用 CMAE 在线编码器在 ImageNet-1k 训练集上进行 100 个 epoch 的微调。对于使用 300 个 epoch 进行预训练的模型,我们采用 作为微调的基本学习率。由于较长的预训练计划(1600 个 epoch)使模型能够学习更好的微调初始化权重 [57],我们设置了较小的 基本学习率。此外,我们遵循常见的微调实践,使用 mixup [61]、cutmix [59]、drop path [33] 等对模型进行正则化。

在表 2 中,我们将 CMAE 与竞争方法在 ImageNet 上的微调分类准确率进行了比较。CMAE 实现了 84.7% 的 top-1 准确率,比 MAE [30] 高 1.1%。在所有使用 ViT 架构的模型中,CMAE 实现了最佳性能。与基于对比学习的方法 Moco-v3 [14] 和 DINO [10] 相比,我们的模型可以分别显著优于它们 1.5% 和 1.9%。与 MIM 中同样使用对比目标的 iBOT 和 SIM 相比,我们的 CMAE 实现了更高的性能,分别提高了 0.7% 和 0.8%。以上结果有力地证明了 CMAE 的优越性。

当我们用混合卷积 ViT 替换原始 ViT 编码器(如 ConvMAE [23] 中所做的那样)时,CMAE 分别在 800 个 epoch 和 1600 个 epoch 的预训练下进一步提高到 85.0% 和 85.3%。这些结果分别比相同预训练设置下的 ConvMAE 高出 0.4% 和 0.7%,验证了 CMAE 对各种网络结构的出色可扩展性。

值得注意的是,CMAE 可以通过延长训练时间(从 800 个 epoch 到 1600 个 epoch)获得显着的改进,而 ConvMAE 在 800 个 epoch 时达到饱和。这一结果表明 CMAE 在学习更好的表示方面具有更强的能力。

4.3 迁移学习

为了进一步验证 CMAE 的可转移性,我们遵循以前的方法来评估语义分割数据集 ADE20K [64]、对象检测数据集 COCO2017 [37] 和分类数据集上的预训练模型。

语义分割。ADE20K [64] 有 150 个细粒度类别的 25,562 张图像。我们采用 Upernet [55] 作为此任务的默认模型,遵循比较方法的设置。主干 ViT-B 从预训练初始化,而其他模块则使用 Xavier [24] 初始化。该模型在 ADE20K 的训练集上进行微调,并在标准验证分割上进行测试。

继之前的研究之后,我们在表 3a 中报告了 CMAE 的平均交并比 (mIoU) 性能。我们注意到 CMAE 显著超过 MAE 2.9%,这证明了 CMAE 具有更强的可迁移性。此外,与 iBOT [65] 和 CAE [15] 相比,CMAE 也分别提高了 1.0% 和 0.8%。在相同的混合 ViT 主干上,CMAE 的表现显著优于 ConvMAE 1.8%。值得注意的是,CMAE 以 52.5 的成绩创下了新的最先进成绩,以较大的优势超越了所有竞争方法。

目标检测和分割。我们采用广泛使用的对象检测和实例分割框架 Mask-RCNN [28, 36] 来对此任务进行基准测试。ViT-B 用作主干,并使用我们预先训练的模型进行初始化。在 MAE 之后,我们在 COCO train2017 分割上对模型进行微调,并在 val2017 分割上报告对象检测的框 AP 和实例分割的掩码 AP。我们对模型进行了 100 个 epoch 的微调。基本学习率为 ,采用余弦退火计划,权重衰减设置为 0.1。

与其他自监督学习方法的比较结果如表 3b 所示。可以看出,CMAE 在 APb 上比 MAE 从 51.7 提高到 52.4,在 APm 上从 45.9 提高到 46.5。在混合 ViT 结构下,CMAE 始终超越竞争方法 ConvMAE:APb 从 52.5 增加到 52.9,APm 从 46.5 增加到 47.0。上述有希望的结果再次验证了我们方法的有效性。

分类任务。为了进一步研究分类任务中的迁移学习,我们在表 5 中的 iNaturalists [48] 和 Places [63] 上验证了我们的模型。在这些数据集上进行的四个分类任务的实验表明,与 MAE [30] 相比,top-1 准确率持续提高了 1.0% 到 1.7%。这些结果为我们的方法在增强保留模型的判别能力方面的有效性提供了进一步的证据。

4.4 方法分析

为了了解关键组件的影响并验证我们在 CMAE 中采用的设计选择,我们进行了一系列消融实验。除非另有说明,否则我们将在本节中报告我们的模型在 300 个预训练epoch内的性能。消融结果列于表 4 中。接下来,我们将验证主要设计思想的有效性,然后分别对每个组件进行消融实验。

组件消融。在表 4a 中,我们展示了每个组件(即对比学习、像素移位数据增强和特征解码器)如何影响模型的性能。我们从 MAE 上对比学习的 vanilla 实现开始。具体而言,遵循对比方法中的输入生成方法,将带有掩码的随机裁剪区域输入在线/动量编码器。在在线编码器和动量编码器的输出之间优化了与第 3.3 节中介绍的相同的对比目标。从表 4a 可以看出,这种直观的方法只能带来边际改善(0.2%)。显然,由于忽略了对比学习与 MIM 的兼容性,其威力并未得到充分释放。通过使用建议的适度数据增强,即像素移位,结果可以从 83.1% 提高到 83.6%,这证明了像素移位的优势。此外,应用特征解码器进一步提升了模型的学习能力,将性能提高到 83.8%,证明了其在我们方法中的有效性。

对比损失。为了探索对比损失在 CMAE 中的影响,我们尝试了各种损失权重,即公式 (8) 中的 。结果如表 4d 所示。注意,当损失权重为 0 时,CMAE 退化为基线 MAE。当将权重从 0 增加到 1 时,模型的性能也会相应提高,这验证了对比学习对增强学习到的表示的重要性。当对比学习的权重大于 MIM 的权重时,我们观察到出现训练不平衡的现象,这会对最终表现产生不利影响。该实验表明,对比损失和重构损失对于学习能力表示都至关重要。因此,我们在整个实验过程中将

我们还对不同的对比损失形式进行了对照实验,以比较它们对预训练的影响。在相同的配置下,我们观察到使用 InfoNCE 损失训练的模型比 BYOL 式损失训练的模型获得了更高的性能(83.8% vs. 83.4%)。这个结果表明,在我们的方法中,在 InfoNCE 中使用负样本的方式更有效。

像素移位增强。在本节中,我们重点介绍数据增强的重要性。与在对比学习中应用大量数据增强的常见做法相比,我们发现适度的数据增强在对齐对比学习和 MIM 方面更有效。我们将数据增强方法分为两种:空间传输和颜色传输,并分别评估它们的效果。对于空间传输,我们将我们提出的像素移位与常用的随机调整大小裁剪进行比较。对于颜色传输,我们比较了两种情况,即对动量分支使用或不使用颜色抖动。

从表 4b 可以看出,像素移位明显优于随机裁剪(83.4% vs. 83.0%)。像素移位的优越性应归因于它能够产生更合理的积极观点。如第 3.2 节所述,此属性有助于对比学习在我们的框架中更好地与 MIM 协作。通过使用颜色迁移,结果进一步提高到 83.8%,这表明颜色迁移是对我们的方法的补充。

我们通过改变最大允许移位来研究不同像素移位范围的影响。直观地看,较大的移位范围会在两个增强视图之间引入更大的错位。如表 6 所示,过度的移位会严重降低模型性能,符合我们的假设,即严重错位的正对会引入不利于对比学习的噪声。结果表明,视图多样性和对齐之间存在最佳平衡。根据在不同移位范围内观察到的性能,我们选择最大像素移位 31 作为默认参数设置,以最大化对比学习,同时保持足够的对齐。

特征解码器。与现有工作不同,我们在进行对比学习时引入了一个特征解码器来恢复被遮盖的补丁的特征。为了研究其有效性,我们在以下两种设置下进行了实验:在特征解码器和像素解码器之间共享权重或不共享权重,以及改变特征解码器的深度。

在表 4c 中,数字“0”表示不使用特征解码器,即使用仅包含可见标记特征的在线编码器的输出进行对比学习。在这种设置下,我们的方法比使用轻量级两层特征解码器的性能更差。增加特征解码器的深度时,对性能没有显着影响。然而,当深度增加到 8 时,我们得到了一个简单的解决方案,可能是由于更深的结构导致的优化难度。为了在效率和效果之间取得平衡,我们将深度设置为 2。此外,当特征解码器与像素解码器共享权重时,该方法的性能最差。一个合理的解释是这两个分支有不同的目标,因此应该采用独立的权重。

动量分支的掩码率。在这个实验中,我们研究了为动量分支掩码部分图像块是否会影响模型性能。根据之前的研究,我们为动量分支选择了一组掩码率,包括 {0, 0.25, 0.5, 0.65, 0.75},并观察性能如何变化。如表 4e 所示,可以观察到使用完整的图像标记集可获得最佳结果。一个可能的原因是:由于添加动量分支的目的是为我们的模型提供对比监督,因此最好结合图像的完整语义。否则,带有退化语义信息的掩码输入可能会导致对比学习中的次优解决方案。基于这一观察,我们模型中的动量分支在整个实验过程中使用整个图像作为输入。

收敛速度。为了进一步展示我们方法的有效性,我们比较了在 ImageNet-1k 上进行微调时 CMAE 和 MAE 的收敛行为。使用具有 1600 个epoch的预训练权重作为初始化。如图 5 所示,我们观察到 CMAE 与 MAE 相比收敛速度快得多:仅用 55 个微调epoch,CMAE 就已经超越了 MAE 的最终性能。该结果表明,CMAE 学习到的表示可以更容易地适应特定任务,这是一个有吸引力的特性,符合自监督预训练的目的。

4.5 部分微调和线性探测

在特定任务训练的背景下,部分微调 [30, 41, 58, 62] 和线性探测方法都将模型的大多数组件保留在冻结状态。然而,一个关键的区别在于被调整的头部的性质:部分微调采用非线性头部,而线性探测采用线性头部。正如 [30] 所强调的那样,鉴于线性探测与迁移学习性能的相关性最小,部分微调成为评估非线性但更有效的表示的更优越的协议。鉴于这些观察,我们的研究也强调了部分微调指标。

具体来说,我们遵循[30]的实验设置,使用1600个epoch的预训练来消除CMAE基础模型。如图4a所示,我们的模型在所有测试设置中的表现都始终优于MAE,例如,当微调一个块时,我们比MAE提高了2.5%。以上结果表明,我们的模型可以有效地提高基线方法的表示质量。注意,当微调块的数量为“0”时,它会退化为线性探测。在这种情况下,我们的模型比MAE实现了显着的改进(5.9%)。这些结果表明,我们的方法能够在两个评估指标下提高表示质量。此外,与典型的对比模型MoCo-V3 [14]相比,MoCo-V3在线性探测设置中表现出优异的性能。然而,在部分微调设置下,CMAE 在各方面都超越了 MoCo-V3,特别是在仅微调一个块时,CMAE 的提升幅度达到 3.8%。这也证明了我们的模型学习到的特征质量更高。

4.6 模型缩放

为了研究我们的方法对不同规模模型的可扩展性,我们采用 ViT-small、ViT-base 和 ViT-large 作为编码器,并报告它们在 ImageNet-1k 微调上的性能。如图 4b 所示,CMAE 可以在所有规模上持续提升 MAE 的性能。这些结果清楚地证明了 CMAE 出色的可扩展性。

4.7 特征分析

为了更有效地审查我们的模型获得的特征,我们利用 ViT-base 模型进行调查。完成预训练后,我们从 ImageNet-1k 验证集中提取特征并计算以下指标:

  • 平均类内距离:此指标测量同一类内所有图像对之间的平均距离。
  • 类内距离的标准差:此指标测量同一类中图像之间的距离变化。
  • 平均类间距离:此指标测量来自不同类中心的所有图像对之间的平均距离。
  • 类间距离的标准差:此指标测量来自不同类中心的图像之间的距离变化。

当我们计算平均类内距离时,CMAE 的平均类内距离为 0.0377,低于 MAE 的 0.0380。此外,如图 6a 所示,CMAE 的类内距离标准差小于 MAE(0.0189 vs. 0.0371)。这些结果表明,CMAE 提取的特征在潜在空间中聚类更紧凑。关于类间距离,我们计算每个类中心到其他类中心的平均距离以及到其他类中心距离的标准差。如图 6b 和 6c 所示,CMAE 的平均类间距离较大(0.0340 vs. 0.0309),类间距离的标准差较小(0.0152 vs. 0.0310)。这表明 CMAE 提取的特征在潜在空间中各个类别的分布更均匀,类间距离更大。

总之,上述结果证明,与 MAE 相比,我们的模型能够学习更优异的视觉表征,并具有更强的辨别能力。

5.总结

本文介绍了一种名为对比掩蔽自动编码器 (CMAE) 的新型自监督学习框架,旨在通过利用对比学习来提高 MIM 的表示质量。在 CMAE 中,我们分别从输入生成和架构的角度提出了两种新颖的设计,以协调 MIM 和对比学习。通过大量实验,证明 CMAE 可以显著提高预训练中学习到的表示质量。值得注意的是,在三个成熟的下游任务(即图像分类/分割/检测)上,CMAE 实现了最先进的性能。未来,我们将研究将 CMAE 扩展到更大的数据集,并结合图像密集字幕作为基于 CMAE 的对比学习训练的另一种视角。


AI学术工坊
分享最新AI资源
 最新文章