ReSSL:自监督学习的 “关系派对”,实例们都来 “凑热闹” 啦!

2024-11-25 12:16   安徽  

点击上方卡片,关注“AI学术工坊”公众号

各种重磅干货,第一时间送达

弱增强引导的关系自监督学习

摘要

包括主流对比学习在内的自监督学习 (SSL) 在学习没有数据注释的视觉表示方面取得了巨大成功。然而,大多数方法主要关注实例级信息(即,同一实例的不同增强图像应具有相同的特征或聚类到同一类中),但对不同实例之间的关系缺乏关注。在本文中,我们介绍了一种新颖的 SSL 范式,我们称之为关系自监督学习 (ReSSL) 框架,该框架通过对不同实例之间的关系进行建模来学习表示。具体而言,我们提出的方法采用不同实例之间成对相似性的锐化分布作为关系度量,从而用于匹配不同增强的特征嵌入。为了提高性能,我们认为弱增强对于表示更可靠的关系很重要,并利用动量策略提高实际效率。设计的非对称预测器头和 InfoNCE 预热策略增强了对超参数的鲁棒性并有利于最终的性能。实验结果表明,我们提出的 ReSSL 在不同网络架构(包括各种轻量级网络(例如 EfficientNet 和 MobileNet))中的表现大大优于最先进的方法。

论文链接:https://arxiv.org/pdf/2203.08717

论文标题:Weak Augmentation Guided Relational Self-Supervised Learning

论文作者:Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu

1.关键字

对比学习、无监督学习、自监督学习、表征学习。

2.引言

最近,自监督学习 (SSL) 已显示出其优越性,并在计算机视觉任务中的无监督视觉表征学习中取得了令人鼓舞的结果 [10]、[13]、[38]、[40]、[44]、[54]、[74]、[88]。典型的自监督学习算法的目的是从大量没有人工注释的数据中学习一般的视觉表征,这些表征可以在下游任务(例如分类、检测和分割)中转移或利用。一些先前的研究 [8]、[38] 甚至已经证明,良好的无监督预训练可以带来比监督预训练更好的下游性能。

在各种 SSL 算法中,对比学习 [10]、[82]、[88] 是一种最先进的框架,主要侧重于从不同视角学习不变特征。例如,实例鉴别是一种广泛采用的前置借口任务,如 [10]、[40]、[88],它利用噪声对比估计 (NCE) 来鼓励同一图像的两个增强视图在嵌入空间上拉近,但将所有其他图像推开。深度聚类 [7]、[8]、[91] 是一种替代的前置借口任务,它强制将同一实例的不同增强视图聚类到同一类中。然而,基于实例鉴别的方法将不可避免地引发类碰撞问题 [2]、[17]、[58],其中相似的图像应该被拉近而不是被推开。基于深度聚类的方法与传统聚类算法相结合,为每个实例分配一个标签,放宽了实例区分的约束,但这些算法大多采用一个强假设,即标签必须引起数据的均分,这可能会引入一些噪音并损害学习到的表示。

在本文中,我们介绍了一种新颖的关系自监督学习框架 (ReSSL),它不鼓励明确地推开不同的实例,而是使用关系作为一种方式来研究实例间关系并强调实例内的不变性。具体来说,我们的目标是保持两个不同增强的不同实例之间的成对相似性的一致性。例如,如果我们有三个实例 ,其中 的两个不同增强, 是不同的样本。然后,如果 相似但与 不同,我们希望 可以保持这种关系,反之亦然。这样,关系可以建模为一组增强图像之间的相似性分布,然后使用它作为度量来对齐具有不同增强的相同图像,以便可以在不同的增强视图中保持不同实例之间的关系。

然而,如果我们遵循与其他对比学习方法 [10]、[40] 相同的训练方法,这种简单的方式会导致意想不到的糟糕表现。我们认为,构建适当的关系对于 ReSSL 很重要;默认情况下,通常会利用 [10]、[11]、[75] 中的激进数据增强来生成不同的正对,从而增加前置任务的难度。然而,这会损害目标关系的可靠性。激进增强生成的视图可能会导致语义信息的丢失,因此目标关系可能会很嘈杂且不那么可靠。通过这种方式,我们建议利用较弱的增强来表示关系,因为更少的干扰可以在不同实例之间提供更稳定、更有意义的关系。此外,我们还锐化目标分布以强调最重要的关系,并利用带有动量更新网络的内存缓冲区来减少对大批量的需求,以提高效率。通过这种简单的关系度量,我们的 ReSSL [101] 在 200 个 epochs ImageNet 预训练中实现了 69.9% 的 Top-1 线性评估准确率,比我们的基线 (MoCo V2) 好 2.4%。

为了进一步改进 ReSSL [101],我们利用了 BYOL [38] 中的非对称结构,以及在投影仪顶部采用附加预测头的 SimSiam [13]。我们表明,打破对称性可以提高性能并使系统对选择超参数具有鲁棒性。此外,我们发现目标关系在训练的早期阶段不是很可靠。为了解决这个问题,我们提出了一种使用 InfoNCE 策略进行热身的策略,该策略从训练过程开始就采用 InfoNCE,并随着训练逐渐将目标转移到我们的关系指标。请注意,InfoNCE 目标将引入明确的正负对,我们在本文中不鼓励这样做。但是,它可以在训练的早期阶段提供更好的指导。这样,模型将首先执行实例判别任务,然后逐渐放松约束并更加注意维护样本之间的关系。通过预测器和 Warm-up 策略,ReSSL 的线性评估准确率可从 69.9% 进一步提升至 72.0%。值得注意的是,在使用 Multi-Crop 策略(200 个 epoch)时,ReSSL 实现了 76.0% Top-1 准确率的新最佳性能,比 CLSA-Multi [83] 高出 2.7%。

另一方面,上述大多数对比学习算法 [10]、[12] 仅适用于大型网络(例如 ResNet50 [42] 甚至更大),但在小型网络上的性能不尽如人意。例如,使用 MoCo V2 在 ImageNet 上的线性评估准确度仅为 EfficientNet-B0 [71] 的 42.2% 左右,比其监督性能 77.1% 低 34.9%。使用 MobileNet-V3-Large [45],性能差距变得更大(36.3% vs 75.2%)。为了解决这个问题,已经提出了一些知识蒸馏 (KD) 方法来将预训练的 SSL 特征从大型网络转移到小型网络。在本文中,我们表明 ReSSL 对轻量级架构非常友好,因为线性评估性能可以直接超越以前的 KD 算法(例如 SEED [33]、DisCo [35] 和 BINGO [90]),而无需大型教师。例如,通过 200 个 epoch 的预训练和多裁剪策略,ReSSL 使用 ResNet18 / ResNet34 实现了 66.5% / 71.0% 的 Top-1 线性评估准确率。这个结果比 SEED 高 8.6% / 12.5%,比 DisCo 高 5.9% / 8.5%,比 BINGO 好 4.1% / 7.5%。(所有 KD 方法都有一个 ResNet-50 教师,Top-1 准确率为 67.5%。)

我们的贡献可以总结如下。

  • 我们提出了一种新颖的 SSL 范式,我们将其称为关系自监督学习 (ReSSL)。ReSSL 在不同增强下保持实例之间的关系一致性,而不是明确地推开不同的实例。
  • 我们提出的弱增强和锐化分布策略提供了稳定且高质量的目标相似性分布,这使得框架运行良好。
  • ReSSL 是一个简单有效的 SSL 框架,因为它只是用我们提出的关系一致性损失取代了广泛采用的对比损失。通过对 MoCo 进行简单的修改,ReSSL 以更低的训练成本实现了最先进的性能。
  • ReSSL 是一个轻量级友好框架。与以前在小型架构上性能不佳的对比学习算法不同,ReSSL 持续提高各种轻量级网络的性能,并实现比 KD 算法更好的性能。

3.方法

在本节中,我们将首先回顾对比学习的初步工作;然后,我们将介绍我们提出的关系自监督学习框架(ReSSL)。之后,还将解释算法和实现细节。

3.1 自监督学习的准备工作

给定 个未标记样本 ,我们随机应用增强函数 的组合,通过 获得两个不同的视图 ,其中 的随机种子。然后,使用基于卷积神经网络的编码器 从这些样本中提取信息,即 。最后,利用两层非线性投影头 将 h 映射到嵌入空间,可写为:。SimCLR [10] 和 MoCo [40] 风格框架采用噪声对比估计 (NCE) 目标来区分数据集中的不同实例。假设 的两个增强视图的表示,而 是不同的实例。NCE 目标可以用等式 (1) 表示,其中 是温度参数。请注意,我们默认采用 标准化向量来表示

BYOL [38] 和 SimSiam [13] 风格的框架添加了一个额外的非线性预测头 ,它进一步将 映射到 。该模型将最小化 之间的负余弦相似度(相当于最小化 距离)。

通常会采用停止梯度和动量老师等技巧来避免模型崩溃。

3.2 关系自监督学习

在经典的自监督学习中,不同的实例需要彼此远离,而同一实例的增强视图则需要具有完全相同的特征。然而,如果采用激进的增强,由于存在相似的样本和扭曲的语义信息,这两个约束都过于受限。这样,我们不鼓励每个实例都有明确的负面实例(需要推开的实例);相反,我们利用成对的相似性来探索它们之间的关系。我们从这种关系度量的意义上提取两种不同增强的特征。因此,我们的方法放宽了 (1) 和 (2),其中不同的实例并不总是需要彼此远离;同一实例的增强视图只需要共享相似但不完全相同的特征。

具体来说,给定一批样本中的一张图像 ,可以通过 获得两个不同的增强视图,并计算相应的嵌入 。然后,我们计算第一个增强图像实例之间的相似性。可以通过 来衡量。可以采用 softmax 层来处理计算出的相似性,然后产生关系分布:

其中 为温度参数。同时,我们可以计算出 与第 个实例的关系为 。得到的关系分布可以写成:

其中 是不同的温度参数。我们建议通过最小化 Kullback-Leibler 散度来推动 之间的关系一致性,这可以表述为:

由于 将是一个常数值,因此我们在实现中仅最小化

使用动量目标可提高效率。然而,目标相似性分布 的质量至关重要,为了使相似性分布可靠且稳定,我们通常需要较大的批量大小,这对 GPU 内存非常不友好。为了解决这个问题,我们使用了 [12]、[40] 中的“动量更新”网络,并维护一个由 个过去样本 组成的大内存缓冲区 (遵循 FIFO 原则)来存储过去批次中的特征嵌入,然后可用于模拟大批量关系并提供稳定的相似性分布。

其中 分别表示最新的编码器和头部,因此我们将它们命名为学生模型,下标为 。另一方面, 分别代表过去的编码器和头部的集合,因此我们将它们命名为教师模型,下标为 表示动量系数,它控制教师 的更新速度。

更清晰的分布作为目标。注意, 的值必须小于 ,因为 将用于生成目标分布。较小的 将导致“更清晰”的分布,这可以解释为突出显示 最相似的特征,因为相似的特征将具有更高的值,而不同的特征将具有更低的值。将 对齐可以被视为将 拉向与 相似的特征。通过这种方式,ReSSL 使相似的样本更相似,而不同的样本更不相似。

教师弱增强策略。为了进一步提高目标分布的质量和稳定性,我们对教师模型采用了弱增强策略,因为标准的对比增强过于激进,引入了太多干扰,会误导学生网络。请参阅我们的实证研究中的更多详细信息。

与 SEED 和 CLSA 进行比较。SEED [33] 遵循标准知识蒸馏 (KD) 范式 [28]、[43]、[92],其目的是将知识从较大的网络蒸馏到较小的架构中。知识转移发生在同一视图中,但发生在不同的模型之间。在我们的框架中,我们试图保持不同增强之间的关系一致性;知识转移发生在同一网络中的不同视图之间。CLSA [83] 还引入了使用弱增强来指导更强增强的概念。然而,CLSA 中的“弱”增强相当于我们方法中的“强”增强(在我们的默认设置中,我们不使用任何更强的增强,例如 [20]、[21])。另一方面,CLSA 在训练期间至少需要一个额外的样本,这需要更多的 GPU 内存并降低训练速度。

3.3 使用 Predictor 和 InfoNCE 改进 ReSSL

学生的非对称头。对于学生网络,我们采用了 [13]、[38] 中的附加预测头,这打破了 Siamese 网络的对称性。[13] 证明了典型的对比学习框架只是一种期望最大化算法;预测头有助于填补增强视图和期望之间的空白。在 ReSSL 中,打破对称性可以使系统对温度的选择更加稳健,并且性能也会略有提高。请参阅第 4 节中的更多实证分析。

用 InfoNCE 进行热身。正如我们所描述的,锐化策略是 ReSSL 中的一个关键点,它可以被解释为将 拉向与 相似的特征。然而,网络无法捕获高质量的相似样本,尤其是在训练的早期阶段,这使得目标分布 不可靠。为了解决这个问题,我们添加了一个额外的 InfoNCE 损失来配合我们的关系一致性损失,可以用等式 (7) 表示

其中 是控制两个损失权重的超参数。这里,我们设置 。在这种情况下, 将随着我们的优化步骤从 0 增加到 1。基本上,由于 不可靠, 将在早期阶段被拉向 ,然后,目标函数将逐渐从等式 (1) 转移到等式 (5)。虽然 InfoNCE 仍然引入了明显的正面和负面,但权重会随着训练而减少。实验结果表明,使用 InfoNCE 进行预热可显着改善线性评估的结果。请参阅下面第 4 节中的更多详细信息。

4.RESSL 的实证研究

在本节中,我们将在 4 个流行的自监督学习基准上对我们的 ReSSL 进行实证研究。具体来说,我们消除了锐化、弱增强、预测器和 InfoNCE 预热策略的有效性。

小型数据集。CIFAR-10 和 CIFAR-100 [53]。CIFAR-10 数据集包含 10 个类别的 60000 张 32x32 彩色图像,每个类别有 6000 张图像。有 50000 张训练图像和 10000 张测试图像。CIFAR-100 与 CIFAR-10 类似,不同之处在于它有 100 个类别,每个类别包含 600 张图像。每个类别有 500 张训练图像和 100 张测试图像。

中等数据集。STL-10 [19] 和 Tiny ImageNet [55]。STL10 [19] 数据集由 96x96 分辨率的图像组成,分为 10 个类别。它包含 5K 标记的训练图像、8K 验证图像和 100K 未标记图像。Tiny ImageNet 数据集由 64x64 分辨率的图像组成,分为 200 个类别,其中包含 100K 训练图像和 10k 验证图像。

实施细节 我们采用 ResNet18 [42] 作为主干网络。由于我们的大多数数据集都包含低分辨率图像,因此我们将步长为 2 的第一个 7x7 卷积替换为步长为 1 的 3x3 卷积,并删除小数据集的第一个最大池化操作。对于数据增强,我们使用随机调整大小的裁剪(随机裁剪比例的下限设置为 0.2)、颜色失真(强度=0.5)(概率为 0.8)和高斯模糊(概率为 0.5)。小型和中型数据集的图像将分别调整为 32x32 和 64x64 分辨率。我们的方法基于 MoCoV2 [12];我们使用全局 BN 和 shuffle BN 来进行有和没有预测器设置。对于小型和中型数据集,动量值和内存缓冲区大小分别设置为 0.99 和 4096/16384。此外,该模型使用 SGD 优化器进行训练,动量为 0.9,权重衰减为 5e-4。我们对学习率进行 10 个epoch的线性预热,直到达到 0.06 × BatchSize/256,然后切换到余弦衰减调度程序 [62]。

评估协议。所有模型都将接受 200 个 epoch 的训练。为了测试表示质量,我们根据广泛采用的线性评估协议评估预训练模型 - 我们将冻结编码器参数并在平均池化特征之上训练线性分类器 100 个 epoch。为了测试分类器,我们使用测试集的中心裁剪并根据预测输出计算准确度。我们以 10 的学习率、无权重衰减和 0.9 的动量训练分类器。在 60 和 80 个 epoch 中,学习率将是 0.1 的倍数。注意,对于 STL-10;预训练将应用于标记和未标记的图像。在线性评估期间,将仅使用标记的 5K 图像。

4.1 适当强化的关系是更好的目标

在大多数对比学习算法中,温度参数非常重要。为了验证 对我们提出的方法的有效性,我们固定 或 0.2,并扫描 。结果如表 1 所示。注意,这里我们展示了有和没有预测器设置的结果。对于 ,在所有不同的数据集中,最佳值分别为 0.03 和 0.04。我们可以看到,当我们从 0 增加 时,性能会增加。在最佳值之后,性能将开始下降。

注意, 对应于 Top-1 或 argmax 操作,它们产生一个独热分布作为目标;这实际上使我们的关系一致性损失降级为标准的 InfoNCE 目标,其中正对是来自内存缓冲区的最相似样本,而不是原始图像的增强。在这种情况下,系统将与 NNCLR [29] 非常相似,唯一的区别是 NNCLR 不采用弱增强策略,负样本来自当前批次而不是内存缓冲区。另一方面,当 时,目标将是一个更加平坦的分布,无法突出学生最相似的特征。因此, 不能太小或太大,但它必须小于 (即 必须比 更清晰),因此目标分布可以为学生网络提供有效的指导。

对于 ,可以清楚地看到 的结果总是比 的结果具有更高的性能,这与 MoCoV2 不同,其中 是最佳值。根据 [23]、[79]、[81],温度越高,超球面的角度裕度就越大。由于 MoCoV2 采用实例区分作为借口任务,因此较高的温度可以增强同一实例的紧凑性和不同实例的差异性。与实例区分相反,我们的方法可以解释为将相似的实例拉近超球面;相似的实例可能不是很可靠,尤其是在训练过程的早期阶段。因此,当没有地面真值标签时,较大的角度裕度可能会损害性能。

4.2 非对称结构使系统更稳健

我们的默认设置采用了 [13]、[38] 中的预测器结构,这破坏了系统的对称性。然而,通过从 ReSSL 中删除预测器结构来评估典型对称系统的性能是很有趣的。因此,我们遵循相同的实验设置,并在表 2 中显示结果。我们可以观察到,在 (灰色数字)的情况下,对称系统将崩溃,因为网络可以简单地输出一个常数向量来最小化我们的损失函数。虽然 ReSSL 在没有预测器的情况下也能很好地工作,但我们希望保留它,因为它使系统对温度选择更具鲁棒性。我们还可以注意到,在各种温度设置下,使用预测器的性能会略好一些。

4.3 使用 InfoNCE 热身

虽然独立的关系度量已经运行良好,但明显的问题是教师网络无法在训练过程的早期阶段捕获不同实例之间的高质量关系。我们通过在预热阶段加入 InfoNCE 来解决此问题,如第 3.3 节所述。我们在下表 4 中显示了结果。可以看出,预热策略显着提高了 CIFAR-100、STL-10 和 TinyImageNet 上的性能。

4.4 弱增强使关系更好

正如我们所提到的,教师模型的较弱增强策略是我们框架成功的关键。在这里,我们将弱增强实现为随机调整大小的裁剪(随机比率设置为 (0.2, 1))和随机水平翻转。对于温度参数,我们只需采用与表 1 相同的设置并报告最佳设置的性能。结果显示在表 5 中,我们可以看到,当我们对教师模型使用弱增强时,所有数据集的性能都得到了显着提升。我们认为这种现象是因为教师模型中相对较小的扰动可以为学生模型提供更准确的相似性指导。为了进一步验证这一假设,我们从 STL-10 训练集中随机抽样了三幅图像作为查询图像,然后根据弱/对比增强查询找到 10 个最近邻居。我们在图 2 中可视化了结果,

4.5 更多关于弱增强的实验

由于教师模型的弱增强是 ReSSL 中的关键点之一,我们进一步分析了对教师模型应用不同增强的效果。在这个实验中,我们只是为每个数据集采用表 1 中的最佳温度设置,并报告四个基准数据集的线性评估性能。结果如表 3 所示。第一行是基线,我们只是将所有图像调整为相同的分辨率(不应用额外的增强)。然后,我们应用了随机调整大小的裁剪、随机翻转、颜色抖动、灰度、高斯模糊和各种组合。我们根据经验发现,如果我们不对教师模型使用增强(例如,没有随机调整大小的裁剪),性能往往会下降。这可能是因为两个视图之间的特征差距太小,从而破坏了表示的学习。然而,教师模型的增强过强会引入过多噪音,导致目标分布不准确(见图 2)。因此,适度弱的增强对教师来说是更好的选择,而随机调整大小的裁剪与随机翻转是性能最高的组合,如表 3 所示。

4.6 关系维度

由于我们也采用了与 MoCo [40] 中相同的内存缓冲区,因此缓冲区大小将相当于分布 的维度。因此,它将成为我们框架中的关键点之一。为了验证内存缓冲区大小的影响,我们只需为每个数据集采用表 1 中的最佳温度设置,然后将内存缓冲区大小从 256 变为 32768。结果如表 6 所示,我们可以看到,当我们将缓冲区大小从 256 增加到 8192 时,性能可以显着提高。但是,当缓冲区足够大时,进一步增加缓冲区大小(即 16384)只能带来微小的改进。我们还可以观察到,当 K = 32768 时,性能会略差。这可能是由于内存缓冲区太大,涉及大量陈旧的嵌入,从而损害了性能。

4.7 学习表征的可视化

我们还展示了使用对比增强的 ReSSL、使用弱增强的 ReSSL 和 MoCo V2 在 CIFAR-10 测试集上学习到的表示的 t-SNE [78] 可视化。显然,使用弱增强的 ReSSL 比对比损失能产生更好的类别分离效果。

5.实验

5.1 大规模数据集上的结果

我们还在大规模 ImageNet-1k 数据集 [22] 上执行了我们的算法。在实验中,我们使用 1024 的批处理大小,并采用 LARS [93] 优化器,其学习率等于 0.6∗BatchSize/256、动量 0.9 和权重衰减 1e−6。优化器将由余弦学习率调度程序 [62] 调度,并进行 10 次预热。我们还采用内存缓冲区来保存 65536 个过去的示例。动量系数为 m = 0.996,并通过余弦调度增加到 1。对于投影仪,我们使用带有 BN 和 ReLU 的 2 层非线性 MLP 网络;隐藏维度为 4096,输出维度为 256。预测器由与投影仪相同的结构组成,但输入维度为 256。对于 ,我们仅采用表 1 中的最佳设置,其中 。对于对比增强,我们采用 [38] 中的策略,并对参数进行了一些修改。具体来说,我们将模糊/曝光的概率设置为 50%/10%,并将最小裁剪面积更改为 14%。对于弱增强,我们遵循表 3 中的最佳设置。

线性评估。对于 ImageNet-1k 的线性评估,我们遵循 SimCLR [8] 中的相同设置。结果如表 7 所示。具体来说,我们使用 Nesterov 动量值为 0.9、权重衰减为 0、学习率为 0.1 ∗ BatchSize/256 的 SGD 优化器和余弦退火学习率调度程序对线性分类层进行 90 个epoch的训练。结果如表 7 所示。为了公平比较,我们将以前的方法分为 1x 反向传播和 2x 反向传播设置,因为 2x 反向传播方法通常需要更多的 GPU 内存和更长的训练时间。我们可以清楚地看到,ReSSL 在这两种设置上都始终优于以前的方法。对于 1x 设置,ReSSL 比之前的最先进技术 (InfoMin) 高出 1.9%。对于 2x 设置,ReSSL 比 MoCo v3 提高了 0.4%,而训练成本仅为 2/3,批量大小更小。我们还报告了在没有预测器和 InfoNCE 预热的情况下工作时的性能。在这种情况下,1x 和 2x 设置的性能分别下降了 2.1% 和 1.8%,这进一步验证了这两种策略的有效性。

使用多重裁剪和更强的增强。我们还使用多重裁剪策略和更强的增强执行了 ReSSL。具体来说,我们遵循 [46] 中的策略,采用 5 个增强视图,分辨率分别为 224 × 224、192 × 192、160 × 160、128 × 128、96 × 96,并将 5 个视图的最小/最大裁剪区域分别设置为 (0.14, 0.117, 0.095, 0.073, 0.05) / (1.0, 0.86, 0.715, 0.571, 0.429),其余增强策略与我们的 1x 和 2x 设置一致。结果如表 8 所示。值得注意的是,经过 200 次训练,ReSSL 在 ImageNet 上的 Top-1 准确率达到 76.0%,这比之前经过 800 次或 1000 次训练的方法要好得多。我们对 ReSSL 模型进行了扩展训练测试,具体来说是 400 次训练,发现它达到了与 200 次训练相同的性能。这表明与其他方法相比,ReSSL 更容易收敛。同时,我们还探索了对 ReSSL 进行更强增强的有效性。具体来说,我们遵循 [83] 中的相同增强设置,并对 ReSSL 进行了 200 次优化。在这种情况下,ReSSL 实现了 76.3% 的 Top-1 准确率,几乎与监督基线(76.5%)相当。

使用 Vision Transformer 为了强调我们方法的广泛适用性,我们还将 ReSSL 应用于 Vision Transformer 架构 [27]、[76]。这包括对 ViT-Small 和 ViT-Base 模型的实验,结果列于表 9。结果(特别是在 2 种裁剪设置下)突出了 ReSSL 的强大性能及其对各种架构的适应性,进一步证明了其广泛的功效。

线性分类上的迁移学习。我们展示了 ReSSL 学习到的表示对于多个下游分类任务的迁移学习是有效的。我们遵循 [10]、[38] 中描述的线性评估设置。具体来说,我们在从冻结的预训练网络中提取的特征上训练了一个 L2 正则化的多项逻辑回归分类器,然后我们使用 L-BFGS [60] 来优化 softmax 交叉熵目标,我们没有应用数据增强。我们从验证分割中选择了最佳的 L2 正则化参数和学习率,并将其应用于测试集。此基准中使用的数据集如下:CIFAR-10 [53]、CIFAR-100 [53]、Food101 [5]、Cars [52]、DTD [18]、Oxford-IIIT-Pets [69]、Aircrat [63]、OxfordFlowers [66] 和 Caltech-101 [34]。我们在表 10 中展示了结果。可以清楚地看到,ReSSL 在 CIFAR-10、Food-101、Cars、DTD、Aircraft 和 Caltech101 上实现了最先进的性能,明显优于 SimCLR、BYOL 和 NNCLR。我们还评估了 ReSSL 在微调场景中的表现,严格遵守先前研究(如 [10]、[38])中概述的实验设置。这涉及在训练期间使用调整大小为 224 × 224 像素的随机裁剪和随机翻转。在测试期间,将图像沿较短的边调整为 256 像素,然后提取大小为 224 × 224 像素的中心裁剪。我们在验证集上进行网格搜索以寻找最佳超参数,包括学习率和权重衰减。学习率以对数形式从 0.0001 到 0.1 变化,而权重衰减则在 10−6 和 10−3 以及 0 之间变化,后者的值除以学习率。表 10 的第二部分显示了我们的 ReSSL 在 6 个数据集上的表现始终优于先前的方法,并且在所有 9 个数据集上都实现了最高的平均准确率。

半监督学习。接下来,我们评估仅使用 1% 和 10% 标记示例对模型表示进行微调时获得的性能。我们直接采用 [10] 中的标记和未标记文件列表进行公平比较。对于 1%,我们冻结主干层并将最终线性层的学习率设置为 0.1。对于 10%,我们对主干层和最终线性层使用 0.02 和 0.2 的学习率。该模型将针对 1% 和 10% 的设置使用余弦学习率调度程序针对 60 和 20 个时期进行优化。我们在这个实验中不应用任何权重衰减。结果如表 11 所示。仅经过 200 个训练周期,ReSSL 的表现就优于 NNCLR 1.4% 和 SwAV 1%(标记示例为 1% 和 10%),证明了 ReSSL 学习到的表示质量的优越性。

在完整 ImageNet 上进行微调。我们还研究了在完整 ImageNet 数据集上进行微调的有效性。在这个实验中,我们将主干层的学习率设置为 0.04,将线性层的学习率设置为 0.01。该模型经过 30 个时期的训练,没有权重衰减。结果列于表 12。从本质上讲,我们的 ReSSL 比之前的基准高出 0.6%,从而证明了其卓越的性能。

低样本分类的迁移学习。我们通过将学习到的表示迁移到低样本分类任务来进一步评估其质量。按照[58],我们对 PASCAL VOC2007 数据集 [32] 进行线性分类。具体来说,我们将所有图像沿短边调整为 256 像素,并进行 224 × 224 中心裁剪。然后,我们在相应的全局平均池化最终表示之上训练线性 SVM。为了研究表示在少样本场景中的可迁移性,我们改变了标记示例的数量 k。并报告 mAP。表 13 显示了我们的方法与以前作品的比较。我们报告了 5 次运行的平均性能(k=full 除外)。值得注意的是,ReSSL 在不同设置下始终比其他方法具有更高的性能,并且当 k 大于 64 时它也超过了监督设置。

对象检测和实例分割。我们最终按照 [40] 中的实验设置,在 COCO [59] 数据集上评估基于定位的对象检测和实例分割任务的学习表示。具体来说,我们使用 ReSSL 预训练权重来初始化 Mask R-CNN [41] C4 主干,该模型将在 COCO 2017 训练分割上进行微调,并在 val 分割上报告结果。我们使用 0.04 的学习率,并将其他参数保持与 detector2 [87] 中默认的 2x 计划相同。表 14 中的结果表明,我们的 ReSSL 与这些定位任务的最先进的对比学习方法具有竞争力。

Taskonomy 上的迁移学习。最近,包括 [3]、[85]、[86] 在内的许多研究已经开始探索预训练模型在 3D 视觉任务中的可迁移性。为了确保这项研究的彻底性,我们将预训练的 ViT-Base 模型(参见表 9)转移到 Taskonomy [95] 数据集,旨在评估其在 3D 视觉任务上的表现。我们遵循与 [3] 相同的设置,其中我们使用任务分割并在 800 张训练图像的子集上对模型进行微调,我们最终报告了微小分割测试集上的 L1 损失,如表 15 所示。我们的研究结果表明,虽然我们的 ReSSL 模型优于 DINO,但基于蒙版图像建模 (MIM) 的方法(例如 [3]、[39]、[86])通常优于基于对比的方法。这与我们的直觉一致,因为基于对比的方法(如 DINO、MoCo 和我们的 ReSSL)倾向于专注于捕捉图像的全局语义,这对于分类等任务非常有利。相反,基于 MIM 的方法强调预测被遮蔽的补丁或补丁特征,将更多注意力集中在局部图像补丁之间的交互上。这种关注对于需要详细几何信息的任务特别有益。将基于 MIM 的方法与基于对比的方法相结合可能会提高 3D 视觉任务的传输性能。我们希望在未来的工作中探索这个想法。

5.2 轻量级架构的结果

我们还将 ReSSL 应用于各种轻量级架构,以进一步证明其通用性。按照 [33]、[35] 中的实验设置,我们在 ResNet-18、ResNet-34 [42]、EfficientNet-B0、EfficientNetB1 [71] 和 MobileNetV3-Large [45] 上执行了 ReSSL。线性评估结果如表 16 所示。我们首先展示 ResNet-18 上 SimCLR、MoCo V2、BYOL 和 SwAV 的结果。显然,即使经过 800 个训练周期,这些方法与监督性能也存在显著差距。虽然基于知识蒸馏 (KD) 的方法(例如 SEED、Compress、DisCo 和 BINGO)可以在一定程度上提高性能,但我们的 ReSSL 效率更高,因为它不需要大量的老师。更重要的是,ReSSL 的性能始终优于这些 KD 方法,尤其是在那些极小的网络(例如 EfficientNet-B0 和 Mobilenet-V3-Large)上。

除了线性评估之外,我们还报告了半监督学习的性能。我们遵循与 ResNet-50 实验相同的训练策略。表 17 显示,我们的 ReSSL 在各种轻量级架构中都取得了令人鼓舞的结果,并且明显优于最新的自监督 KD 方法。

5.3 ImageNet 上的更多消融研究

在本节中,我们将深入研究额外的消融研究,以展示 InfoNCE 预热和预测器策略对 ImageNet 性能的影响。此外,我们还探索了与 [9] 中讨论的类似的有趣属性。对于这些实验,我们通过使用单裁剪设置对模型进行 100 次训练来简化流程。

InfoNCE Warm-up 和 Predictor 的影响 e 在表 18 中展示了 InfoNCE Warm-up 和 Predictor 对 ImageNet 实验的影响。观察发现,这两种策略增强了 ReSSL 的性能,将其从 68.0% 提升到 70.3%,这凸显了它们的有效性。

温度预热的影响 Dino 提出了一种创新的温度预热策略,首先为教师逻辑设置较低的温度以避免模型崩溃,然后逐渐升高温度。这种方法显示出轻微的改进。为了评估这种方法,我们进行了两项实验,如表 19 所示。然而,与 DINO 不同,这种策略对 ReSSL 的性能产生了负面影响,导致我们没有将其纳入我们的研究中。

教师表现与学生表现 我们还检查了教师和学生模型的表现,结果详见表 20。结果表明,使用 ResNet-50 时,学生模型的表现优于教师模型。这种差异源于对教师和学生模型应用的不同增强,这导致 Batch Norm 统计数据发生变化。对于教师模型,参数通过强增强进行优化,而其 Batch Norm 统计数据则使用弱增强进行计算,从而导致性能差异。为了进一步研究这一现象,我们还使用 ViTSmall 架构评估了教师和学生模型,该架构用 Layer Norm 层替代了 Batch Norm 层。此修改解决了观察到的差异,从而使教师和学生模型之间的性能相当。因此,学生模型将作为本研究的标准配置,以确保一致性。

6.结论

在这项工作中,我们提出了关系自监督学习(ReSSL),这是一种无监督视觉表征学习框架的新范式,可以在不同的增强下保持实例之间的关系一致性。我们提出的 ReSSL 放宽了对比学习中的典型约束,其中不同的实例并不总是需要在嵌入空间上被推开,并且增强视图不需要共享完全相同的特征。广泛的实证研究表明了我们框架中每个组件的效果。在大规模数据集上的实验证明了无监督表示学习的效率和最佳性能。


AI学术工坊
分享最新AI资源
 最新文章