点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
摘要
受自然语言处理任务中的掩码语言建模 (MLM) 的启发,掩码图像建模 (MIM) 已被公认为计算机视觉中一种强大的自监督预训练方法。然而,MIM 的高随机掩码率导致了两个严重的问题:1) 每次迭代中图像数据利用不足导致预训练时间延长,2) 预测的高度不一致性导致生成不可靠,即相同补丁的预测在不同的掩码轮次中可能不一致,导致最终生成结果的语义不同。为了解决这些问题,我们提出了具有自一致性的高效掩码自动编码器 (EMAE),以提高预训练效率并提高 MIM 的一致性。具体而言,我们提出了一种并行掩码策略,将图像分成 K 个不重叠的部分,每个部分由具有相同掩码率的随机掩码生成。然后,在一次迭代中对所有部分并行执行 MIM 任务,并且该模型最小化预测和掩蔽补丁之间的损失。此外,我们设计了自一致性学习,以进一步保持各部分之间重叠掩蔽补丁预测的一致性。总的来说,我们的方法能够更有效地利用数据并获得可靠的表示。在 ImageNet 上的实验表明,EMAE 使用 NVIDIA A100 GPU 在 ViT-Large 上实现了最佳性能,而 MAE 预训练时间仅为 13%。在对各种数据集进行预训练后,EMAE 在各种下游任务(如图像分类、对象检测和语义分割)上始终获得最先进的迁移能力。
论文链接:https://arxiv.org/pdf/2302.14431
论文题目:Efficient Masked Autoencoders with Self-Consistency
论文作者:Zhaowen Li, Yousong Zhu, Zhiyang Chen, Wei Li, Chaoyang Zhao, Rui Zhao, Ming Tang, Jingiao Wang
1.关键字
Transformer、自监督学习、表征学习、掩蔽自编码器、迁移学习、图像分类、对象检测、语义分割。
2.引言
计算机视觉 (CV) 中的自监督学习 [1]–[30] 被广泛用于从大规模未标记图像中学习没有人工注释的一般表示。通常,大量的借口任务 [6]–[14]、[16]–[21] 尝试通过自监督学习视觉表示。其中,受掩蔽语言建模 (MLM) [31] 成功的启发,掩蔽图像建模 (MIM) 用于 CV 中的预训练,并在性能上表现出了显著优势。MIM 以一定的随机掩码率掩蔽图像的块,并根据剩余的可见块预测被掩蔽块的原始表示。通常,由于图像和语言数据的信息密度差异,MIM 的随机掩码率远高于 MLM [21]。例如,MAE [21] 采用 75% 的掩码率,而 BERT [31] 采用 15% 的掩码率。然而,我们观察到高随机掩模率带来了两个严重的问题:1)每次迭代中图像的数据利用率不足,导致预训练时间延长;2)预训练模型的预测表现出高度不一致性,带来不可靠的生成。
事实上,MAE 在每次迭代中利用了整幅图像的 25% 来训练模型 1600 个 epoch,而 BERT 只使用了 85% 的文本语料库来训练 40 个 epoch。造成这种现象的原因不仅是图像和语言数据之间的差异,也是 MLM 和 MIM 方法在数据利用方面的差异。在 CV 中的自监督学习方面,MIM 的预训练效率仍然低于对比学习。例如,MoCo v3 [32] 通常对模型进行 300 个 epoch 的预训练。对比学习和 MIM 在预训练效率上的差异源于对比学习利用整幅图像进行模型训练,从而实现 100% 的数据利用率。从以上描述可以看出,MIM的高掩码率导致数据利用率低,从而延长了预训练时间。
MIM 的另一个问题是高掩码率会引入不太可靠的特征。如图 1 所示,MAE 会针对不同的掩码种子生成不同的重建结果,并且不同结果的语义不一致。也就是说,从原始图像中采样的随机可见块的不同组合会对相同位置产生不一致的预测。这种生成上的不一致性是导致结果不可靠的一个因素。同时,作为一种生成算法,如果 MAE 的生成结果表现出不一致和不可靠性,那么它就无法获得可靠和一致的表示,从而削弱其在各种下游任务中的迁移能力 [33]–[39]。
是否可以降低随机掩码率来提高预训练效率并改善一致性?答案是否定的。事实上,先前的工作[21]已经表明,降低掩码率会削弱预训练模型对各种视觉下游任务的迁移能力。因此,在保持高掩码率不变的情况下,解决高掩码率带来的上述两个问题非常重要。在本文中,我们提出了具有自一致性的高效掩码自动编码器(EMAE),旨在提高预训练效率并提高高掩码率下MIM的确定性和一致性。具体而言,如图2所示,提出了一种并行掩码策略,将图像划分为K个大小相同的不重叠部分。然后,每个部分都是一个包含随机不重叠的可见图像块的集合。此外,所有部分具有相同的掩码率并并行处理。这样,图像的数据利用率得到了显著提升,达到了100%的利用率。同时,引入了自一致性学习,鼓励模型在不同部位的相同位置输出一致的预测,增加了MIM的确定性和一致性。此外,虽然并行mask策略增加了单次迭代的计算量,但减少了整体的训练轮数,提高了预训练效率。
我们在各种视觉预训练数据集和视觉下游任务上验证了我们的方法。使用 NVIDIA A100 GPU,仅需 13% 的预训练时间,我们的方法在各种视觉下游任务中均优于 MAE,并实现了最先进的 (SOTA) 性能。此外,在 ViT-Large 架构下,EMAE 在 COCO [41] 对象检测和实例分割上使用 ViTDet [40] 实现了 58.1% 的 bbox mAP 和 50.4% 的 mask mAP。更多实验可以参考实验 IV。
总的来说,我们做出了以下贡献:
我们观察到 MIM 的高随机掩码率导致两个严重问题:预训练时间延长和预训练模型的高度不一致性。 我们提出了一种并行掩码策略,在保持随机性的同时实现 100% 的数据利用率,有效提高 MIM 中的预训练效率。 自一致性学习被引入到 MIM 中并生成更可靠的表示。 大量实验证明了我们方法的有效性和更强的泛化能力。特别是,EMAE 在各种下游任务中都优于以前的 SOTA 方法,例如线性探测、微调分类、对象检测、实例分割和语义分割。
3.方法
在本节中,我们提出了一种具有自一致性的高效掩码自动编码器 (EMAE),以克服 MIM 中高掩码率的局限性。我们提出的方法的流程如图 2 所示。EMAE 主要由两个主要组件组成。第一个组件是并行掩码策略,它实现了 100% 的数据利用率,提高了预训练效率。此外,EMAE 引入了自一致性学习,这加强了对相同位置的不同预测之间的一致性。
在这里,我们首先在第三部分 A 中对 MAE 进行初步介绍,MAE 被用作 MIM 的基线。然后,我们介绍了我们提出的 EMAE 的设计,这是一种简单的方法,可以大大提高预训练效率并获得可靠的表示。EMAE 通过并行掩码策略提高学习效率的原理在第三部分 B 中,通过自一致性学习实现预测的一致性在第三部分 C 中。此外,预训练损失函数在第三部分 D 中介绍。最后,我们在第三部分 E 中讨论了所提出的方法将如何影响效率和性能。
A. 关于 MAE 的准备工作
MAE 是一个备受认可的自监督学习 MIM 框架,它逐渐吸收了该领域的一些令人印象深刻的实践。具体来说,根据开创性的工作 [21],给定来自未标记数据集 X 的自然图像,我们将其分成 N 个常规图像块,表示为 ,其中 表示块大小(例如 ViT [16] 中的 16 × 16)。然后,我们让掩码 表示长度为 的二进制向量,其中 和 ,表示图像上的掩码,并生成 的两个互补组合:掩码块 和可见块 由 Eq(1) 给出,
其中 且 。掩码 的生成遵循均匀分布,称为随机掩码策略。
MAE 模型 是一种编码器-解码器架构,我们将这些可见块输入编码器 (例如,ViT-Base),并获得潜在特征。然后,解码器 将潜在特征映射回像素空间以重建互补组合并获得预测 。具体而言,MAE 最小化重建和掩蔽图像块 之间的均方误差 (MSE),损失函数如等式 (2) 所示。
B. 并行掩码策略
如公式(1)所示,随机掩码率为 ,因此数据利用率为 。也就是说,随机掩码率越高,数据利用率越低。较低的数据利用率会降低预训练的效率,因为训练数据的参与度不够。例如,分别以MAE和BERT作为MIM和MLM的示例。如果两个模型都经过M个epoch的预训练,则MLM和MIM之间的数据利用率比率为(17 5)M。如果采用对比学习代替MLM,则数据利用率将增加到(4)M,因为对比学习利用了整个图像。此外,先前的工作[21]表明,高掩码率(75%)增强了预训练模型的泛化能力。因此,在高掩码率下实现100%的数据利用率对于优化预训练和提高预训练效率至关重要。
直观上看,对同一幅图像进行多次采样可以在一定程度上提高数据利用率,但MAE的随机掩码策略本质上遵循了有放回采样的原理[69],一旦对同一幅图像进行多次采样,则有很大概率会出现采样重叠,特别是随着p值的增大,出现重叠的可能性也会增大。因此,在有限的采样次数下,MAE的掩码策略存在两个问题:1)不能像对比学习或监督学习那样保证全数据利用(100%的数据利用率);2)同一幅图像中每个patch的采样次数通常不同。为了克服上述问题,本文提出了一种并行掩码策略,在高掩码率下利用全部数据进行MIM预训练,保证在有限的采样次数下每个patch都能得到同等的训练。
具体来说,首先将整幅图像划分为 个图像块。然后,生成长度为 的随机值的张量 ,该张量的每个值在区间 [0, 1] 上服从均匀分布。该张量按值升序排序,排序后的索引 ids 按照公式 (3) 获得,其中 返回按值升序对张量进行排序的索引。
这里,我们将长度为 的排序索引均等地分成 个不重叠的部分 和 ,如等式 (4) 所示,其中 。
因此, 个图像块可以通过索引 均等地划分为 个不重叠的部分 ,如公式 (5) 所示,其中 表示根据指定的索引 从输入 中绘制值。
任意部分的掩码 由公式(6)给出,其中 根据idsi从t中获取掩码。
任何部分 都有 N/K 个可见块,其对应的互补视图 有 N − N/K 个被掩蔽的块,其定义为公式 (7)。因此,任何部分的掩蔽比为 。算法 1 中描述了更多细节。
从上面的描述中,我们按照不放回采样的原则将图像块分成 个不重叠的部分[69]。当 设置为4时,每个部分的掩码率为75%(与MAE的掩码率相同)。我们的设计在理论上保证了整个数据的利用率,在采样次数有限的情况下,每个块可以参与训练相同的次数,甚至只需要一次迭代。有放回采样策略无法保证这一特性,这就是为什么我们的设计与MAE的纯随机掩码策略相比具有更高的数据利用率。该设计称为并行掩码策略,理论上可以在保证输入完全且严格不相交的同时保持掩码的随机性,比MAE的掩码策略的纯随机性更鲁棒和稳定。
根据图 2 中的设计,每个包含可见块的部分都作为输入送入编码器-解码器架构并执行 MIM 任务,损失函数定义为 Eq(8)。
C. 自我一致性学习
第 III-B 节中的并行掩码策略确保了整个数据的利用率,但不能保证每个部分输出结果的可靠性。根据开创性的工作 [70],人类智能是一个自洽系统,有助于有效地学习和纠正错误。有理由相信,在引入自洽机制时,人工智能模型也可以提高训练效率和一致性。对于 MIM 预训练模型,不可靠的生成源于当呈现来自同一输入的不同不充分信息输入时,模型对相同位置生成不一致的预测。因此,当将自洽原则引入 MIM 时,鼓励预训练模型对相同位置的预测在同一图像的不同输入可见块下保持一致。
按照第 III-B 节的说法,每个部分占整幅图像的 个,并产生 个预测。每个部分的预测为 和 。显然,任何两组部分的预测之间都存在一定的重叠率,该比率为 。任何两组预测 的重叠位置 都可以通过掩码 和 获得,其中 且 。 的定义表示为等式(9)。
因此,提出了自一致性学习来指导每个重叠位置的预测保持一致。如图2所示,自一致性学习将任意两个集合 和 之间的重叠预测拉到一起,从而最小化重叠重建结果之间的平均绝对误差以增加一致性。自一致性损失定义为等式(10),其中 代表停止梯度。对于任何部分的每个预测,它将与其他部分的预测计算 次以确保自一致性。
最后根据公式(12)计算图像的一致性损失。
在图 4 中可以观察到由一致性损失引起的行为:来自不同组合的重建图像最终彼此紧密匹配。
D.目标函数
我们的 EMAE 包括并行掩码策略和自洽学习的设计。在这里,我们仍然采用 MAE 的像素重构损失,以保留图像的生成能力。因此,我们的 EMAE 的最终损失可以表示为等式 (12),并且每个损失系数均设置为 1 以进行等权重计算。
E. 讨论与分析
在本节中,我们将直观地分析为什么EMAE可以提高预训练效率并提高一致性,这将在第四节中通过实证结果进一步证明。使EMAE收敛更快的主要因素是利用多个不重叠的部分,从而在训练阶段有效地利用整个图像。因此,与MAE相比,EMAE可以在每个epoch获得更多的监督信号,并以更少的epoch实现良好的性能。值得注意的是,根据并行掩码策略,整个图像被均匀地分成K个不重叠的部分。该设计可以确保图像中的每个补丁都可用于训练模型,从而提高整个数据的利用率。最后,我们提出了自一致性损失来降低MIM的不确定性和不一致性。基于整个数据利用的设计,自一致性机制进一步改善了特征表示,从而有利于提高性能。由于这些优点,EMAE 可以实现较高的预训练效率和一致的表示,从而获得良好的性能。
时间消耗。本文指出,高掩码率会导致预训练时间延长,EMAE 提出利用全部数据来提高预训练效率。数据越多,同一epoch的计算量就越大,因此可能导致额外的时间消耗。然而,并行掩码策略将图像分成 K 个相等的部分。这种设计可以利用 GPU 并行加速的特点,充分利用内存。与以前的工作 [71]、[72] 只能串行计算不同,EMAE 可以避免大量的时间消耗。同时,我们进行了实验,比较 MAE、监督学习和 EMAE 的时间消耗。其中,MAE 训练了 2400 个epoch,而监督学习和 EMAE 训练了 300 个epoch。之所以选择这种方法,是因为 300 个 epoch 的 EMAE 性能与 2400 个 epoch 的 MAE 性能相当,而监督学习方法通常需要训练 300 个 epoch。时间消耗的比较结果如表一所示。值得注意的是,300 个 epoch 的 EMAE 仅用 13% 的时间消耗就能达到 2400 个 epoch MAE 的性能(SOTA 性能)。此外,EMAE 仅消耗与监督学习相同甚至更少的时间,就能达到 SOTA 性能。因此,所有这些结果表明 EMAE 是一种有效的算法,可以节省预训练时间。
自洽学习是如何以及为何起作用的?MIM 的高掩码比率会导致输入信息不足,使学习任务更具挑战性,并导致模型预训练后期损失减少的停滞。因此,预训练模型即使在相同位置也可能产生语义不一致的预测。这种不稳定的预训练范式破坏了视觉表征的学习,并削弱了各种视觉下游任务的迁移能力。如图 3 所示,使用不同掩码种子的两个不同输入部分会产生两个不同的预测,即使它们都经过训练以与原始图像块对齐。因此,相同位置的预测需要进一步约束,在本文中,约束是自洽学习。自洽学习鼓励相同位置的预测保持一致,从而获得更可靠和一致的生成。最后,如第四部分图4所示,稳定的重建图像进一步证明了我们提出的自一致性学习的有效性。
4.实验
A.数据集和评估指标
预训练数据集。在预训练阶段,我们选择了三个流行的视觉预训练数据集,ImageNet-1K [33],COCO [41]和OpenImages [73]来研究所提方法的通用性和迁移能力。首先,ImageNet-1K数据集是一个大规模图像分类数据集,其训练集由约128万张训练图像组成,有1000个类别。我们在ImageNet的训练集中进行了广泛的实验。此外,COCO数据集是一个非标志性图像数据集,COCO中的图像包含自然多样的场景,具有以场景为中心的特性。它的train2017集包含大约118k张图像,我们在该集中进行实验。最后,OpenImages数据集也是非标志性的,与COCO数据集相比,它包含的数据和类别数量更多。它的训练集有约170万张图像,我们也在该集中进行实验。ImageNet是默认数据集。
评估数据集。为了验证预训练模型的质量,EMAE 通过 ImageNet-1K 数据集上的线性探测和微调分类任务进行评估,ImageNet-1K 数据集是流行的图像分类数据集。此外,对于计算机视觉,对象检测和分割是密集预测任务,因为这些任务的训练图像在每个图像内包含大量对象。密集预测任务的验证可以更好地反映预训练模型的语义能力。因此,我们在 COCO [41] 和 ADE20k [74] 数据集上进行了广泛的实验,以验证 EMAE 的泛化和迁移能力。COCO 是一个流行的对象检测和实例分割数据集,train2017 包含约 118k 张图像,val2017 上的验证包含 5k 张图像。具有挑战性的数据集包含 80 个类的人工注释。此外,ADE20K也是一个具有挑战性的语义分割数据集,它包含约20k张训练图像和2k张验证图像,共有150个类别。
评估指标。遵循自监督学习的常见做法,我们主要使用 top-1 准确率来评估预训练模型在线性探测和微调图像分类任务中的语义能力。同时,为了进一步验证密集视觉任务,我们采用框和掩码平均精度来验证迁移学习在对象检测和实例分割任务中的性能。最后,我们采用并集平均交集来验证语义分割任务的迁移能力,这也是一种流行的密集视觉任务。
B. 实施
预训练设置。训练设置与 MAE [21] 相同,我们采用编码器-解码器结构执行 MIM 任务。我们的方法适用于 ViT 主干,而由于计算资源的限制,大多数实验都是用 ViT-Base 进行的。具体来说,我们将 224×224 的图像划分为 14×14 个补丁,补丁大小为 16×16。默认情况下,K 设置为 4。批量大小设置为 4096。同时,AdamW [76] 的权重衰减 β1 和 β2 分别设置为 0.05、0.9 和 0.95。我们使用余弦学习率策略 [77] 并进行 40 个epoch的预热 [78]。基础学习率设置为基础 lr = 1.5e−4。不同数据集的预训练设置差异仅体现在 epoch 数量上:ImageNet 预训练了 800 个 epoch,COCO 数据集根据 R-MAE [43] 训练了 4000 个 epoch,OpenImages 数据集根据长序列 MAE [79] 预训练了 800 个 epoch。
线性探测设置。按照惯例,我们通过线性探测来评估表示质量。在自我监督的预训练之后,我们删除解码器并在冻结特征上训练监督线性分类器。所有训练设置与 MAE [21] 相同。如附录所示,列出了线性探测的评估配置。
端到端微调设置。根据 MAE [21],端到端微调分类任务的超参数如附录所示。
对象检测和实例分割设置。对于基准设置,我们使用相同的简单公式训练所有模型:大规模抖动 [80](1024×1024 分辨率,尺度范围 [0.1, 2.0],AdamW(),半周期余弦学习率衰减,线性预热 0.25 个epoch,以及丢弃路径正则化(ViT-Base 为 0.1)。所有模型都经过 100 个epoch的训练,批量大小设置为 64。此外,学习率为 8e − 5,权重衰减为 0.1。更多细节在 [37] 中描述,我们严格遵循 MAE 的超参数。对于 ViTDet 的设置,输入大小为 1024×1024,在训练期间通过大规模抖动增强,尺度范围为 [0.1, 2.0]。我们使用 AdamW (β1, β2=0.9, 0.999),学习率逐步衰减。我们使用线性学习率预热,批量大小为 64,进行 250 次迭代。[40] 中描述了更多细节,我们完全遵循它进行实验。
语义分割设置。我们在实验中采用UperNet框架[81]。我们使用AdamW作为优化器。批处理大小为16,逐层衰减率为0.65。输入分辨率为512×512。我们对100个epoch进行了端到端微调。事实上,所有的实验设置都与MAE一致,mmsegmentation[82]也开源了MAE分割代码,以帮助研究人员快速验证。
数据增强器设置。根据先前的研究 [83],MAE 可用作数据增强器。为了验证 MAE 和 EMAE 在数据增强方面的性能,我们使用 800 个 epoch EMAE 和 1600 个 epoch MAE 作为图像分类的数据增强器。该实验使用 ResNet50 [34] 作为主干,在 ImageNet 数据集上进行 90 个 epoch,并在验证集上报告 Top-1 准确率。每幅图像都经过随机掩码设置,而不是注意力引导掩码策略 [17],以更好地展示 MAE 和 EMAE 的生成质量。其他超参数遵循 [34]、[84] 中的训练配方。
C.ImageNet-1K 上的图像分类
评估设置。为了公平比较,我们在图像分类实验中严格遵循 MAE [21] 的超参数来评估 ImageNet 预训练模型。我们在两种监督训练设置下评估预训练编码器的性能:1)线性探测(LP)和 2)端到端微调(FT)。对于线性探测,预训练编码器的所有参数都被冻结,而只训练最后一个分类层。此外,对于端到端微调,预训练编码器与分类头一起进行微调。
分类结果。如表 II 所示,我们意外地发现,在线性探测中,使用 ViT-Base 的方法在相同的预训练周期(300 和 800 个周期)下可以超过 MAE 约 6.0% ∼ 6.7%。300 个周期的分类结果与 2400 个周期的 MAE 相当,而使用 EMAE 实现这一性能水平仅需要 MAE 所消耗的 13% 的时间和约 50% 的计算量。这一现象表明我们的方法可以显着提高 MIM 的训练效率。额外的训练(800 个周期)进一步将线性结果提高到 70.4%,将微调结果提高到 84.0%,并实现了 SOTA 性能。此外,值得注意的是,我们使用 ViT-Large 的 800 epoch 分类结果与使用 ViT-Huge 的 1600 epoch MAE 相当。作为基于 MIM 的方法,EMAE 超越了以前基于 SOTA MIM 的方法。EMAE 的线性结果略逊于基于对比的方法,因为基于对比的方法具有图像语义一致性的假设 [47]、[48],并且该假设与线性探测任务的先验一致。在以下章节中,我们通过在不同的数据集和任务中进行更多实验来全面评估我们的 EMAE 的迁移能力。
D. 对象检测和实例分割
为了进一步验证我们在 ImageNet 上预训练的 EMAE 的学习视觉表示,我们对 COCO [41] 对象检测和实例分割进行了微调。我们选择了 Mask R-CNN [36] 框架。具体来说,我们采用 FPN [85] 将特征图缩放为不同大小,如 [37] 中所述。通过完全遵循先前 [21]、[37] 的策略,我们在 COCO 上进行了这些实验。表 III 报告了检测的框 AP()和分割的掩模 AP()的结果。该表显示了通过不同的自监督方法和监督训练学习到的表示的性能。可以观察到,300 个epoch的 EMAE 的结果优于 1600 个epoch的 MAE。此外,我们的 800 个epoch的 EMAE 取得了最佳结果, 为 51.4%, 为 45.7%,分别比 1600 个epoch的 MAE 高出 1.0 和 0.8 个百分点。
此外,我们还对 Detectron2 [86] 中实现的 SOTA ViTBased 检测框架 ViTDet [40] 进行了实验,以验证 MAE 的迁移能力。为了公平比较,所有这些实验都严格采用 ViTDet 的训练设置。在表 IV 中,可以观察到 300 epoch EMAE 的对象检测和实例分割结果在各种指标上都优于 1600 epoch MAE。同时,我们的 800 epoch EMAE 在 和 上比 1600 epoch MAE 分别高出 1.3 和 1.2 个百分点。此外,带有 Cascade Mask RCNN 的 ViTDet 的结果达到 54.8% 和 47.6% ,分别超过 MAE 0.8 和 0.9 个百分点。
此外,我们进一步在 ViT-Large 架构下使用 ViTDet 进行对象检测和实例分割实验。结果如表 V 所示。800 个 epoch EMAE 的结果显示,无论是在有/无 Cascade Mask RCNN 的情况下加载到 ViTDet 中,大型网络结构都有一致的改进。
这些实验表明,我们的 EMAE 可以适用于任意架构和检测框架,从而提高性能,而无需额外的培训成本和精力。
E.语义分割
我们还在另一个密集预测任务(ADE20K [74] 数据集上的语义分割)上评估了我们的 ImageNet 预训练 EMAE。所有语义类别的平均并集交集 (mIoU) 被报告为评估指标。特别是,通过完全遵循 MAE 的训练设置,我们在实验中采用了 UperNet 框架 [81],并在表 VI 中报告结果。我们将我们的方法与 ImageNet-1K 上的监督预训练以及 SOTA 自监督方法进行了比较。可以观察到,当 EMAE 预训练 300 个epoch时,所提出的 EMAE 的性能优于 1600 个epoch的 MAE。此外,800 个epoch的 EMAE 实现了最高的 49.3% mIoU,并且比所有其他基线获得了更好的性能,进一步验证了我们框架的有效性。
此外,我们注意到,当前基于 MAE 的方法,如 Ge2-AE [90]、CAE [71]、MVP [91]、MILAN [92],对下游任务采用不同的超参数以获得更好的性能。上述实验严格遵循 MAE 的设置,结果已经证明了 EMAE 的有效性。在这里,为了进行公平的比较,我们遵循 CAE [71] 的语义分割设置来设置我们的预训练模型,使用 ViT-Base 的结果在 ADE20k 数据集上为 50.8% mIoU,并实现了 SOTA 性能。
F. 数据增强器
为了展示 EMAE 的生成质量,我们在数据增强过程中采用了两种不同的随机掩码比进行 ResNet 图像分类实验:一个为 40%,另一个为 75%。最终实验结果如表 VII 所示。在 40% 的随机掩码比下,MAE 和 EMAE 都可以提高 ResNet 的识别准确率,表明掩码模型作为数据增强器的可行性。然而,在 75% 的设置下,使用 MAE 生成的数据训练的 ResNet 的性能低于基线,而 EMAE 生成的数据仍然提高了 ResNet 的性能。这表明 EMAE 能够生成比 MAE 更可靠、更稳定的结果,并且确实解决了高掩码比带来的生成不一致的问题。
G.在 COCO 数据集上进行预训练
为了证明 EMAE 的适应性,我们在 COCO 数据集上进行了预训练实验。我们根据 R-MAE [43] 评估预训练模型在基准任务上的性能:对象检测、实例分割和语义分割。EMAE 主要分别用 1000、2000 和 4000 个 epoch 进行训练。为了公平比较,我们采用 ViTDet 作为 R-MAE 的对象检测和实例分割框架,不同方法的结果如表 VIII 所示。可以观察到,1000 个 epoch EMAE 的性能与 8000 个 epoch MAE 的性能非常接近,展示了我们算法的效率。此外,2000 个 epoch EMAE 的结果与 8000 个 epoch R-MAE 相当,而 4000 个 epoch EMAE 实现了 SOTA 性能。所有这些发现表明,EMAE 可以获得非图标数据的有效表示。
H. 在 OpenImages 数据集上进行预训练
为了进一步证明EMAE的适应性,我们在OpenImages数据集上进行了预训练实验。我们根据长序列MAE评估对象检测,实例分割和语义分割任务的性能[79]。各种下游任务的实验设置遵循默认设置。长序列MAE是一种通过将图像从224分辨率升级到448分辨率来预训练MAE的方法。为了公平比较,我们没有在表IX中介绍长序列MAE的结果。与COCO数据集相比,OpenImages包含更多的数据和类别。这表明OpenImages是一个具有更复杂场景的密集对象数据集。在具有高掩模率的场景中,大量对象可能被完全掩盖,这使得掩模重建任务更具挑战性。尽管如此,即使面临这样的挑战,根据表 IX,100 个 epoch EMAE 的结果仍然优于 800 个 epoch MAE。这强调了 EMAE 在实现密集对象数据稳定、可靠和高效训练方面的有效性。此外,800 个 epoch EMAE 的性能在 COCO 数据集上实现了 50.8% 和 45.3% ,在 ADE20k 数据集上实现了 49.3% mIoU。在各种数据集上对 EMAE 进行预训练的结果表明其对不同场景中训练数据的鲁棒性。
I. 消融研究
为了更好地研究我们提出的 EMAE 中不同组件的有效性,我们在 ImageNet-1K 数据集上进行了消融研究。线性探测仍然是一种很好的评估方法,可以快速验证学习到的表示,MAE 还根据线性探测的性能选择掩码比率。因此,我们采用线性探测的结果作为衡量消融研究中有效性的基准。为了进行公平的比较,各种方法的架构采用 ViT-Base。
整体数据利用率的影响。在第三节 B 中,我们讨论了我们提出的并行掩码策略的优越性。如表 X 所示,我们展示了四种数据利用设计。表 X (a) 展示了 200 个时期的 MAE 结果,每次迭代对训练图像进行 1 次纯随机掩码,并将其视为基线。然后,表 X (b) 表示根据 MAE 的纯随机掩码策略,每次迭代对训练图像进行 4 次纯随机掩码的 200 个时期的 MAE 的结果。表 X (c) 显示了并行掩码策略在每次迭代中对训练图像进行 4 次不相交随机掩码的 200 个时期的 MAE 的结果。与表 X (a) 相比,表 X (b) 的结果表明多次采样可以在一定程度上提高数据利用率并增强预训练模型的性能。然而,纯随机掩码策略不能保证全部数据的利用率(100%的数据利用率),并且每个补丁的采样时间在4次掩码时间内是不同的。值得注意的是,表X(c)的并行掩码策略在理论上可以解决这些问题,(c)的实验结果也证明了这一点:并行掩码策略在相同的时期内比纯随机掩码高出0.9%。因此,我们的策略可以进一步提高数据利用率并实现100%的数据利用率,从而提高预训练效率。我们的策略的有效性已在理论和实验上得到验证。在这里,我们设计了一个称为互补掩码策略的附加实验,该实验涉及对训练图像进行两次采样。第一次从训练图像中随机采样25%的数据,而第二次采样利用剩余的75%的训练图像。这种方法还允许模型利用整个数据,并且由于 Transformer 的计算特性,其计算复杂度甚至高于并行掩码策略。然而,互补掩码策略最终表现出比基线更差的性能。这是因为 75% 的部分代表了预训练过程中 25% 的掩码率,根据先前的研究 [21],低掩码率导致更差的传输能力。因此,我们采用并行掩码策略作为整个数据利用的设计。
自洽学习的效果。为了进一步提高一致性,我们提出了自洽学习,以鼓励模型在预训练过程中生成可靠的表示。在整个数据利用设计的基础上,在预训练阶段引入了自一致性损失。如表 XI 所示,表 XI (a) 展示了并行掩码策略在 MAE 上的结果,即像素重建任务。此外,表 XI (b) 展示了基于并行掩码策略的纯自一致性学习(无像素重建)的结果。结果表明,没有像素级重建的纯自一致性模型仍然可以学习到令人印象深刻的语义特征,其性能甚至优于像素重建。表 XI (c) 展示了带像素重建的自一致性学习的结果,其性能略优于纯自一致性学习。由于纯自一致性学习失去了生成和重建能力,因此无法扩展到图像合成任务[61],[64]。因此,我们仍然保留像素重建的损失,并采用设计(c)作为最终解决方案。值得注意的是,在将自一致性学习引入模型后,可以观察到我们的EMAE生成的重建图像最终在图4中彼此紧密匹配。从上述描述中,说明了自一致性机制的有效性和优越性,进一步提高了MIM的性能和效率。
所提方法对不同预训练时期的影响。如表 XII 所示,第二行显示了在 ImageNet 数据集上对不同预训练时期(例如,100、200、300 和 800 个预训练时期)进行 MAE 预训练的结果作为我们的基线。第三行表示在不同的预训练时期下,整个数据被分成 4 个不重叠的部分。与基线相比,第三行的结果在相同的预训练时期下比 MAE 提高了约 4.0% ∼ 5.2%,表明足够的训练数据可以有效提高不同预训练时期的性能。此外,这些结果说明了利用整个数据的重要性,这可以有效提高数据利用率并提高预训练效率。基于整体数据利用的设计,自洽学习的结果列于表 XII 的第四行。与整体数据利用设计相比,第四行的结果进一步提高了预训练模型的性能,例如,在相同的预训练周期下,第四行的结果比第三行的结果高出约 0.9% ∼ 2.9%。因此,在相同的预训练周期下,EMAE 比 MAE 高出约 6.0% ∼ 6.7%。
更长预训练周期的影响。为了进一步研究 EMAE 在更长预训练周期中的表现,我们在 ImageNet-1K 上使用 ViT-B 对 EMAE 进行了 1600 次训练。然后,将预训练模型加载到线性探测和端到端微调分类任务中。最终,其线性探测结果为 71.2%,微调结果为 84.2%。这表明我们的 EMAE 仍然可以从更长的预训练周期中获得收益。
K 划分的影响。根据第 III-B 节,K 直接决定了每个部分的掩码比,掩码比为 。在表 XIV 中,可以观察到,在相同的预训练设置下,我们的方法不断超越具有不同高掩码比(例如, 和 掩码比)的 MAE。同时,当 K 设置为 4(掩码率为 75%)时,我们的方法的性能达到最佳,并且该现象也符合 MAE 关于掩码比的观察结果。
使用 EMAE 的图像生成质量。如图 4 所示,EMAE 的重建在语义上与原始图像一致,证明了重建的可靠性。为了进一步证实 EMAE 的可靠性,我们通过将 MAE 和 EMAE 分别生成的图像输入分类器进行分类性能比较实验。具体而言,我们在 ImageNet 验证集上使用掩码比率为 75% 的随机掩码分别通过 MAE 和 EMAE 重建图像。然后将这些图像输入到带有 ViT-g [96] 的 SOTA 图像分类器 DINO v2 中,执行线性探测任务。分类结果列于表 XV。与 DINO v2 上原始图像的分类结果相比,MAE 的重建在分类任务中表现出明显的性能下降,而 EMAE 的重建在分类任务中明显优于 MAE,并且实现了与原始图像相当的性能。这表明 EMAE 缓解了不可靠性和不一致问题。此外,我们进一步验证了 EMAE 的图像生成质量,最终结果如表 XVI 所示。这里,SSIM [93] 和 LPIPS [94] 是衡量生成的图像与原始图像相似性的标准标准,而 FID [95] 是衡量生成的图像保真度和多样性的标准指标。EMAE 在所有三个标准上都表现出优于 MAE 的性能。然而,与专用的图像生成模型相比,性能仍然大幅下降。同时,MAE 的扩展,如 MAGE [64] 和 RCG [66],已经在图像生成中实现了 SOTA 性能。值得注意的是,我们的方法与这些方法是正交的。未来,我们计划在图像生成的背景下探索我们方法的有效性。
5.总结
本文研究了 MIM 高掩码率导致的两个严重问题,即预训练时间过长和预训练模型的高度不一致性。为了克服上述问题,我们提出了一种称为具有自一致性的高效掩码自动编码器 (EMAE) 的方法。为了提高自监督任务中的数据利用率,EMAE 提出了并行掩码策略,以实现 100% 的数据利用率,从而提高了预训练效率。同时,提出了自一致性学习来降低 MIM 的不确定性和不一致性,从而进一步提高了性能。在对各种数据集进行预训练后,所提出的 EMAE 在多个下游视觉任务中表现出良好的通用性和可扩展性,例如线性评估、微调分类、对象检测、实例分割和语义分割。我们希望我们的研究能够引起社区对更高效、更可靠的 MIM 的关注。此外,这项工作也有一些局限性:1)我们通过在 ImageNet、COCO 和 OpenImages 数据集上构建实验来验证 EMAE 的性能。然而,自监督学习的前景是建立一个具有更大数据集的通用特征提取器。由于资源和时间消耗,我们尚未将此方法扩展到更大的数据集 [97]–[99] 和更大的架构(例如 ViT-H)。2)同时,EMAE 的自一致性对输入视觉块具有语义理解,但它在高掩码条件下对单个图像的重建可能仍然不那么完美。这个问题可以通过选择自一致性损失或采用生成方法来辅助来解决 [61],[64]。这些限制值得在这项工作的基础上进一步研究和考虑,以实现更好的自监督学习方法。