闫涵超,北京大学光华管理学院统计学专业在读博士生。
这篇文章关注这样一种任务,其中给定有标注和无标注的图像数据集,要求对无标注数据集中的所有图像进行分类。这里的无标注数据可能同时来自已知类别或者是新类别。此前的文章通常做出了一些更强的限制性假设,例如无标注图像仅来自已知或未知类别、以及未知的新类数量是已知的。而这篇文章相较于此前的文章做了更为一般化的设置,解决了更不受限制的设置,称之为“广义类别发现”(Generalized Category Discovery,GCD),并放宽了所有这些假设。
文献链接:Vaze, S., Han, K., Vedaldi, A., & Zisserman, A. (2022). Generalized category discovery. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7492-7501).
背景
想象一个婴儿坐在车里观察外界的场景。各种物体从车旁经过,有些物体的类别婴儿已经知道,比如有人告诉过他“那是一只狗”或“那是一辆车”,因此他能识别这些物体。但还有一些婴儿从未见过的物体,例如猫和自行车,随着他多次看到这类物体,我们可以预期,婴儿的视觉系统会将它们归类为新的类别。
这正是本文研究的问题:在一个图像数据集中,只有部分图像标有类别标签,而其余图像没有标签的情况下,如何为这些未标记的图像分配类别标签,甚至可能是新的、在标记集中未出现过的类别。我们将这个问题称为广义类别发现(Generalized Category Discovery,GCD),并提出这是许多机器视觉应用中的现实场景,如在超市中识别商品、在医学图像中识别病变,或在自动驾驶中识别车辆。在这些和其他现实的视觉环境中,通常无法预先确定新图像是属于已有的标记类别,还是一个新的类别。
相比之下,现有的图像识别方法存在一些局限性。传统的图像分类问题已经被广泛研究,其假设是所有训练图像都有明确的类别标签,并且测试时的所有图像都来自训练集中已知的类别。半监督学习(Semi-supervised learning, SSL. Chapelle et al., 2006)引入了从未标记数据中学习的概念,但仍假设所有未标记图像属于与标记图像相同的类别。近年来,开放集识别(Open-set Recognition, OSR. Scheirer et al., 2013)和新类识别(Novel-category Discovery, NCD. Han et al., 2019)研究了开放世界的场景,在这些场景中,测试图像可能属于新类别。然而,OSR 只关注于检测测试图像是否属于已知类别,而不要求对检测到的新类别进行进一步分类。而 NCD 虽然与本文研究的问题最为接近,其方法从标记和未标记图像中学习,以发现未标记图像中的新类别,但它仍然假设所有未标记图像都来自新的类别,这在实际应用中往往是不现实的。
在本文中,我们通过多种途径处理广义类别发现问题。首先,我们通过采用NCD(新类识别)的代表性方法并将其应用于广义类别发现任务,建立了一个强有力的基准。为此,我们调整了这些方法的训练和推理机制,使其适应更广泛的应用场景,并使用更强大的backbone架构对其进行重新训练。研究结果表明,现有的NCD方法在这种更广泛的设置中,容易导致分类头过拟合到标记类别。
鉴于NCD方法存在过拟合标记类别的风险,我们提出了一种基于聚类的简单而有效的识别方法。我们关键的洞察在于利用视觉变压器强大的“最近邻”分类特性以及对比学习策略。我们提出通过对比训练和半监督-means聚类算法,在没有参数化分类器的情况下进行图像识别。实验结果表明,在通用对象识别数据集以及更具挑战性的细粒度基准上,这种方法显著优于现有的基准方法。对于细粒度基准的评估,我们使用了最近提出的语义转移基准数据集(Vaze et al., 2022),该数据集专为新类识别设计。
最后,我们针对图像识别中的一个具有挑战性且未得到充分研究的问题提出了解决方案:如何估计未标记数据中的类别数量。几乎所有现有方法,包括纯粹的无监督方法,都假设类别数量已知,而这在现实世界中往往是一个不切实际的假设。为此,我们提出了一种利用标记集来估计类别数量的算法,从而有效解决这一问题。
我们的贡献可以总结如下:
正式提出了广义类别发现(Generalized Category Discovery,GCD)任务,这是一种新颖且贴近现实的图像识别设置。 通过将现有的最新新类识别方法扩展应用于GCD任务,建立了强有力的基准。 提出了一种简单而有效的GCD方法,利用对比表示学习和聚类技术,直接生成类别标签,并显著超越了现有基准。 提出了一种新的方法来估计未标记数据中的类别数量,这是一个尚未充分研究的问题。 在标准图像识别数据集以及最近提出的语义转移基准数据集(Vaze et al., 2022)上进行了全面严格的评估。
广义新类识别
这部分内容定义了广义类别发现(Generalized Category Discovery, GCD)问题。简而言之,我们讨论的是图像分类问题,但在训练集中,只有一部分类别是已知的。该任务要求对剩余的图像进行分类,其中的类别可能已经知道,也可能是未知的。
具体来说,我们对GCD问题进行如下定义。假设数据集为,可以将其分为两部分:和,其中。在训练阶段,模型无法接触到数据集中的标签,但在测试时需要能够预测这些标签。此外,假设存在一个验证集,这个验证集与训练集没有交集,但包含相同的标签。
在这一章中,我们描述了解决GCD问题的方法。首先,我们介绍我们的方法,基于自监督学习中的最新进展,提出了一种简单而有效的方法。该方法利用对比学习,通过半监督K-Means算法进行分类。接着,我们提出了一种估计未标记数据中类别数量的方法,这是现有文献中一个具有挑战性的问题。最后,通过修改新类识别(Novel Category Discovery, NCD)方法中的两个先进方法,即RankStats(Han et al., 2021)和UNO(Fini et al., 2021),为本文的GCD方法建立了两个强有力的基准,进一步验证了我们方法的有效性。
本文的方法
在开放世界(Open World)下,图像识别方法应当避免使用参数化的分类头,而是直接在深度网络中进行聚类。这是因为分类头(通常为线性分类器)通常通过交叉熵损失进行训练,但已有研究表明,交叉熵损失容易受到噪声标签的影响(Feng et al., 2020)。此外,当为无标签的类别训练线性分类器时,经典的方法通常是为这些无标签样本生成(有噪声的)伪标签,这使得参数分类头易受无标签类别的干扰,从而导致性能下降。最后,需要注意的是,训练分类头通常必须从头开始,这使其更容易在有标签类别上出现过拟合问题。
与此同时,自监督对比学习已广泛用于预训练,以实现新类识别(Novel Category Discovery, NCD)中的稳健特征表示(Jia et al., 2021; Zhong et al., 2021)。此外,与Vision Transformer(ViT)结合时,自监督对比学习能够生成优良的最近邻分类器模型(Caron et al., 2021)。基于这一点,本文发现,通过对ViT模型进行对比训练,可以直接在模型的特征空间中进行聚类,从而避免使用线性分类头,并可能减少过拟合的风险。具体来说,本文在所有图像上使用噪声对比损失(Noise Contrastive Loss, Gutmann and Hyvärinen, 2010)进行表示训练,这种训练方式不依赖任何标签,从而避免了对(部分)标签类别特征的过拟合。为了进一步利用有标签数据,还为标记实例引入了有监督的对比学习部分(Khosla et al., 2020)。
特征学习
在所有方法中,使用了通过DINO(Caron et al., 2021)自监督预训练的ViT模型(ViT-B-16, Dosovitskiy et al., 2021)作为backbone网络,该模型在无标签的ImageNet数据集(Deng et al., 2009)上进行了预训练。之所以选择这一模型,主要有两个原因:首先,DINO模型作为一个强大的最近邻分类器,其特征空间中的非参数化聚类效果显著。其次,自监督ViT展示了无需人工标注即可学习关注物体显著部分的能力,这对于该任务极为有利,因为那些对分类最重要的特征可能会很好地从有标签类别迁移到无标签类别(详见第4.5节)。
此外,本文还反映了一个现实且实用的实验设置。在NCD文献中,通常的做法是从头开始训练一个ResNet-18网络(He et al., 2016)以完成目标任务。然而,在现实应用中,模型往往通过大规模预训练权重进行初始化以优化性能(通常是使用ImageNet预训练)。为了避免与本文实验设置中假设的有限标签集产生冲突,本文选择使用自监督ImageNet权重。为了进一步使特征适应所拥有的有标签和无标签数据,本文在目标数据上进行了微调,同时在有标签数据上进行了有监督对比学习,并在所有数据上进行了无监督对比学习。
具体来说,设 和 是同一图像在一个小批量 中通过随机数据增强生成的两个视图。无监督对比损失的形式为:
其中 , 是指示函数,当且仅当 时其值为1, 是温度参数。 是特征backbone网络, 是一个多层感知器(MLP)线性层。
监督对比损失的表达式为:
其中 表示在小批量 中与 具有相同标签的其他图像的序号索引。
最终,整个批量的总损失函数构建为:
其中 对应于 的有标签子集, 是一个权重系数。
在这个对比框架本文并未采用交叉熵损失,这意味着无标签数据和有标签数据在训练中可以被相似地对待。监督对比部分的作用仅在于引导网络向语义上有意义的表示方向发展,从而尽可能避免模型对有标签类别的过拟合风险。
使用半监督 -means 分配标签
基于学习到的表示,可以为每个未标记的数据点分配类别或簇标签,这些标签既可能来自已标记类别,也可能属于未见过的新类别。不同于常见的基于参数的NCD(新类检测)方法,后者容易导致对已标记数据的过拟合,本文提出了一种非参数方法。具体而言,对经典的 -均值算法进行修改,通过强制将 中的实例根据其真实标签分配到正确的簇,从而形成一个约束算法。这里假设簇的数量 是已知的。在第3.2节中,将讨论如何估计该参数。
在初始阶段, 的 个质心基于真实类别标签获得,而额外的 (新类别的数量)个初始质心则通过 -means++ 算法(Arthur and Vassilvitskii, 2007)从 中生成,并受到 质心的约束。在每次质心更新和簇分配循环中, 中同类别的实例总是被强制分配到同一簇,而 中的每个实例可以根据与不同质心的距离分配到任意簇。随着半监督 -均值算法的收敛, 中的每个实例最终都会被分配到一个簇标签。
在无标签数据中估计类别数
接下来讨论如何估计未标记数据中的类别数量。在NCD和无监督聚类设置中,通常假设已知数据集中的类别数量,但在现实世界中,这种假设往往不切实际,因为标签本身是未知的。为了估计 中的类别数量,利用了 中的信息。具体而言,对整个数据集 进行 -均值聚类,然后仅在标记子集上评估聚类的准确性(评估指标定义详见第4.1节)。
通过运行匈牙利算法(Kuhn, 1955)来评估聚类准确性,该算法用于找到簇索引集与真实标签之间的最佳分配。如果簇的数量超过了总类别数,则多余的簇会被分配到空集,这些簇中的所有样本点都被认为预测错误。反之,如果簇的数量少于类别数,多余的类别则被分配到空集,所有属于这些真实标签的样本点也会被视为预测错误。因此,假设在 上执行的聚类中, 的数量若过高或过低,会在 上反映为次优的聚类准确性。换句话说,当 时,标记集上的聚类准确性将达到最大。基于这一直觉,使用聚类准确性作为一个“黑箱”评分函数,,并利用Brent算法来优化 的最佳值。
最后,我们强调,不同粒度的标记集会导致不同的类别数估计。然而,我们建议标记集定义了分类系统——真实世界数据集的粒度不是图像的内在属性,而是由标签强加的框架。例如,在Stanford Cars数据集中,可以在“制造商”、“型号”或“变体”级别进行标记,分类系统由分配的标签定义。
两个Baseline方法
本文从最近邻图像识别的子领域中引入了两种新类识别(NCD)方法,适用于广义类别发现(GCD)任务。这两种方法分别是RankStats(Han et al., 2021)和UNO(Fini et al., 2021)。RankStats被广泛用作新类别发现的竞争基线,而UNO被认为是目前新类别发现领域的最先进方法。
Baseline-1:RankStats+
RankStats方法在共享特征表示的基础上训练两个分类器:第一个分类器接收标记集中的实例并使用交叉熵损失进行训练,而第二个分类器仅接收无标签类别的实例。在新类别发现(NCD)设置中,有标签类别和无标签类别是分开的。为了将RankStats适应于广义类别发现(GCD),在训练数据集中使用单个分类头,覆盖所有类别。具体而言,前个分类头的元素使用交叉熵损失进行训练,而对整个分类头使用伪标签,并使用二元交叉熵损失进行训练。
Baseline-2:UNO+
UNO方法与RankStats类似,通过分类头对标记数据和无标签数据进行训练。该模型的训练方式类似于SwAV(Caron et al., 2020)。首先,对一个批次生成多个视图(通过随机增强)并输入同一模型。对于标记图像,标记分类头使用真实标签和交叉熵损失进行训练。对于无标签图像,收集给定视图的预测(来自无标签分类头的logits),并将这些预测作为伪标签来优化其他视图的损失。为了适应这一机制,将标记分类头和无标签分类头连接起来,从而允许生成的无标签样本伪标签属于数据集中的任何类别。
实验
实验设置
数据
在本文的实验中,展示了六个数据集的结果。对于每个数据集,首先提取训练集,并选择一组类别,在训练过程中对这些类别进行标记。然后,从这些类别的图像中随机抽取50%构成标记集。其余图像以及其他类别的所有实例构成无标签集。标记类别的验证集则从每个数据集的测试或验证分割中构建。
首先,在三个通用物体识别数据集上展示结果,包括CIFAR10、CIFAR100和ImageNet-100。ImageNet-100是从ImageNet数据集中随机抽取的100个类别。
此外,还在最近提出的语义偏移基准数据集(Semantic Shift Benchmark, SSB, Vaze et al., 2022)上进行评估,该基准数据集包括CUB(Wah et al., 2011)和Stanford Cars(Krause et al., 2013)。另外,使用了Herbarium19(Tan et al., 2019)数据集。SSB提供了具有明确“语义变化轴”的细粒度评估数据集,并提供了与语义上连贯的类别。这使得能够确认识别系统是基于真实的语义信号识别新类别,而不是仅响应数据中的低级分布变化,这种现象可能在通用物体识别数据集中出现。Herbarium19数据集的长尾特性则为评估带来了额外的挑战。
细粒度数据集进一步反映了图像识别系统在实际应用中的许多场景,例如超市中的产品识别、交通监控或野外动物追踪。实际上,Herbarium19数据集本身就是GCD的一种实际应用场景:尽管已知约40万种植物,并估计还有约8万种尚待发现,但手工描述植物物种大约需要35年。表1中总结了所使用数据集的详细分割信息。
本文实验中使用的数据集。下表给出了每个数据集中已知标签和未知标签的数量(),以及有标签和无标签数据及的样本量
评价指标
对于每个数据集,我们在标注数据集上训练模型,而不访问未标记数据集 中的真实标签。在测试阶段,我们测量模型预测 与真实标签 之间的聚类准确性,计算公式如下:
其中,,是无标签集中类别标签的所有可能排列。我们的主要评价指标是“所有”实例上的ACC,它表示整个未标记集 上的图像识别准确性。此外,我们还报告了“旧”类别子集(属于 中的 类别的实例)和“新”类别子集(属于 中 类别的实例)的准确性。计算所有类别 上的排列集的最大值是通过匈牙利最优分配算法 (Kuhn, 1955) 实现的。需要注意的是,我们只在所有类别上进行一次匈牙利分配,然后使用这个分配来测量“旧”类别和“新”类别子集的分类准确性。
实现细节
所有方法均使用 Vision Transformer (ViT-B-16) 网络作为骨干,并利用 DINO 预训练权重进行训练。特征表示由网络输出的 [CLS]
标记提供。每种方法均训练 200 个轮,并通过验证集上的准确性来选择最佳模型。最终,所有方法的 Transformer 最后一层均经过微调。
在我们的方法中,我们以 0.1 的初始学习率微调 Vision Transformer 的最终块,并采用余弦退火调度策略来实现学习率衰减。我们使用批量大小为 128,并在损失函数中设置 (\lambda = 0.35)。根据自监督学习的标准做法,我们在应用对比损失之前,通过非线性投影头对模型输出进行投影。测试阶段则弃用这一投影头,所用投影头与 Caron 等(2021)中的投影头相同。对于 NCD 的基准方法,我们尽可能遵循原始实现和学习调度,具体细节参见原始论文(Han et al., 2021; Fini et al., 2021)。
最后,为了估计类别数,我们在从每个基准模型中提取的 DINO 特征上运行我们的k-Means方法,其中的最小值设置为,最大值设置为 1000 类。
与 Baseline 对比
我们在表 2 和表 3 中展示了所有比较方法的结果。作为额外的基线,我们还报告了直接在原始 DINO 特征上运行 -means 的结果(记作 -means)。表 2 展示了通用物体识别数据集的结果,而表 3 则展示了 SSB 和 Herbarium19 的结果。
总体而言,在未标记数据集 的“所有”实例上,我们的方法在标准图像识别数据集上比 RankStats+ 和 UNO+ 基线方法分别提高了 9.3% 的绝对值和 11.5% 的相对值。同时,在更具挑战性的细粒度评估中,我们的方法相较于基线方法在准确率上提升了 8.9% 的绝对值和 27.0% 的相对值。
我们发现,在标记样本所对应的类别(即“旧”类别)中,使用参数分类器的基线方法可能在准确率上略优于我们的方法,但这通常是以“新”类别上的准确率 为代价的。此外,随着基线方法的训练时间增加,它们可能会开始牺牲“旧”类别的准确率以提升“新”类别的准确率。然而,通过监控验证集上的性能并适时提前停止训练,可以实现最佳的整体性能。下面的表2和表3汇报了在一些图像数据集上的预测结果
类别数估计
我们在表 4 中报告了估计类别数量的结果。对于通用物体识别数据集,我们的方法能够非常接近未标记集中类别的真实数量,最大误差不超过 10%。然而,在细粒度数据集上,我们观察到平均偏差为 18.9%。这些数据集由于包含许多视觉上高度相似的类别,挑战性极高,因此在类别数估计方面出现了一定的误差。
消融实验
在表 5 中,我们分析了方法中各个组成部分的贡献。具体而言,我们考察了以下组件的重要性:ViT Backbone 网络、对比微调(包括常规和监督)以及半监督 -均值聚类。
ViT Backbone
表 5 中第 (1) 和 (2) 行展示了 ViT 模型在聚类任务中的表现,其中 (1) 和 (2) 分别对应使用 DINO 训练的 ResNet-50 和 ViT-B-16 模型。ResNet 模型在“旧”类别和“新”类别上的整体表现落后了近 20%。为了与架构本身的能力区分开来,我们注意到 ImageNet 上线性探测精度的差异(自监督模型的标准评价指标)约为 3%(Caron et al., 2021)。同时,ImageNet 上的 -NN 准确率差异约为 9%(Caron et al., 2021)。这说明了 ViT 模型在聚类任务中表现更好的原因。
对比微调
第(2)行至第(5)行展示了在目标数据集上引入不同组合的对比微调的效果。我们发现,仅使用任何单一的对比方法,相比于使用原始DINO特征,只能带来相对较小的提升。只有在目标数据集上同时结合自监督和监督对比损失时,才能实现全部收益。具体而言,这种对比损失的结合使我们在CIFAR100上的聚类准确率提高了19%,在Herbarium19上提高了16%(在这种情况下 翻了一倍以上)。
半监督 -均值
通过半监督聚类可以实现进一步的性能提升。在CIFAR100和Herbarium19的所有类别中, 分别提高了2%和7%。在Herbarium19中,“旧”类别的 提高了19%。有趣的是,半监督 -均值 在CIFAR100的“旧”类别上略微降低了性能。我们认为这可能是匈牙利算法的结果,该算法倾向于将一些“干净”的簇分配给“新”类别,以最大化整体 。这在CIFAR100的“新”类别中可以观察到,由半监督方法提供了10%的提升。此外,我们发现,如果分别对“旧”和“新”实例执行匈牙利算法(允许在评估期间重用干净簇),则半监督 -均值 在所有数据子集上的 都得到了改善。有关报告的 与匈牙利分配之间的相互作用的更多详细信息,请参见附录E。
总结
总的来说,我们发现单独使用任何一个组件都不足以在所有基准数据集上实现良好性能。具体而言,结合ViT Backbone和对比微调可以在模型的特征空间中实现强大的 -均值 聚类。半监督 -均值 算法进一步通过标签引导聚类过程,特别是在细粒度数据集的“新”类别上实现了更好的 。
我们通过 图2 中的 TSNE 可视化进一步说明了这一点。我们展示了原始 ResNet-50 和 ViT DINO 特征的 TSNE 投影,以及我们模型的 TSNE 投影。对于 ResNet-50 特征,同一类别的点通常投射得很近,这表明它们可能通过简单的变换(例如线性探针)被分开。然而,它们并未形成清晰的簇,暗示这些特征在下游聚类任务中的表现较差。相比之下,ViT 特征形成了更清晰的簇,并且在使用我们的方法进行训练时进一步区分。
定性结果
为了更好地理解模型的性能,我们可视化了模型的注意力机制。在图3中,我们观察了最终多头注意力层在支持输出 [CLS]
标记(我们用作特征表示)时如何关注不同的空间位置。我们展示了来自 Stanford Cars 和 CUB 数据集的“旧”类别和“新”类别的注意力图,分别对应预训练的 DINO 模型和使用我们方法训练后的模型。
正如 Caron et al. (2021) 所示,DINO 模型中的不同注意力头会关注图像的不同区域,且不需要人工标注。我们发现这一点确实成立,不同的注意力头会关注图像的不同部分,且通常集中在重要的区域。然而,在使用我们的方法进行训练后,注意力头更专注于语义相关部分,表现出更集中的局部注意力。这种现象表明,模型学习到了一组在“旧”类别和“新”类别之间可转移的部分,从而能够更好地从标记数据中泛化知识。
总结
在本文中,我们提出了一种新的图像识别设置,即“广义类别发现”(GCD)。我们总结了以下三点主要信息:首先,GCD 是一个具有挑战性且现实的图像识别设置;其次,GCD 消除了现有图像识别子领域(如新类别发现和开放集识别)中的限制性假设;最后,尽管参数分类器在广义设置中容易过拟合标记类,但从对比训练的 ViT 中直接聚类特征被证明是一种出乎意料的优秀分类方法。
参考文献
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds-200-2011 dataset. Technical Report CNS-TR-2011-001, California Institute of Technology, 2011.
David Arthur and Sergei Vassilvitskii. k-means++: the advantages of careful seeding. In ACM-SIAM symposium on Discrete algorithms, 2007.
Enrico Fini, Enver Sangineto, Stéphane Lathuilière, Zhun Zhong, Moin Nabi, and Elisa Ricci. A unified objective for novel class discovery. In ICCV, 2021.
Harold W Kuhn. The hungarian method for the assignment problem. Naval research logistics quarterly, 1955.
Jia Deng, Wei Dong, Richard Socher, Li-Jua Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009.
Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei. 3d object representations for fine-grained categorization. In 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), 2013.
Kai Han, Andrea Vedaldi, and Andrew Zisserman. Learning to discover novel visual categories via deep transfer clustering. In ICCV, 2019.
Kai Han, Sylvestre-Alvise Rebuffi, Sebastien Ehrhardt, Andrea Vedaldi, and Andrew Zisserman. Autonovel: Automatically discovering and learning novel visual categories. IEEE TPAMI, 2021.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
Kiat Chuan Tan, Yulong Liu, Barbara Ambrose, Melissa Tulig, and Serge Belongie. The herbarium challenge 2019 dataset. In Workshop on Fine-Grained Visual Categorization, 2019.
Lei Feng, Senlin Shu, Zhuoyi Lin, Fengmao Lv, Li Li, and Bo An. Can cross entropy loss be robust to label noise? In IJCAI, 2020.
Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In ICCV, 2021.
Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Unsupervised learning of visual features by contrasting cluster assignments. In NeurIPS, 2020.
Michael Gutmann and Aapo Hyvärinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 2010.
Olivier Chapelle, Bernhard Scholkopf, and Alexander Zien. Semi-Supervised Learning. MIT Press, 2006.
Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. arXiv preprint arXiv:2004.11362, 2020.
Sagar Vaze, Kai Han, Andrea Vedaldi, and Andrew Zisserman. Open-set recognition: A good closed-set classifier is all you need. In International Conference on Learning Representations, 2022.
Walter J. Scheirer, Anderson Rocha, Archana Sapkota, and Terrance E. Boult. Towards open set recognition. IEEE TPAMI, 2013.
Xuhui Jia, Kai Han, Yukun Zhu, and Bradley Green. Joint representation learning and novel category discovery on single- and multi-modal data. In ICCV, 2021.
Zhun Zhong, Enrico Fini, Subhankar Roy, Zhiming Luo, Elisa Ricci, and Nicu Sebe. Neighborhood contrastive learning for novel class discovery. In CVPR, 2021.
数据分析从入门到精通,狗熊学习卡助您一臂之力!69元/年,狗熊会所有视频课程无限看,代码轻松学。欢迎小伙伴们扫码购入~