TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

文摘 2025-01-06 11:47 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

题目：Interpretable Compositional Representations for Robust Few-Shot Generalization

可解释的组合式表示，用于鲁棒的小样本泛化

作者：Samarth Mishra; Pengkai Zhu; Venkatesh Saligrama

摘要

我们提出了一种受人类认知启发的图像编码方法——Recognition as Part Composition (RPC)。此方法基于这样一个认知理论：人类通过组成部分来识别复杂物体，并构建一个小而紧凑的概念词汇表来表示每个实例。RPC首先将图像分解为显著的部分，然后将每个部分编码为少数几个原型的混合，每个原型代表一个特定的概念。我们发现，这种受人类认知启发的学习方式可以克服深度卷积网络在低镜头泛化任务中所面临的障碍，例如零样本学习、少样本学习和无监督领域自适应。此外，我们还发现使用RPC图像编码器的分类器对深度神经网络容易受到的对抗性攻击相当健壮。考虑到我们的图像编码原理是基于人类认知的，人们期望编码对人类是可解释的，这一点通过众包实验得到了证实。最后，我们提出了这些可解释编码的应用形式，即生成合成属性注释，以评估新数据集上的零样本学习方法。

关键词

可解释人工智能 (Explainable AI)
少样本学习 (few-shot learning)
零样本学习 (zero-shot learning)
领域自适应 (domain adaptation)
对抗性机器学习 (adversarial machine learning)
人类认知 (human cognition)
组合学习 (compositional learning)
计算机视觉 (computer vision)

1. 引言

尽管深度卷积网络（DCNs）在图像分类方面非常有效，但它们需要大量的标注图像来学习 [1]。当从少数标记样本中学习时，它们会遇到主要障碍 [2], [3]。此外，这些网络学习到的图像特征常常非常脆弱，不适应图像领域的变更，并且也容易受到对抗性图像扰动的影响，这些扰动对人类眼睛来说是难以察觉的 [4]。

另一方面，人类，甚至是儿童，并不面临这些挑战，并且能够通过仅观察几个示例有效地学习概念 [5], [6], [7]。人类这种能力背后的一个被广泛接受的理论是“通过组成部分识别” [8]。换句话说，人类可以学习将概念识别为更简单部分的组合。Lake等人 [9] 在贝叶斯程序学习框架中利用了这一点，构建了一个系统，用于有效进行一次性泛化任务，如识别手写字符类别，并发现低样本泛化与人类相当，并且比用于图像识别的最新技术DCNs要好得多。

将图像分解为部分是该理论建议的一种识别方法。此外，我们还从量子认知理论中获得灵感，该理论表明每个对象的实例通常被学习为多个概念的叠加 [10]。一个实例可以表示为这些概念的加权和，其中系数表示坍缩概率。在这个框架下，图像中识别的每个部分可以表示为少数几个概念或原型的凸组合。

受此理论启发，我们提出了Recognition as Part Composition (RPC)，一种通过首先将图像分解为几个语义代表性部分，然后学习每个部分在少数几个原型方面的编码来学习图像表示的方法。为了发现图像的不同部分，我们使用了一个多注意力卷积神经网络（MACNN）（类似于[11]中使用的模型），与Lake等人 [9] 的方法不同，他们使用笔画作为额外注释来识别字符，我们的模型自动识别图像的代表性部分。我们模型唯一需要使用的注释是图像的类别标签。

为了说明RPC生成的编码，我们在图1中展示了一个示例。我们的模型学会识别鸟的关键部分，如它的头部（部分-0）、胸部（部分-1）等。此外，它还学习了每个部分的某些原型类型，我们在图1中通过显示与该类型最接近的4个部分图像来表示。我们的模型为图像中识别的每个部分生成一个部分类型分布，表示给定部分来自某个特定部分类型的可能性。RPC编码是模型识别的每个部分的这些分布的集合。正如我们将在少样本学习、零样本学习和领域自适应图像识别任务的评估中看到的那样，这种图像编码具有令人惊讶的低样本泛化属性。这表明我们的方法使用训练集图像学习到的概念很好地泛化到未见过的集合。我们还发现这些表示对人类是可解释的，并且能够对抗图像扰动。

可解释性在部署用于现实世界预测的模型中是受青睐的，这样人类操作员就可以信任模型的决策，并在出现问题时可能诊断问题。然而，DCNs由于其高维图像表示和高度非线性推理，最终成为“黑箱”模型，使得理解其决策背后的推理变得困难。传统智慧认为，为任务端到端学习到的表示比设计为可解释的语义表示表现更好。因此，现有的努力主要集中在通过注意力图或活动补丁将端到端网络的决策与图像像素联系起来，事后解释端到端网络 [12], [13], [14]。与这些事后可解释性分析不同，我们以端到端的方式学习可解释的表示，并且我们的方法增强而不是限制了系统有效地学习低样本概念并转移到新的可视化领域和小数据问题的能力。

本文基于我们的初步工作 [15]，并在多个方向上进行了大量扩展，探索了新概念并将其应用于新场景。我们在下面总结了这些贡献：

概念的组合性。我们提出了Recognition as Part Composition (RPC)，一种受人类认知启发的通用图像编码器，通过将图像分解为部分，然后以少量概念的紧凑词汇表来表示每个部分，产生图像编码。
低样本泛化。我们展示了RPC编码在低样本泛化任务（如少样本学习、零样本学习和视觉领域自适应）中的有用性，并且使用RPC编码器的简单模型在这些任务中的性能与最新方法相比具有竞争力。
对抗性攻击的鲁棒性。带有RPC编码器的分类器比标准DCN对对抗性攻击更为鲁棒。这是因为RPC编码器将输入嵌入到离散概念的空间中，因此为了使攻击成功，对手必须显著修改输入以修改概念。
可解释性。我们还展示了RPC编码对人类也是可解释的，通过众包问题了解我们模型编码。
合成数据集。最后，鉴于RPC编码对人类是可解释的，我们提出了我们模型的另一个可能应用，作为评估新数据集上零样本学习方法的合成属性生成器。

我们指出，在提到我们的贡献时，本文的目标是展示我们的RPC编码具有某些良好属性。虽然在不同的低样本泛化任务中，我们将看到使用这些图像表示的模型与专门为这些任务开发的最新方法相比具有竞争力，但目标不是展示RPC的性能优于那些特定于任务的方法。相反，我们的框架应该被视为展示人类类似学习对有限样本学习问题的好处。

3 作为部分组合的识别 (RECOGNITION AS PART COMPOSITION)

我们的方法是学习一个中间特征表示，我们简单地称之为RPC编码。我们描述了我们在论述中使用的符号：表示一个图像，而表示图像的类别标签。我们将使用表示图像-标签对的联合分布。

归纳偏差 (Inductive Bias)
我们提出的方法注入了一种归纳偏差，将任务后验分解为一个与任务无关的映射函数或RPC编码器，以及一个针对的任务特定后验。映射涉及我们可以在第3.1节和3.2节中看到的可学习参数。因此，

如果潜在变量是一个任务独立的嵌入，能够从训练分布中提取预测信息到目标任务分布，那么上述的结构分解才是有用的。请注意，分解本身并不特殊，并且不清楚我们是否可以学习允许这种信息转移的映射。例如，如果是恒等映射，则不会从训练任务分布中提取任何信息以用于目标任务。然而，我们从人类认知中汲取洞见，提出了我们的RPC编码器，正如我们将从实验中看到的，它确实允许从训练任务有效地转移知识。

模型的概述在图2中显示。给定一张图像，模型首先使用“部分特征提取器”识别图像中的个部分，并为每个部分提取特征（见第3.1节）。然后，它使用“部分类型似然编码器”（见第3.2节），学习不同部分类型的某些原型表示，以生成每个部分的编码，作为这些原型的凸组合。这些特征，用表示，就是模型识别的每个部分的RPC编码。最后，根据不同的任务，选择不同的任务特定预测器（见第5节），它通过为图像输出类别预测，并且模型是端到端训练的。

3.1 部件特征提取器 (Part Feature Extractor)

受 [11] 的启发，我们使用一个多注意力卷积神经网络（MACNN）将输入图像映射到有限集合的部分特征向量。它包含一个模块，对于输入图像生成一个卷积特征表示，其中是宽度，是高度，是通道数。第二个模块然后使用这个表示为每个部分产生一组权重，组合中的不同通道以获得每个部分的注意力图。具体来说，，其中是图像中不同部分的数量（一个集合超参数），第个部分的注意力图被计算为：

其中求和是在通道维度上，符号为了简洁起见省略了对的依赖，而 "normalize" 操作是将所有元素除以一个常数，使得中的元素之和为1。然后第个部分特征被计算为：

其中表示逐元素乘法，求和是在每个通道的宽度和高度维度上。我们使用 ResNet-34 主干网络（直到 conv5 块）参数化，并使用全连接层参数化。

正如我们在公式 (3) 中看到的，可以分解为注意力图和提取的卷积特征的逐元素乘积，然后是在宽度和高度维度上的求和。为了使注意力图对应于图像的不同部分，我们希望它们在给定部分内紧凑，并且在不同部分上多样化地展开。为了鼓励这种行为，我们使用以下两个标准：

紧凑性 (Compactness)：这个标准鼓励每个部分的注意力图集中在峰值附近，定义为：

其中是在坐标的幅度，是的峰值坐标。注意，损失惩罚了远离其峰值的的高值。

多样性 (Diversity)：这个标准鼓励不同部分的注意力图在不同位置有峰值，定义为：

其中是一个小的边界，以确保训练的鲁棒性。注意，当两个不同的注意力图在图像的某些部分具有高值时，这个损失会很高。

结合这两个损失，我们得到：

其中是平衡这两个标准的超参数。

3.2 部件类型似然编码器 (Part-Type Likelihood Encoder)

我们假设一个基础的高斯混合分布，来自：

其中表示样本属于具有均值的高斯分量的可能性。这意味着是原型部件类型，使用权重的凸组合给出了的高斯混合的均值。我们也简单地将这些原型部件类型称为部件的原型。上述意味着一个自动编码器的实现，我们可以使用投影矩阵将变换到低维的（注意我们使用的矩阵）：

其中是 softmax 函数。这个变换的逆是一个矩阵，其行包含原型，并且近似满足：

将视为自动编码器的参数，学习这些低维编码给定部分特征的训练目标如下：

其中和是正则化项的权重。

4 解释性和可解释模型

在本文的引言部分中提到，在许多实际场景中，更倾向于使用可解释的模型。在深入探讨具体的低样本泛化任务之前，我们先详细阐述一下模型的可解释性，是如何作为RPC编码器训练过程的一个结果，并且在进行实验验证之前，尝试定义可解释性模型应具备的某些属性。

定义1（可解释模型）可解释模型是具备以下三个属性的模型：

紧凑词汇表。它的预测可以与少数有限的离散概念相关联。虽然"有限性"使得这些概念的实际数量任意，但所要求的是出于人类在面对多个选项时的选择动机。特别是，我们有理由假设对于每个部分，我们大约有六种原型，每种原型展示大约4-6个变体，最后总共有大约4-6个部分。
一致性。它为每个概念分配重要性值，以便其最终输出直接与这些值相关；概念和重要性值共同构成了解释。
有意义性：这些概念必须对人类在语义上是有意义的，或者在看过几个例子之后能够被识别。

根据上述属性，我们的RPC模型具有紧凑词汇表，因为它将图像分解为部分，使得每个部分只由少数几个原型/概念表示。存在一致性，因为模型的输出是RPC编码的简单函数（使用特定于任务的预测器；见第5节），而RPC编码只是代表每个部分来自某个特定概念/原型的可能性的一组重要性值。剩下的唯一组件是有意义性，我们通过众包平台对模型为不同图像产生的示例编码提出的某些问题的回答来证明这一点（见第7节）。使用‘任务’作为代表与分类任务相关的损失函数的代理（假设有额外的可能是参数化的函数作用于RPC编码以生成类别预测），当RPC模型使用损失函数 'part + 'ae + 'task训练时，它就获得了上述属性，使其成为可解释的。

5 低样本泛化中的RPC

使用RPC编码器，可以定义一个分类器作为一个简单的多层感知器（甚至是线性分类器），它作用于RPC编码。来自所有部分的编码在输入到分类器之前被连接起来。我们特别使用了一个2层MLP，用于简单地学习源/训练数据集的分类器，我们用它来评估编码的可解释性以及对抗性鲁棒性（分别见第7节和6.4节）。此外，我们在3个不同的低样本泛化任务上评估了RPC，每个任务都有自己的约束，因此需要一个单独的特定于任务的预测器，我们在下面进行描述。

5.1 无监督领域自适应

这个问题涉及在目标领域内处理图像分类，目标领域的图像-标签对的联合分布与训练数据不同（即，其中是源领域可用于学习者的标记训练图像的分布）。问题指定和共享相同的标签集。当学习者预期要识别一个对象的真实图像时，只能访问相同对象的标记手写草图时，就会出现这个例子。

具体来说，学习者可以访问一组标记的图像，以及一组未标记的图像，学习者的目标是为中的图像预测类别标签。

在这种情况下，特定于任务的预测器是一个简单的2层MLP分类器，位于RPC编码之上，，其中是可能标签集合Y中的类别数量。我们首先仅使用源领域图像训练V，以最小化目标

其中CE表示交叉熵，是类别标签y的一位有效表示。类似于先前的工作[37]，[38]，我们随后使用伪标签对目标领域图像进行标记，创建集合。然后我们重新训练整个模型，以最小化目标

5.2 少样本学习

少样本学习（FSL）测试了分类器使用每个类别的几个标记样本进行学习的能力。评估通常包括一个“基础训练集” 的图像-标签对，学习者可以用作训练。在推理时，学习者会得到一些“情节”，其中包含少数类别和每个类别的少量标记图像（或支持图像），每类b个。还会提供一定数量的查询图像，学习者应该使用这些支持图像将它们分类为a个类别之一。这称为a路b射击学习任务。DS中的类别通常与用于评估情节中的类别不相交。

我们首先在以下损失函数上训练模型，使用2层MLP分类器作为V：

其中CE和与等式(10)中使用的相同。

在推理时，我们使用该模型作为一个非参数最近邻分类器。假设一个评估情节如下所示：是图像标签对的支持集，每个类别恰好有b个图像，而是只有图像没有标签的查询集。对于，模型通过以下方式预测标签：

其中是类别y图像在Dk中的平均RPC编码，即

5.3 广义零样本学习

零样本学习（ZSL）涉及在推理时对训练图像的类别标签与在推理时看到的图像的真实标签没有重叠的识别问题。这个问题伴随着每个类别标签的语义向量，这为学习者提供了含义，以便在尝试对在训练期间未遇到的类别的图像进行分类时利用。我们在这里注意到，我们也将类别的语义属性称为这个语义向量，因为通常这个向量来自于数据集中属性的标记。

具体来说，问题涉及一个图像标签对的训练集，使得对于，。集合通常被称为“见过的类别”，而集合，“未见过的类别”。如上所述，每个类别标签都有一个对应的语义向量。另外，我们用，和表示与，和相对应的语义向量集合。零样本学习指的是在推理时，模型对图像进行预测，这些图像的类别在中，模型使用进行这个预测。一种称为广义零样本学习（GZSL）的修正，在推理时，要求模型预测任何类别在集合Y中的图像的类别标签，使用语义向量集合S。ZSL比GZSL问题更简单，因为在前者中，学习者在推理时，知道正确答案是在集合中，后者的基数比Y小得多。我们使用GZSL进行评估。特定于任务的预测器V是一个2层神经网络，模型通过以下目标函数最小化：

其中

是一个将类语义向量视为V(p(x))上的最大边界分类器的权重的合页损失。

在推理时，图像x的类别预测是通过以下方式进行的：

5.4 实现细节

回想一下第3.1节中提到的特征提取器模块由一个Resnet-34参数化（直到conv5块），而G(\cdot)是一个全连接层。每个部分的部分数M和原型数K是超参数。在我们的实验中，M设置为4，K设置为16，除非另有说明。另外，在公式(7)中的softmax函数f，其温度设置为100（根据在miniImagenet上的少样本分类的验证集准确度选择；扫描显示，对于低于10的较低温度，准确度没有太大变化，但在温度低于1时迅速下降）。在公式(5)中的z被经验性地设置为0.02，以实现稳健的训练。我们将设置为1e-3。

在所有实验中，模型优化是通过交替方式完成的，在步骤(A)中，我们仅优化目标函数'part的G(\cdot)参数，在步骤(B)中，我们冻结这些权重，并在完整的（特定于任务的）目标函数上优化其余模型参数。

对于FSL和DA，输入图像大小为224x224像素，公式(6)中的设置为2。对于GZSL，我们的模型采用448x448大小的输入图像，设置为5。GZSL和DA的特定于任务的预测器V(\cdot)是通过两个FC层神经网络实现的，ReLU激活，隐藏层的神经元数量设置为32。请注意，每个任务的培训细节在第6节中提到。

6 实验

6.1 领域自适应

数据集。我们在三个数字数据集上评估了RPC模型在无监督领域自适应任务上的表现：MNIST [66]、USPS 和 SVHN [67]。每个数据集包含10个类别的数字（0-9）。MNIST 和 USPS 是手写数字，而 SVHN 来自谷歌街景图像中的门牌号码。

设置。我们遵循 [33] 中的协议，使用了三个评估用的适应场景：(DS ! DT): MNIST ! USPS, USPS ! MNIST, 和 SVHN ! MNIST。在实验中，我们评估了两种变体的模型：(1) RPC(source p): 在训练期间，模型纯粹从源数据中学习，这对应于最小化公式(10)中的目标。此模型在训练期间不使用任何来自目标域的未标记数据。(2) RPC(joint p): 此模型通过最小化公式(11)中的目标从联合数据集 DS [ eDT 中学习视觉编码器。回想一下，eDT 包含带有由“source p”模型生成的伪标签的目标域图像。

训练细节。RPC (source p) 在源域数据集上进行训练，如上所述。步骤(A)和步骤(B)的学习率分别为1e-6和1e-5。在MNIST、USPS和SVHN上的训练周期分别设置为40、20和40。对于joint p，我们首先使用source-p模型的权重进行初始化。接下来，模型在联合数据集 DS [ eDT 上训练10个周期。步骤(B)的学习率修改为1e-6。

结果。不同场景下的目标分类准确率报告在表1中。我们的RPC方法表现得非常好，特别是当我们使用目标伪标签进行训练时，即RPC(Joint p)。值得注意的是，MeanTeacher使用数据增强技术模拟目标数据的失真。显然，对于特定数据集，这种技术非常强大，以至于报告的准确率比目标数据上的全监督模型还要高。相比之下，我们的方法学习了源域和目标域的静态通用表示，不需要事先了解域失真。数据增强与我们的模型是互补的，可以预期我们的模型也可以从增加的训练数据中受益。

结果展示了所提出的RPC表示的好处。具体来说，在相同的域中，不同类别的RPC编码之间的距离或不相似性足够大，可以学习到一个好的分类器。同时，来自不同域的同一类别的表示比DCN的高维特征要相似得多（这可以通过比较“Source only”和“RPC(source p)”模型的目标准确率看出），使得两个域中的特征分布相似。因此，训练在源域上的分类器可以用于目标域数据。这也意味着RPC对视觉失真更加宽容。在图3a和3b中，我们可以看到RPC(joint p)模型学习到的编码在两个域中的同一类别的图像非常相似。

源与联合p的比较。比较表1中的准确率，我们可以看到RPC(joint p)有更好的性能，表明使用目标域上的伪标签的交叉熵损失在公式(11)中是有帮助的。当域偏移严重时（例如 S ! M），此模型比RPC(source p)更有益。这从图3c中编码的视觉表示中也很明显，我们可以看到使用RPC(source p)在两个域中的编码差异比RPC(joint p)要大。

6.2 少样本学习

数据集。我们首先在三个基准数据集上评估所提出的模型在少样本学习上的性能：Omniglot [9]、miniImageNet [2] 和 CUB [74]。Omniglot由来自50个字母表的1623个字符组成。每个字符（类别）包含20个手写图像。miniImageNet是ImageNet [75]的一个子集，包含来自100个类别的60,000个图像。CUB数据集包含200个类别，每个类别对应一种不同的鸟类，总共有11,788个图像。

设置。我们遵循 [44] 中的协议对前两个基准进行评估。对于Omniglot，通过将现有字符旋转90°、180°和270°来增强数据集。选择1200个原始类别加上旋转作为训练集，其余423个类别加上旋转作为测试集。对于miniImageNet，数据集被划分为64个训练类别、16个验证类别和20个测试类别。对于CUB数据集，我们遵循 [76] 使用100个类别进行训练，50个用于验证，50个用于测试。模型仅在训练集上进行训练，验证集用于开发。

我们在miniImageNet上评估5路准确率，以及Omniglot上的5路和20路准确率。在每个测试情节中，对于a路b射击学习，将从测试集中随机选择a个类别，然后从这些类别中抽取k个样本作为支持样本，再从其余图像中抽取15个样本构建测试集。我们在Omniglot和miniImageNet上分别运行了1000个和600个测试情节，以计算平均分类准确率。

训练细节。我们的模型在Omniglot、miniImageNet和CUB上分别训练了80、10和100个周期。步骤(A)的学习率设置为1e-6，Omniglot的步骤(B)学习率为1e-4。miniImageNet和CUB的学习率分别设置为1e-4和5e-4。在miniImageNet和CUB上进行少样本分类时，我们使用了Resnet-18特征提取器，而不是其他实验中使用的Resnet34，特征提取器E(·)的权重是根据[77]在适当的Imagenet子集上预训练的，而Omniglot和CUB的权重是随机初始化的。

结果。不同基准的少样本学习结果报告在表2、3和4中。再次，我们的RPC方法，简单地在基础类别上训练分类器，并使用学习到的编码器以及最近邻分类器，在基准测试中具有竞争力，与最新的最先进的方法相比并没有太大差距。我们将其解释为由我们的RPC训练分类器生成的编码所固有的低类内和高类间差异，允许在少样本推理中使用最近邻。DCNs的高维特征空间不具备这些良好的属性，并且需要特定的训练策略才能在此问题上表现良好。

6.3 广义零样本学习

数据集。我们在三个常用的基准数据集上评估了我们模型的GZSL性能：CaltechUCSD Birds-200-2011 (CUB) [74]、Animals with Attributes 2 (AWA2) [118] 和 Attribute Pascal and Yahoo (aPY) [119]。CUB是一个细粒度数据集，包含来自200种不同鸟类的11,788个图像。每个类别都注释了312维的语义属性。AWA2有来自50种不同动物的37,222个图像和85维的类别级语义属性。aPY包含20个Pascal类别和12个Yahoo类别。它总共有15,339个图像，并提供了64维的语义属性。我们没有选择另一个流行的GZSL基准数据集SUN [120]，原因是SUN中的场景图像不是可以分解为我们的部分原型层次结构的典型对象。

设置。已经证明 [118]，传统的ZSL设置过于乐观，因为它利用了测试时没有见过类别的缺席，并且有共识认为方法应该专注于广义的ZSL设置。因此，我们使用GZSL进行评估。按照 [118] 中的协议，我们在未见类别(U)、见过类别(S)以及S和U的调和平均数(H)上评估平均类别Top-1准确率。

已经观察到，在GZSL中，使用见过类别图像训练的分类器通常预测输出类别概率，对于见过的类别比未见过的类别更高 [121]，导致性能不佳。为了平衡见过和未见类别之间的性能，通过校准见过类别的分数，提出了Calibrated Stacking(CS) [121]。因此，除了我们的原始模型，我们还评估了使用CS的模型（在表5中表示为RPC+CS）。CS的参数是使用交叉验证选择的。

训练细节。我们的模型在CUB、AWA2和aPY上分别训练了120、100和110个周期。步骤(A)的学习率设置为1e-6，步骤(B)的学习率设置为1e-5。

比较方法。我们在表5中列出了与RPC比较的GZSL方法。由于一些方法使用不同的假设，因此比较并不完全相同：(1) 上部分的方法，学习视觉和语义表示之间的兼容性函数：SJE [101]、ALE [104]、SAE [102]、SSE [103]、SYNC [105]、PSRZSL [106]、SP-AEN [107]、CE-GZSL [108] 和 GEM-ZSL [109]。我们的方法也使用此策略。(2) 生成模型基础的方法（Generative-ZSL）使用生成模型（如GAN和VAE）来合成未见示例或特征，因此在训练期间需要未见类别的语义：GDAN [110]、CADA-VAE [111]、3ME [122]、SE-GZSL [55]、LisGAN [112]、f-CLSWGAN [113] 和 DAGZSL [114]。(3) 归纳式零样本学习方法（Trans-ZSL）在归纳设置中工作，允许模型在训练期间访问来自未见类别的未标记图像：DIPL [115]、TEDE [116] 和 STHS [117]。

结果。GZSL的结果在表5中。在没有校准堆叠的情况下，比较调和平均（H）准确率，我们发现RPC超过了所有其他基于兼容性函数的方法（表的第一部分）。在分数校准后，我们的模型（RPC+CS）分别获得了66.0%、67.3% 和 51.2% 的调和平均准确率，这在与其他方法相比时表现更好，除了TEDE在AWA2上。

值得注意的是，生成式ZSL和Trans-ZSL方法总是比兼容性函数方法获得更高的准确率，除了我们的模型。这是因为生成式和Trans-ZSL方法在训练期间可以访问关于未见类别的额外信息。然而，这种假设在现实世界的ZSL场景中过于乐观，因为在训练时不太可能对所有未见类别有完整的了解。相比之下，我们的模型可以应用于在测试时才出现新类别的场景。尽管如此，仅利用见过类别的知识，我们的RPC模型就获得了与生成式和Trans-ZSL方法相媲美甚至更好的性能。

我们模型的成功主要归功于所提出的RPC编码，它们缩小了图像与其语义属性之间的差距。例如，在图4中，我们可视化了我们的模型在CUB数据集中“Painted Bunting”类别发现的部分注意力，以及该类别的多个语义属性。我们的模型学习了对应于数据集中大多数语义属性注释的部分区域，例如“头部”、“翅膀”、“身体”和“脚”（例如，冠部颜色：蓝色，翅膀颜色：绿色等）。使用RPC编码，我们的视觉属性反映了语义向量的表示，从而缩小了语义属性和DCNs学习到的高维视觉特征之间的差距。

6.4 对抗性攻击的鲁棒性

如第2节所述，Szegedy等人[4]首次发现了深度神经网络对此类攻击的敏感性。在这一部分，我们展示了我们的RPC编码比相同任务训练的深度卷积分类器更不容易受到对抗性攻击。我们通过选择一个简单的FGSM攻击[22]（如下所述）来展示这一点，比较了在分类任务上训练的模型。在比较的模型中没有使用特定技术来特别训练它们以对抗性鲁棒。注意，自从[4]以来已经开发了一系列不同的攻击和防御技术，但简单的FGSM攻击足以证明我们的RPC模型学习到的编码对小的对抗性图像扰动不太敏感。

数据集。我们在两个细粒度分类数据集上进行了评估，CUB [74] 和 Stanford Car [123]。Car数据集包含来自196种不同车型的16,185个图像。报告了官方测试分割上的准确率。

对抗性攻击。我们使用快速梯度符号攻击（FGSA）[22]作为攻击者。FGSA是一个白盒攻击者，对模型有完全的了解和访问权限。尽管它简单，但它是一个影响广泛的分类模型的强大对抗性攻击。对于图像x，FGSA通过计算相对于训练模型所使用的成本J(u, x, y)关于输入x的梯度来生成对抗性扰动h：

其中u是模型的参数，α控制扰动的强度。被扰动的图像在视觉上与x相似，但不同的模型会将误分类，即使它们对x的预测是正确的（见图5c）。

在我们的实验中，J(·)对所有模型都实现了交叉熵损失。我们在不同的失真级别α下评估了测试准确率。

比较的模型。我们将RPC与两个基线模型的鲁棒性进行了比较：

BS-1是一个适应的ResNet-34模型，它有一个两层MLP作为分类器。与我们的模型相比，它没有多注意力模块G和部分类型可能性编码器。BS-1是使用标准交叉熵损失训练的。
BS-2具有与我们模型相同的MACNN架构，但缺少部分类型可能性编码器。不同部分的部分特征zm被连接并输入到分类器（一个两层MLP）。BS-2是使用损失函数 'part (公式(6)) 和交叉熵损失，使用与我们模型相同的交替优化策略训练的。

训练细节。BS-1使用学习率5e-5在CUB上训练了100个周期，在Car上训练了110个周期。在CUB的[60, 80]周期和Car的[70, 90]周期，学习率降低了0.5。BS-2在CUB上使用学习率2e-4，在Car上使用4e-4。它训练了60个周期，并且每20步将学习率降低0.5。我们的RPC模型从训练好的BS-2权重初始化其部分特征提取器的参数。然后，它只训练了5个更多的周期，学习率为2e-5。

结果。我们在公式(16)中的α从0到0.2进行了扫描，并评估了三种模型的测试准确率。结果在图5a和5b中绘制。我们看到，与基线相比，我们的RPC模型在对抗性攻击强度增加时准确率下降的速率要低得多。具体来说，当α = 0.2时，在CUB上，BS-1的准确率不到10%，BS-2不到20%，而我们的模型仍然可以达到40%。在Car数据集上，BS-2只获得了5%，BS-1甚至下降到了1%，但我们的RPC模型可以保持令人印象深刻的30%准确率。在图5c中，我们展示了一个由我们的模型识别但被两个基线模型用相同扰动强度误分类的示例。请注意，即使BS-2具有与RPC相同的多注意力机制，它仍然对对抗性攻击非常脆弱。因为RPC学习将每个图像部分表示为少量原型的词汇表，与其它高维视觉特征相比，它对输入图像中的扰动不太敏感。

6.5 训练目标的消融研究

对于训练我们的RPC编码器，我们使用了两个惩罚Lcom和Ldiv，分别对应于第3节中提到的部分位置的紧凑性和多样性先验。在这里，我们展示了每个这些损失对模型性能和编码本身的影响。

另外，特征zm(x)被编码为高斯混合模型的部分类型可能性分数，构成RPC代码p(x)（见公式(7)）。自编码器损失来自公式(9)，用于训练此映射中的参数。我们还展示了移除Lae并使用部分特征zm(x)（而不是pm(x)）进行分类器的影响。

在表6中，我们可以看到RPC的三个主要组件Lae、Lcom和Ldiv在低样本泛化任务中的性能中发挥了积极作用。在图6中，我们看到部分注意力上的两个损失具有预期效果，当我们移除Lcom时，部分注意力图更加分散，而不是集中在部分位置上。当我们移除Ldiv时，模型检测到的部分位置可能会重叠，因为每个部分只寻找最显著的特征，而不考虑其他部分的位置。

鲁棒性。顺便说一句，我们也从6.4节中观察到，我们的具有自动编码器、多样性和紧凑性的方案在提高鲁棒性方面也起着重要作用，特别是与没有自动编码器的基线方案相比。自动编码器与紧凑性和多样性一起确保了RPC编码器允许概念的离散化，因此，为了使攻击成功，对手必须显著修改输入图像以修改一个概念。

Softmax温度的敏感性。在表7中，我们报告了使用不同softmax温度的RPC编码的分类器在CUB和miniImagenet上的5路5射击中准确率。较小的温度使softmax函数输出的分布更加尖锐。回想一下，在验证后，我们将所有实验的温度设置为100。我们发现，当温度为10时，准确率相当稳定。然而，在温度为1及以下的低温下，模型被迫从训练开始就主要识别对象部分为一个部分类型，我们发现最终的分类性能会下降。

7 人类评估

在这一部分，我们展示了使用亚马逊Mechanical Turk (MTurk)进行的众包实验的结果，表明我们的RPC编码是可解释的，并且与人类感知一致。我们设计了三个问题来衡量这种一致性的不同方面：1) 部分的可区分性：这些部分是否足够区分，以便人类能够识别类别？2) 原型识别：人类能否识别某些图像部分的原型？3) 部分类型可能性预测：人类是否同意模型输出的部分类型可能性分数？

为了本节的目的，我们选择了CUB数据集的一个子集，包含10个类别。这些类别列在表8中。每个类别大约有60张图像。为了模拟FSL和ZSL场景，即在训练期间没有新类别的样本，我们保留了两个作为未见类别，并在剩余的8个上训练我们的模型。模型有3个部分，每个部分有5个原型。训练完成后，我们的模型从原始图像中裁剪出3个部分，针对所有类别围绕注意力图的峰值中心。在每个部分中，我们通过在RPC特征中进行最近邻搜索，为每个原型选择一个示例。

我们使用这些原型和示例在MTurk上创建任务。每个任务由5个不同的工作者回答。问题和结果详细说明如下：

部分的可区分性。这个问题为工作者提供了由我们的模型识别的3个部分，并要求他们选择这些部分所属的类别。图7展示了一个示例问题。工作者可以从四个选项中选择一个类别，或者“以上都不是”。这个问题的目的是确定人类是否认为这些部分足够区分，以区分不同的类别，并证明我们的模型学习到识别图像中的关键部分。对于这个问题，我们总共使用了来自所有10个类别的502个示例。我们使用5名工人的多数回答作为每张图像的最终答案，并认为如果最终答案与真实类别相同，则图像是“正确的”。我们获得的所有示例的准确率为94.2%，这表明人类很有可能仅使用我们的模型发现的部分来区分鸟类。请注意，我们的模型仅在8个见过的类别上训练，但它仍然为新类别产生了区分性的部分，表明学到的部分是可泛化的。

原型识别。这个问题为工作者提供了一张图像（我们称之为查询图像），以及每个部分的一组原型示例。工作者被要求选择他们认为属于给定图像中鸟类的每个部分的原型，如图8所示。这个问题的目的是确定人类是否能够学习使用我们的模型学到的原型来识别图像。良好的准确率将表明我们的模型学到的紧凑词汇表/概念对人类是有意义的，并且有助于他们识别某个特定实例是否来自给定的已学习概念。我们使用了来自见过类别的406个示例来进行这个问题，并且在每个部分中，我们也使用5个回答的多数投票来计算准确率。对于每个原型，我们找到了最近的5个示例集作为代表性集合，这5个图像所属的类别集合称为该原型对应的类别集合。每个问题随机选择4个原型，并且展示了代表该原型的1个示例。如果查询图像的类别属于所选原型的类别集合，则响应被视为“正确的”。三个部分的准确率分别为92.96%，95.73%和96.98%，验证了人类可以学习使用我们的模型学到的原型来识别图像。请注意，随机猜测的预期准确率是25%。另外，这个问题的目的是评估形成编码部分实例的词汇表的我们的原型/概念的质量。它不评估RPC模型预测图像是否对应于某个特定概念与人类的预测之间的一致性。这将在下一个问题中进行评估。

部分类型可能性预测。在这个问题中，工作者被提供了一个部分示例和相同部分的所有原型列表。工作者被要求在1到5的量表上评估给定示例属于特定原型的可能性，1表示最不可能，5表示最可能，如图9所示。我们为这个问题使用了每个部分的所有类别的502张图像。为了获得每个类别的概率分数，我们对属于某个类别的所有图像的工作者提供的分数进行了平均。为了进行比较，我们也平均了我们模型对每个类别的RPC编码。工作者的类别概率分数、我们的模型以及它们的绝对差异，在图10a、10b和10c中分别可视化了三个部分。为了更好地可视化，概率分数在线性上被缩放到[0,1]范围内。结果证实，人类注释者在很大程度上同意我们的模型为图像中属于给定部分类型（由原型表示）的部分实例分配的可能性。这对于在训练期间未见过的类别0和3的分数也是如此。因此，模型对视觉相似性的感知与人类的感知一致，并且这种感知泛化到未见过的图像上。

8 合成属性生成

大规模学习面临两个基本挑战。首先，获取训练实例的真实注释是昂贵的。其次，随着对象类别数量的增加，许多（稀有）对象类别的实例很少。ZSL提出利用不同类别的语义描述或属性来克服这些挑战。

在实践中，ZSL方法的进步基本上受到缺乏“良好”零样本数据集的限制。像CUB数据集中那样在视觉上良好对齐的语义属性可以通过众包获得，但这样做通常非常昂贵。流行的但效果较差的数据集利用语言语料库为不同的对象类别派生编码，例如词嵌入。尽管这些词嵌入在语义上有意义，但在视觉上是不对齐的，可能不代表类别的有意义视觉描述。

由于我们的框架输出的图像编码对人类是可解释的，我们提议利用它们作为人类注释的代理，以提供合成的语义属性。当人类注释的属性不可用时，可以使用这些属性评估零样本学习方法。

要生成合成的语义属性，我们在数据集的所有“见过”类别上训练我们的RPC模型。在这种情况下，对于我们的RPC模型，我们使用M = 3个部分和每个部分K = 64个原型。一旦训练完成，我们就生成来自见过和未见类别的图像的RPC编码，并使用每个类别的平均RPC编码作为其语义向量。注意，这类似于为CUB数据集生成语义类属性的方式，唯一的区别是CUB的属性注释是从人类收集的。注意，我们增加了与之前实验相比使用的原型数量，以便有一个与CUB中语义向量大小相似的语义向量（我们的语义向量大小为64 * 3 = 192，与CUB原始的312维语义向量相比）。

使用上述方法，我们为CUB数据集 [74] 生成了语义向量，该数据集已经有人类注释的语义向量，以及Cars数据集 [123]，后者不是ZSL数据集，也没有与类标签相关的任何语义向量。因此，我们为Cars数据集提出了一种新的GZSL分割。类别被分割为131个见过的和65个未见的。对于每个见过的类别，我们随机抽取其图像的3/4作为训练数据，并使用其余的进行测试（测试-见过的）。所有未见类别的图像都属于测试-未见的。所提出的分割有8100个训练图像，2637个测试-见过的图像和5448个测试-未见的图像。这个分割，连同合成生成的语义向量，将公开提供。

我们报告了4种零样本学习方法的评估结果（表中引用），我们使用作者公开提供的代码实现进行了评估。评估结果报告在表9中。标题为CUB-syn和Cars-syn的列分别是具有合成生成的语义向量的相应数据集。对于这次评估，我们使用了特定GZSL方法在CUB数据集上评估时的原始超参数。注意，我们对CUB-syn和Cars-syn都使用了相同的超参数。

首先，比较表9中CUB和CUB-Syn的调和平均准确率(H)，我们发现所有方法在CUB原始语义属性上的表现与它们在CUB上的表现相似，其中CADA-VAE表现最佳。所有方法的绝对准确率都有所提高，可能是因为我们的属性比通过嘈杂的众包过程收集的语义属性更好地反映了视觉信息。这种提高不包括GDAN，它的性能下降了，可能是因为它对特定语义向量使用的超参数敏感。在Cars-syn GZSL数据集上，使用我们合成生成的类语义向量，我们发现CADA-VAE和fCLSWGAN仍然是两个表现最好的方法，但是RN和GDAN表现不佳，可能是因为它们对使用的特定超参数敏感。

9 结论

我们提出了一种受人类认知启发的图像识别方法，称为“作为部分组合的识别”。我们的方法首先将图像分解为显著的部分，然后学习将每个部分实例表示为少数几个概念的混合。我们发现这种方法在零样本学习、少样本学习和无监督领域自适应等低样本泛化任务中为分类器带来了巨大的好处。我们还发现使用这些编码可以使分类器对对抗性攻击更加鲁棒，这些攻击会不可见地改变输入图像以引起分类器错误。通过众包，我们还证明了编码与人类感知一致，并且人类可以使用我们的模型学到的部分来识别图像，并识别RPC学到的词汇表中的部分实例。鉴于我们的编码是人类可解释的，我们提出了它们的一个应用，即在收集人类注释的类语义之前，为新数据集生成合成属性以评估零样本学习方法。我们在斯坦福汽车数据集上展示了这个概念的证明。

声明

本文内容为论文学习收获分享，受限于知识能力，本文队员问的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果