TPAMI 2024 | 万用一法:类别混淆损失在多领域自适应中的应用

文摘   2024-11-01 19:02   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

One Fits Many: Class Confusion Loss for Versatile Domain Adaptation

题目:万用一法:类别混淆损失在多领域自适应中的应用

作者:Ying Jin; Zhangjie Cao; Ximei Wang; Jianmin Wang; Mingsheng Long
源码:https://github.com/thuml/Transfer-Learning-Library


摘要

在开放世界中,不同的标签集和领域配置产生了多种领域适应(DA)设置,包括闭集、部分集、开集和通用DA,以及多源和多目标DA。值得注意的是,现有的DA方法通常只针对特定设置设计,并且可能在未针对的设置中表现不佳。本文将DA的常见范式转变为多领域适应(VDA),其中一种方法可以在没有任何修改的情况下处理几种不同的DA设置。为了实现这一目标,我们首先深入研究了一种通用的归纳偏差:类混淆,然后发现减少这种类间混淆可以带来显著的迁移收益。基于这一见解,我们提出了一种通用的类混淆损失(CC-Loss),以学习多种设置。我们仅基于分类器预测估计类混淆,并最小化类混淆以实现准确的目标预测。此外,我们通过在不同数据增强下强制混淆矩阵的一致性来改进损失,以鼓励其对分布扰动的不变性。在2D视觉和3D视觉基准测试中的实验表明,CC-Loss在不同的主流DA设置中表现出竞争力。

关键字

  • 迁移学习

  • 领域适应

  • 多领域适应

  • 类混淆损失

I. 引言

在深度神经网络(DNNs)在真实应用中的广泛使用受到标签数据稀缺的阻碍。这一挑战催生了领域适应(DA)[49]、[59],这是一种重要的技术,旨在将知识从一个有标签的源域迁移到在分布偏移存在的情况下的无标签目标域。一系列基于DNN的方法[21]、[42]、[43]、[45]、[72]、[73]、[74]、[89]已被提出用于无监督领域适应(UDA),这是一种闭集设置,具有一个源域和一个目标域,共享相同的标签集。最近,提出了几种具有更实用标签集配置的设置,例如部分集DA(PDA),其中源标签集包含目标标签集[7]、[86],开集DA(OSDA)目标标签集包含源标签集[6]、[63],以及通用DA(UniDA)取消了源和目标域上所有标签集的约束[20]、[84]。同时,还考虑了不同的领域配置,例如具有多个源域的多源DA(MSDA)[80]、[90],以及具有多个目标域的多目标DA(MTDA)[54]。图1强调了这些领域适应设置之间的差异,每种设置都通过各种方法[7]、[40]、[54]、[62]、[80]、[86]进行了专门研究。

尽管在每个领域适应设置中不同方法都取得了成功,但在实际应用中,准确确定设置是不切实际的,因为在数据获取过程中很难确认标签集和领域配置。例如,没有先验知识,无法在无标签的目标域中获得标签集配置,并且对于在线应用,领域配置可能随时改变。因此,我们可能会陷入选择适合的DA设置的适当方法的困境。面对这种困境,一个自然的问题出现了:一个通用的方法能否解决所有领域适应设置?这样的方法自然消除了上述困难,并通常解决了实践中的领域适应。在本文中,我们定义了多领域适应(VDA)为一系列通用方法,能够无需任何修改就能应对各种设置。

实现VDA的最大挑战是该方法需要独立于任何特定的标签集或领域配置。因此,它应该基于所有设置共享的共同假设进行设计。不幸的是,现有的DA方法通常只针对特定设置设计,依赖于相应的标签集和领域配置。因此,它们在未针对的设置中容易表现不佳。例如,广泛使用的领域对齐归纳偏差[21]要求源和目标域共享相同的标签集。此外,当应用于具有不同标签集的设置时,应该引入一些特别设计的加权机制。PADA[8],一种经典的PDA方法,在挑选异常类别方面表现出色,但在OSDA中未能检测到开集样本,而DADA[54],一种为MTDA量身定制的杰出方法,考虑了对任意目标域的泛化,但在只有一个目标域但有多个源域的MSDA中优势较弱。因此,现有的DA方法不足以应对具有复杂变化的实际设置。

本文采用新的归纳偏差——类混淆,以实现多领域适应。类混淆指的是分类器在目标样本的正确和模糊类别之间的预测混淆的倾向。我们提出了一种新的损失——类混淆损失(CC-Loss),它估计并最小化了目标域中分类器的类混淆,并在增强下强制混淆矩阵的一致性。CC-Loss仅依赖于目标预测,无需额外要求,通常适用于上述所有DA设置。我们在2D和3D视觉基准测试中进行了广泛的实验,并证明了我们的方法在不同的DA设置中优于以前的方法,证明了我们方法的多功能性和有效性。

这篇关于CC-Loss的期刊论文从多个角度扩展了我们的会议论文[30],称为MCC:设置方面,我们的会议版本只能解决UDA、PDA、MSDA和MTDA,但未能扩展到OSDA和UniDA设置[30],因为它缺乏处理目标域中的开放类别的能力。在期刊版本中,我们通过在分类器中引入一个新的条目来对开放类别进行分类,并将这个额外的类别纳入类混淆的计算中,将DA设置扩展到OSDA和UniDA。期刊版本涵盖了主流的DA设置,这展示了我们方法的广泛应用,并符合我们对VDA的意图。方法方面,期刊版本通过在不同增强下进行一致性正则化来改进MCC方法,以稳定混淆矩阵的估计。具体来说,我们最小化了混淆矩阵之间的L2距离。我们将它们集成到类混淆损失(CC-Loss)中。实验结果表明,一致性正则化可以更准确地估计混淆矩阵。与先前工作的进一步比较表明,提出的类混淆一致性在领域适应任务中优于传统的一致性正则化。实验方面,我们的会议版本仅在2D计算机视觉基准测试中对MCC进行了实证评估,并在UDA、PDA、MSDA、MTDA设置中进行了评估。在期刊版本中,我们首次在包括OSDA和UniDA在内的主流DA设置中评估了我们的方法。我们还将实验扩展到了3D识别。结果表明,CC-Loss在几个基准测试和所有这些主流DA设置中都取得了竞争性能。

III. 多领域适应

在本文中,我们研究了多领域适应(VDA),其中一种方法可以无需任何修改就能应对各种设置。我们通过包括四种不同标签集配置的设置:无监督领域适应(UDA)[21]、部分领域适应(PDA)[7]、开集领域适应(OSDA)[6]和通用领域适应(UniDA)[84],以及两种不同领域配置的设置:多源领域适应(MSDA)[53]和多目标领域适应(MTDA)[54]来证明一种方法的多功能性。在不同的DA设置中,我们有一个有标签的源域(或多个源域)与源标签集相关联,以及一个无标签的目标域(或多个目标域)与目标标签集相关联。每种设置的标签集或领域配置如表I所示。针对特定设置的现有方法无法直接处理这些设置。相反,我们提出了一种通用损失,类混淆损失(CC-Loss),用于VDA。

我们的关键见解是,目标域中的类混淆反映了分类器混淆正确和模糊类别之间的预测的倾向。如图2(b)所示,我们在VisDA2017数据集上训练了源域中的源分类器,并使用它来预测目标样本。我们发现,分类器在目标域中将汽车误分类为卡车的概率高达25%。这些观察为我们提供了一个新视角,即使用类混淆来实现多领域适应:一旦最小化了类混淆,无论我们采取哪种领域适应设置,分类器都将更正确地预测所有样本。

然而,挑战在于无法计算真实的类混淆,因为在领域适应中无法访问目标域中的标签。我们观察到,不同类别之间的混淆可以自然地反映在分类器预测的格拉姆矩阵中,即分类器预测及其转置之间的内积。有了这一见解,我们从经过良好校准的分类器预测中计算内积值,并用示例权重对其进行细化。
具体来说,这些成对类混淆值展示了样本被分类为两个类别的同时性的概率。对于一个训练有素的分类器来说,这些值应该很小,因为分类器对预测有信心。相反,一个弱分类器在模糊类别之间容易犹豫不决,导致高混淆值。与直接提升分类器信心的最小熵(MinEnt)不同,我们的成对混淆缓解了胜者通吃效应。同时,我们的混淆仅依赖于目标预测,无论标签和领域配置如何,这使得CC-Loss成为一种通用方法,通常适用于不同的领域适应设置。
为了更准确地估计类混淆,我们设计了一种一致性正则化,以最小化不同扰动下输入的类混淆估计的发散。一致性损失强制类混淆估计在扰动下保持稳定。有了最终的类混淆损失,我们实现了多领域适应的学习算法,可以应对各种领域适应设置。

IV. CC-LOSS:类混淆损失

我们的目标是设计一个适当的标准来衡量目标域中的成对类混淆。在本节中,我们只讨论目标域中的数据,因此我们省略了域下标以清晰表达,例如,表示。将目标域中分类器的输出(经过softmax函数后)表示为,其中是批量大小,我们为了清晰起见将源类别数表示为)。是特征提取器,是分类器。我们用表示矩阵的第行、第列和第个条目。CC-Loss的框架在图3中展示。

A. 类混淆块

概率校准:根据[25],DNNs倾向于做出过度自信的预测,这阻碍了它们直接推理类混淆。因此,我们采用了温度重缩放[25]、[27],这是一种简单而有效的技术,以减轻过度自信预测的负面影响。使用温度缩放,重新校准的概率导出为:
其中是分类器层的logit输出(softmax之前),是概率校准的温度超参数。显然,当时,(1)简化为原始的softmax函数。
由于揭示了第个实例与第个类别之间的关系,我们定义两个类别之间的类相关性为:
这是一个粗略的类混淆估计。注意表示每个批量中的个示例来自第个类别的概率。类相关性度量了分类器同时将个示例分类为第个和第个类别的可能性。值得注意的是,这种成对类相关性对一些错误预测的影响具有免疫力,因为类混淆是在整个样本上平均的。
不确定性重新加权:我们注意到,示例对于量化类混淆的重要性并不相同。当预测接近均匀分布时,表明分类器对此示例一无所知。相反,当预测显示几个峰值时,它表明分类器在几个模糊类别之间犹豫不决(例如,汽车和卡车)。显然,这些使分类器在几个类别之间模糊不清的示例更适合体现类混淆。如在(2)中定义的,这些示例可以自然地用几个峰值上的更高概率来突出显示。为了进一步强调这些样本,我们引入了一种基于不确定性的重新加权机制,以便我们可以更准确地量化类混淆。这里,那些在类别预测中具有更高确定性的示例更可靠,应该对成对类混淆贡献更多。我们使用信息论中的熵函数作为分布不确定性的度量。预测第个示例的分类器的熵(不确定性)定义为:
虽然熵是不确定性的度量,但我们需要的是将更大概率放在类别预测确定性更高的示例上的概率分布。一个事实上的转换是softmax函数:
其中是量化第个示例对建模类混淆重要性的概率,是相应的对角矩阵。注意我们取熵的相反值来反映确定性。拉普拉斯平滑[67],即在softmax函数的每个加数中加上常数1,用于形成一个更重尾的权重分布,这适合于突出更确定的示例,同时也避免过度惩罚其他示例。为了更好的缩放,每个批量大小为的示例上的概率重新缩放,使得每个示例的平均权重为1。
类混淆计算:有了上述重新加权机制,初步定义的类混淆为:
基于批量的定义的类混淆在(5)中适用于小批量SGD优化。然而,当类别数量很大时,每个批量中存在严重的类别不平衡。为了解决这个问题,我们采用了随机游走[75]中使用的类别归一化技术:
其中类别之间的混淆值,通过混淆矩阵行的混淆值之和进行归一化。借鉴随机游走的思想,(6)中的归一化类混淆有一个清晰的解释:如果两个类别之间有很高的类混淆,那么就有可能从一个类别走到另一个类别(导致错误的分类)。

B. 类混淆损失

类混淆最小化:根据上述推导,我们可以正式定义损失函数以实现多领域适应(VDA)。回想一下,很好地测量了每对类别之间的混淆。我们只需要最小化跨类别的混淆,即。也就是说,理想的情况是,没有示例被模糊地分类到两个类别中。在这种情况下,混淆之间的标签定义为:
由于(6)中的类混淆已经归一化,最小化(7)中的跨类别混淆意味着最大化类内混淆。
类混淆一致性:通过上述分析,我们已经获得了一个更通用的归纳偏差的类混淆,适用于多领域适应。但我们可以在类混淆上更深入:在研究(6)中的类混淆矩阵后,我们发现它在不同的数据增强下是不稳定的,尤其是新提出的方法,如cutout[16]。为此,我们提出使类混淆矩阵对输入的微小扰动具有鲁棒性。
与先前的工作不同,先前的工作约束概率预测(即)相对于输入扰动的一致性[47]、[88],本文提出了对类混淆矩阵(即)的一致性正则化,这是直接从概率预测(即)派生出来的。
换句话说,我们强制原始数据生成的类混淆矩阵与增强后的矩阵一致。具体来说,表示增强数据的。然后,在每个批量中,目标图像的分类器输出与增强。类似地,我们也使用(1)中的概率校准对进行处理。为了减轻不可靠预测的影响,我们在(4)中采用了不确定性重新加权策略,以突出显示具有高置信度的样本。增强数据后的类混淆矩阵的每个元素是
其中的计算如(4)所示。类似地,我们对应用类别归一化,得到。有了增强数据的混淆矩阵,我们得出了类混淆一致性的标准:
我们强调这种类混淆一致性与FixMatch[69]中的一致性不同。这里,我们最小化了类混淆矩阵之间的距离,类混淆是通过一批数据估计的。在FixMatch中,它最小化了每个单点预测之间的距离。这是第一次在类混淆水平上执行一致性正则化。此外,一致性正则化不依赖于任何特定的领域适应模块,这满足了多领域适应的要求。
类混淆损失:通过整合类混淆最小化和一致性正则化,我们实现了类混淆损失(CC-Loss)为:
我们想强调的是,本文提出的类混淆的归纳偏差比以往工作中的领域对齐更为通用[21]、[42]、[43]、[45]、[64]。如第II节所讨论的,许多先前的方法明确地对齐了源和目标域之间的特征,冒着恶化特征可区分性和阻碍可转移性的风险[12]。此外,类混淆的归纳偏差是通用的,适用于各种领域适应设置,而领域对齐的归纳偏差在域无法自然对齐时会受到影响(例如,部分集DA设置[7]、[8]、[86])。

V. 多领域学习算法

本工作的主要动机是设计一种通用方法来应对所有主流的DA设置。这里,我们展示了我们的CC-Loss如何使各种领域适应设置成为可能。注意,我们的期刊版本在标签集配置方面比我们的会议版本[30]具有更高的通用性,因为它允许目标域中出现开放类别。

A. 不同的标签集配置

表示为的源示例的类别预测,以及表示为的一批个目标示例的重新校准类别预测。本文提出的通用方法(也称为CC-Loss以清晰表达)被制定为:
其中是交叉熵损失,是我们提出的CC-Loss,是CC-Loss的超参数。通过这种联合方法,深度DA模型的特征提取器和分类器可以通过反向传播进行端到端训练。注意,(11)是所有具有不同标签集配置的DA设置的通用方法,因为源异常类别之间的混淆可以忽略不计,与目标类别之间的混淆相比。
我们的会议版本无法处理目标开放类别,但在本期刊版本中,对于包括OSDA和UniDA在内的具有目标开放类别的DA设置,我们在分类器中添加了一个额外的类别“未知”,以适应目标域中的数据。然后,源样本和目标样本的预测变为维。为了学习“未知”类别的分类器参数,我们选择通过将前类的置信度最大值小于阈值的数据作为可能处于开放类别的样本。我们还将“未知”类别纳入类混淆中,使用维预测来计算类混淆,旨在避免与共享类别的误分类。然后,具有开放类别的领域适应设置中的我们的通用方法的损失可以被制定为:
因此,通过我们的新损失设计,CC-Loss也是DA设置中具有开放类别的通用方法。

B. 不同的领域配置

对于具有不同领域配置的DA设置,我们不需要考虑开放类别,损失类似于(11)。但是,交叉熵损失定义在所有源域的并集上,CC-Loss定义在所有目标域上:
对于MSDA,CC-Loss可以利用所有源域中的有用知识,通过简单地合并所有源域来最小化目标类混淆。对于MTDA,CC-Loss可以联合最小化所有目标域上的类混淆,这不受目标域之间的域偏移的影响,也不需要单独处理每个目标域。
总之,我们的CC-Loss可以无缝地插入到标准深度网络中,以解决具有不同领域配置的领域适应设置。

VI. 2D视觉实验

我们首先在包括Office-31、Office-Home、VisDA2017和DomainNet在内的四个2D视觉领域适应数据集上评估CC-Loss。数据集的统计信息如表IV所示。我们在六种领域适应设置(UDA、PDA、OSDA、UniDA、MSDA和MTDA)中评估CC-Loss作为一种通用方法。我们所有方法都在PyTorch框架[51]中实现。我们使用在ImageNet[15]上预训练的ResNet[26]作为主干网络,其中我们在Office-31和Office-Home数据集上使用ResNet-50,在VisDA-2017和DomainNet数据集上使用ResNet-101。我们还在ViT-B/16[17]上验证了性能。对于分类器,我们采用一个全连接层,对于没有开放类别的DA设置和有开放类别的DA设置,分别有个输出,并从头开始训练分类器。我们使用深度嵌入式验证(DEV)[85]来选择超参数,并提供参数敏感性分析。在所有实验中,平衡交叉熵损失和CC-Loss,即效果良好。我们运行每个实验5次,并报告平均值。

A. 无监督领域适应(UDA)

我们在几个数据集上评估CC-Loss在标准DA设置UDA中的性能:Office-31、Office-Home和VisDA-2017。如表II、III和V所示,CC-Loss一贯地取得了竞争性能。此外,CC-Loss一贯优于MCC,这证明了类混淆上的一致性的有效性。我们还将CC-Loss与最新的基于视觉变换器[17](ViT)作为主干的最新方法进行比较。CC-Loss超越了所有方法,包括那些专门为ViT结构设计的方法。

我们进一步分析了最小熵(MinEnt)[23]和我们方法之间的差异。MinEnt最小化了预测的熵,并间接减少了类混淆。我们在Two Moon[41]上进行实验,以更清晰地查看差异。我们从头开始训练一个浅层MLP,并绘制了MinEnt、MCC和CC-Loss的决策边界。如图4所示,CC-Loss在利用类混淆方面表现最佳。

B. 部分领域适应(PDA)

由于源异常类别,PDA是一个具有挑战性的设置,因为源和目标类别之间的错位。为了公平比较,我们遵循PADA[8]和AFN[81]的协议,其中Office-Home数据集的前25个类别(按字母顺序)被视为目标域。如表VI所示,即使不是为了PDA问题而特别设计的,CC-Loss也优于AFN[81],它具有一般的大型范数目标,以及ETN,一个专门为PDA设计的方法。此外,CC-Loss优于MCC(会议版本),这表明一致性正则化在PDA设置中也表现良好。

C. 开集领域适应(OSDA)

OSDA设置需要特殊技术来处理开放类别的分类。我们遵循ROS[5]的协议:按字母顺序,Office-Home数据集的前25个类别是共享类别,其余40个类别是开放类别。按照ROS,我们采用作为评估指标,其中分别是共享类别和开放类别的准确率。
我们在表VII中展示了Office-Home的结果。我们观察到MCC[30]的表现不如竞争性的OSDA方法ROS。这是因为,在我们的会议版本中,我们只使用了一个置信度阈值来检测目标开放类别中的数据,正如先前的工作[40]、[63]所示,这可能会将大量开放类别的数据误分类为共享类别。在我们的期刊版本中,我们在分类器中采用了一个额外的类别来处理“未知”类别。最小化开放类别上的类混淆可以防止模型将开放类别与共享类别混淆,这解释了为什么CC-Loss优于OSDA方法。只有在分类器中添加一个额外的条目,CC-Loss才能成功处理开放类别,这证明了CC-Loss即使对于具有开放类别的DA设置也具有多功能性。

D. 通用领域适应(UniDA)

由于源和目标域都可以包含异常类别,UniDA被认为是最通用的领域适应设置,包括所有标签集配置。我们在Office-Home数据集上评估了所有方法。我们遵循UniDA[84]的协议,其中按字母顺序,前10个类别是共享类别,接下来的5个类别是源异常类别,其余类别是目标异常类别。按照[20],我们报告了-Score,即共享类别和未知类别准确率的调和平均数。结果如表VIII所示,证明了CC-Loss在UniDA设置中的有效性。此外,传统的方法是如CMU[20]和UAN[84]开发了一个标准来划分目标数据为共享类别和开放类别,这需要一个手动调整的阈值来检测目标开放类别数据,而CC-Loss直接通过分类器中的额外类别对“未知”类别进行分类,并且在推理过程中不需要更多的超参数。

CC-Loss在UniDA上的表现略逊于DCC[35]。我们推测,将异常类别视为一个通用类别破坏了异常类别的内在结构,这是我们提出方法的一个限制。幸运的是,CC-Loss可以无缝地插入DCC[35]中,将这种方法的性能提升到一个更高的水平。

E. 多源领域适应(MSDA)

当我们将我们的方法应用于MSDA时,我们合并了多个源域,并在DomainNet上与专门为MSDA设计的现有算法进行了比较。按照先前的工作[53],我们选择一个域作为目标域,其余域作为多个源域,这在DomainNet上形成了六个任务。如表IX所示,基于最小化类混淆的归纳偏差,CC-Loss优于通常为MSDA设计的强方法。注意,这些特定方法的架构和损失设计非常复杂,可能难以在实际应用中使用,而CC-Loss只采用了一个简单的损失,并取得了如此显著的改进。

F. 多目标领域适应(MTDA)

我们按照DADA[54]的协议评估MTDA任务,该协议在DomainNet上提供了六个任务。我们采用的策略是直接合并多个目标域。如表X所示,许多竞争方法在这种具有挑战性的设置中并不有效。然而,CC-Loss以较大的优势(10.4%)优于竞争方法DADA[54]。CC-Loss在所有目标域的所有数据上最小化类混淆,这可以隐式地利用目标域之间的关系进行预测。注意,该数据集上的源仅准确度相当低,验证了我们的方法,凭借精心设计机制,对错误预测足够鲁棒。

VII. 3D视觉实验

上述实验验证了CC-Loss在2D视觉数据集中的有效性。我们注意到CC-Loss不仅限于2D视觉任务,因此我们进一步在3D视觉任务上进行实验。

数据集

领域适应在过去几年才开始被应用于3D视觉任务。PointDAN[57]提出了第一个3D视觉领域适应数据集:PointDA,它由三个域组成:ModelNet40[79](M)、ShapeNet[10](S)和ScanNet[14](S),并包含10个共享类别的样本以形成数据集。如图5所示,ModelNet40和ShapeNet包含完整形状,但ScanNet包含通过扫描真实物体而产生遮挡的对象,因此不同域之间存在较大的域间隙。这三个域创建了六个领域适应任务:M→S、M→S、S→M、S→S、S→M和S*→S。

实现细节

我们所有方法都在PyTorch框架中实现。我们使用PointNet[56]作为主干网络。我们使用Adam优化器,学习率为0.001,权重衰减为5e-4,批量大小为64。我们使用。我们还使用DEV来选择超参数。我们运行实验5次,并报告平均结果。

结果

我们在PointDA数据集上展示了结果。我们观察到CC-Loss优于所有比较的方法,特别是PointDAN,这是专门针对3D视觉设计的领域适应方法。结果表明,CC-Loss可以减轻包括遮挡、不同点密度等在内的3D视觉任务上的域间隙。特别是,在最具挑战性的任务,即具有最大域间隙的M→S和S→S上,CC-Loss显著优于其他方法,这表明CC-Loss可以减轻点云数据上的点分布的域偏移。
我们进一步可视化了不同方法在将模型从ModelNet转移到ScanNet时捕获的关键点,这受到了大域间隙的影响。如图6所示,我们的方法在捕获关键点方面优于PointDAN。定量和可视化结果都意味着CC-Loss的通用性适用于广泛的任务。

VIII. CC-Loss分析

在六种主流领域适应设置中,我们在2D和3D视觉任务上进行了广泛的实验,证明了我们方法的有效性和多功能性。在本节中,我们通过一系列实证分析更深入地研究我们的方法。

消融研究

有趣的是,我们研究了CC-Loss损失的每个部分的贡献:类相关性(CC)、概率校准(PC)、不确定性重新加权(UR)、类别归一化(CN)和一致性(CON)。表XII中的结果证明了每个部分都有其不可或缺的贡献。为了便于使用,我们将这些部分无缝集成到一个连贯的损失中,并减少了超参数的数量。

此外,我们分析了特别设计的不确定性重新加权(UR)机制的工作方式。图7显示了三个典型示例以及它们的权重和重新加权前后的混淆值。分类器对第一张图片的预测没有明显的峰值,而对第三张图片的预测在类别计算器和电话上有两个明显的峰值。第三张图片更适合体现类混淆。自然地,它的混淆值高于第一张,我们的重新加权机制进一步突出了合适的一个。另一方面,由于重新加权机制是使用熵定义的,我们认识到它会不适当地为具有高度自信预测的示例分配高权重,包括错误的预测。如图7中的第二张图片所示,其真实标签是台灯,但它被分类为自行车。在我们的方法中,这样一个示例的混淆值非常低,因此可以忽略较高权重的影响。因此,提出的不确定性重新加权机制是有效和可靠的。

数据增强

我们的方法包括强大的数据增强。为确保公平比较,我们对基线方法应用了相同的强数据增强。如表XIII所示,结果与表V一致。

类混淆一致性

先前的工作使用一致性正则化对预测进行操作,以强制预测在扰动下保持鲁棒性[69]。与先前的工作不同,我们的一致性正则化应用于混淆矩阵,以获得更准确的混淆估计。我们在MCC上执行一致性,并比较在预测上执行一致性(MCC + Ins-Consis)和在混淆矩阵上执行一致性(MCC + Mat-Consis)的性能。表XIV中的结果表明,混淆矩阵上的一致性优于预测上的一致性,证明了我们基于混淆的一致性正则化的有效性。

无源设置

有趣的是,我们探索了我们方法在无源领域适应(SFDA)中的性能,其中在适应过程中无法访问源数据。如表XV和XVI所示,我们比较了我们的方法与传统的UDA方法以及现有的SFDA方法。结果表明,MCC和CC-Loss可以处理无源设置,因为它们仅依赖于目标预测。性能是竞争性的,但略低于最先进的方法。另一方面,CC-Loss可以与现有的最先进方法结合使用,并带来改进。

理论见解

Ben-David等人[4]推导出了假设在目标域上的预期错误
其中在源域上的预期错误;距离是域差异的度量;是理想联合假设在两个域上的错误。如图8(a)和(b)所示,我们的方法具有最低的距离[4],接近于oracle(即在两个域上进行监督学习)。在图10(a)中,我们方法的值也低于主流DA方法,表明CC-Loss在竞争基线包括DANN和CDAN上的泛化能力更好。

参数敏感性

温度因子和损失系数是我们方法和MinEnt[23]的两个常见超参数,当它们单独使用或与现有方法结合使用时。我们在它们的最优值[T*, μ*]周围遍历超参数,如图9(a)和(b)所示,与另一种损失MinEnt相比,我们的方法对其超参数的敏感性要低得多。

我们在(12)中取来处理开放集和通用领域适应。这里我们评估了我们方法的超参数敏感性。如图11所示,我们的方法在不同的下表现稳定。

收敛速度

我们在图10(b)中展示了整个迭代过程中的训练曲线。令人印象深刻的是,我们的方法只需要1500次迭代就能达到90%的准确率,而在这一点上,CDAN和DANN的准确率仍在85%左右或更低。总的来说,我们的方法大约比现有方法快2倍。

混淆矩阵可视化

我们可视化了MCC[30]和CC-Loss在VisDA2017数据集中估计的混淆矩阵。如图12所示,一致性正则化在有无扰动的混淆矩阵上可以产生一个更准确的混淆矩阵,密度集中在对角区域。观察表明,通过在混淆矩阵上进行一致性正则化,CC-Loss成功地使混淆矩阵在扰动下更加稳定,这反过来又提高了混淆矩阵的估计精度,并进一步提高了领域适应性能。

CAM可视化

我们进行了Grad-CAM可视化,以识别模型视为重要的图像区域。我们比较了在不同DA设置中的普通网络、M3SDA(专为多源领域适应设计)、CMU(专为通用领域适应量身定制)和我们的方法。如图13所示,我们的方法在捕获图像的关键部分方面表现出强大的能力,这些部分很好地表征了图像类别。例如,我们的方法专注于整个瓶子或植物。基线方法,尽管在它们量身定制的DA设置中捕获了正确的信息,但在应用于其他设置时未能将注意力集中在主要对象上。

此外,对于一个特定的设置,我们方法的可视化结果与相应的量身定制的方法一致。例如,我们的方法在面对UniDA时与CMU显示出相似的行为。我们还观察到,与其他方法相比,我们的方法在检测多个对象(例如MTDA中的两只猫)方面更胜一筹。可视化表明,我们的方法在不同的DA设置下捕获了目标图像的正确信息,这证明了CC-Loss的多功能性。

IX. 结论和未来方向

本文研究了一种更实用的范式,多领域适应(VDA),其中一种方法可以应对各种DA设置。我们的关键见解是利用类混淆来实现VDA。基于此,我们提出了一种新的通用损失函数:类混淆损失(CC-Loss),它由类混淆最小化和类混淆一致性组成。CC-Loss可以作为一种多功能的领域适应方法应用于多种DA设置。在2D和3D视觉任务上的广泛结果证明了我们的方法在没有任何修改的情况下优于许多特定设置的领域适应方法,并且收敛速度更快。
虽然我们的方法在各种DA场景中都取得了竞争性能,但它仅限于分类任务。将类混淆的核心概念扩展到回归任务并不平凡。因此,开发一种更通用的方法来应对分类、回归和检测任务是该领域一个值得探索的方向。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章