Unsupervised and Semi-Supervised Robust Spherical Space Domain Adaptation
题目:无监督和半监督鲁棒的球形空间领域适应
作者:Xiang Gu; Jian Sun; Zongben Xu
源码:https://github.com/XJTUXGU/RSDA
点击下方卡片,关注“AI前沿速递”公众号
点击下方卡片,关注“AI前沿速递”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
摘要
对抗性域适应已经成为通过对抗性训练学习域不变特征的有效方法。在本文中,我们提出了一种新颖的对抗性域适应方法,该方法定义在球面特征空间中,我们定义了用于标签预测的球面分类器和用于区分域标签的球面域鉴别器。在球面特征空间中,我们发展了一种球面稳健伪标签损失,以稳健地利用伪标签,该损失通过高斯-均匀混合模型对目标域数据的估计标签的重要性进行加权,该模型在球面空间中建模。我们提出的方法通常可以应用于无监督和半监督域适应设置。特别是,为了解决半监督域适应设置中的挑战,即在训练中只有少数标记的目标域数据可用,我们提出了一种新颖的重新加权对抗性训练策略,以有效减少目标域内的域内差异。我们还基于域适应理论对所提出的方法进行了理论分析。在多个基准测试中进行了广泛的实验,包括对象识别、数字识别和面部识别。结果表明,我们的方法在无监督和半监督域适应方面要么超越了,要么与最新方法具有竞争力。消融研究也证实了球面分类器、球面鉴别器、球面稳健伪标签损失和重新加权对抗性训练策略的有效性。
关键词
域适应 球面空间 稳健伪标签损失 重新加权对抗性训练
1 引言
深度学习方法在视觉识别[1]、[2]、[3]方面取得了巨大成功。然而,这些性能提升依赖于大量的标记训练数据,而数据标记既昂贵又耗时。域适应[4]通过从包含丰富标记数据的相关源域数据集中转移知识,减轻了对大规模标记训练数据集的依赖。源域和目标域之间的分布差异,也称为域偏移,是在跨域适应预测模型时的主要障碍。为了方便描述,我们在本文中分别将域适应、无监督域适应和半监督域适应简写为DA、UDA和SSDA。
DA主要尝试减少源域和目标域之间的域偏移[4]、[5]。以前的浅层DA方法要么学习一个共同的特征子空间,要么估计源域数据的实例重要性[6]、[7]、[8],以弥合域之间的差距。最近,深度学习方法已经成为DA的主导方法[9]、[10]、[11]。这些方法利用深度网络通过[12]、[13]、[14]、[15]、[16]、[17]、[18]对齐不同域的分布来学习域不变特征。对抗性DA[9]、[13]、[14]、[17]、[18]、[19]、[20]通过训练一个域鉴别器来区分源域和目标域特征,并对抗性地学习特征提取器以欺骗鉴别器,从而对齐源域和目标域的特征分布。同时,目标域的伪标签,即目标域数据的估计标签,已被证明对DA有用[17]、[21]、[22]、[23]、[24]。由于伪标签不可避免地包含噪声,因此在使用伪标签指导DA任务时,如何选择正确标记的数据至关重要。
尽管这些工作在实际应用中已经显示出有希望的性能,但当前的DA方法仍然面临巨大挑战。本文专注于解决两个关键挑战,包括设计更有效的不变特征空间和以更稳健的方式使用伪标签。我们在统一的模型中通过提出一种鲁棒球面域适应(RSDA)方法来应对这些挑战。
传统的手工工程[25]、[26]和现代深度特征学习[27]、[28]、[29]的经验表明,将特征映射到球面空间的L2归一化可以提高图像识别、DA等的性能。受到这些经验发现的启发,为了充分利用球面空间的内在结构,我们进一步扩展了[28]、[29]中球面嵌入的思想,设计了一种新颖的球面空间DA方法,所有DA操作都在球面特征空间中定义。在球面特征空间中进行DA,消除了特征范数的差异,并在不依赖于特征范数对齐的情况下,在平滑的球面流形上对齐了特征。
为了在球面特征空间中设计DA方法,我们提出了一个球面鉴别器和一个球面分类器,以在球面特征空间中执行对抗性DA方法。球面鉴别器和分类器都基于我们在第3.1节中定义的球面感知机层和球面逻辑回归层构建。正如第8.5节所示,提出的球面分类器和鉴别器在DA中被证明是有效的,我们还将从实验上分析球面特征空间对DA有效性的原因。
在球面特征空间中,为了稳健地利用目标伪标签,我们进一步在第4.1节提出了一种新颖的球面稳健伪标签损失,基于正确标记的后验概率。我们假设靠近类中心的数据更有可能被正确标记,如图3a所示。这个假设也被[30]、[31]采用。然后,我们根据目标域数据在球面特征空间中到相应类中心的特征距离来衡量伪标签的正确性。我们通过实验观察到(如图6所示),正确标记的数据在球面空间中的距离集中在中心附近接近零,而错误标记的数据在大范围内分散,这启发我们将正确(分别错误)标记的数据视为内围(分别异常值)。高斯-均匀混合模型是一种用于通过将内围(分别异常值)建模为高斯(分别均匀)分量来检测异常值的统计分布[32]、[33]。然后我们使用高斯-均匀混合模型来模拟正确/错误标记的后验可能性。第8.5节中的实验将证明球面稳健伪标签损失的有效性。
基于上述两种技术,我们设计了一种新颖的DA训练损失,用于球面特征空间,并在第6节中以原则性的方式交替优化。我们的方法可以应用于UDA(在目标域中只能访问未标记数据)和SSDA(在目标域中可以访问未标记数据和一些标记数据)。特别是,在SSDA设置中,由于目标域内存在域内差异[34],我们额外提出了一种新颖的重新加权对抗性训练策略,以减少目标域内的域内差异。为了理解我们方法的理论,我们在第7节为UDA和SSDA的两种情况推导了目标域的泛化误差的上界,我们提出的RSDA方法与最小化上界中的某些项相关,这部分解释了我们方法的成功。
我们在多个数据集上评估了我们的方法,包括对象识别(Office-31 [35]、ImageCLEF-DA [36]、OfficeHome [37]、VisDA-2017 [38]和DomainNet [39])、数字识别(MNIST [40]、USPS [41]和SHVN [42])以及面部识别(CMU Face [43])。第8节的实验结果表明,我们的方法在UDA和SSDA任务中超越或与以前的方法具有竞争力。消融研究证实了所提出的球面分类器、球面鉴别器、球面稳健伪标签损失和重新加权对抗性训练策略的有效性。
我们的贡献可以总结如下:
我们提出在球面特征空间进行对抗性DA,设计了基于所提出的球面神经网络构建的球面分类器和鉴别器。我们进一步提出了一种新颖的球面稳健伪标签损失,用于在球面特征空间中更稳健地利用目标域数据的伪标签。为所提出的方法提供了理论分析。 我们将我们提出的方法应用于UDA和SSDA设置。特别是,我们为SSDA设计了一种新颖的重新加权对抗性训练策略,以减少目标域内的数据差异。 我们在各种基准测试中进行了广泛的实验,包括对象识别、数字识别和面部识别,证明了我们方法的优越性。
本文扩展了我们之前的会议版本[44],主要扩展如下:1) 我们将我们的方法扩展到SSDA设置。对于SSDA,我们提出了一种新颖的重新加权对抗性训练策略,以减少目标域数据内的域内差异。2) 我们在SSDA数据集(Office-Home [37]和DomainNet [39])上额外评估了我们的方法,UDA数据集用于数字识别和面部识别。结果证明了我们提出的方法的有效性。3) 我们从理论上分析了我们方法在SSDA中的泛化误差界限。4) 我们为球面网络和球面稳健伪标签损失的设计提供了更详细的动机。5) 我们提供了我们方法的更多实证分析,包括对超参数的敏感性和运行时间的比较。我们还从域差距和显著性映射的角度实证分析了球面空间对DA的有效性。
3 鲁棒球面域适应(Robust Spherical Domain Adaptation)
域适应(Domain Adaptation, DA)的目标是通过减少源域和目标域之间的域偏移来提升模型在目标域的性能。根据目标域是否有标记数据,域适应可以分为无监督域适应(Unsupervised Domain Adaptation, UDA)和半监督域适应(Semi-Supervised Domain Adaptation, SSDA)。具体来说,在UDA中,我们只能访问来自源域的标记数据集和目标域的未标记数据集,其中和分别表示源域中标记数据的数量和目标域中未标记数据的数量。在SSDA中,除了和之外,还有一小部分目标域的标记数据集可用,其中表示目标域中标记数据的数量。UDA和SSDA的目标是学习一个能够泛化到目标域未标记数据的模型。
为了实现上述目标,对抗性域适应方法通过在特征提取器之上引入鉴别器来学习域不变特征,鉴别器用于区分源域和目标域的特征,而特征提取器则通过对抗性学习来欺骗鉴别器[9]。我们提出在球面特征空间中进行对抗性域适应。图1展示了我们方法的思想。使用主干CNN(例如ResNet[1])作为特征提取器,我们将特征归一化以映射到球面特征空间。我们的分类器和鉴别器相应地基于我们提出的球面神经网络在球面特征空间中定义,分别称为球面分类器和球面鉴别器。我们还提出了一种新颖的球面稳健伪标签损失,用于在球面特征空间中更稳健地利用未标记目标域数据的伪标签。我们的总损失由基本损失、条件熵损失和我们提出的球面稳健伪标签损失组成。我们的方法适用于UDA和SSDA设置。特别是对于SSDA,我们额外提出了一种新颖的重新加权对抗性训练策略,以减少目标域内的域内差异。
在接下来的各节中,我们将首先讨论如何定义用于构建球面分类器和球面鉴别器的球面神经网络的详细信息(第3.1节)。然后,我们将介绍我们方法在UDA设置下的训练损失(第4节)和SSDA设置下的训练损失(第5节)。
3.1 球面神经网络(Spherical Neural Network)
在先前的欧几里得空间对抗性DA工作中[13]、[19]、[56],分类器和鉴别器都是多层感知器(MLPs)。如上所述,我们在这项工作中在球面空间进行特征适应。为了充分利用球面特征空间的内在结构,我们将MLP从欧几里得空间扩展到球面空间,以构建球面分类器和鉴别器。请注意,SNN这个术语也在使用球形CNN[80]、[81]和几何SNNs[82]中使用过。与它们不同,我们的SNN是从欧几里得空间到球面空间的MLP的扩展。
在定义球面神经网络之前,我们通过将提取的特征归一化,以获得球面空间中的特征。为了方便描述,我们仍然将这个归一化操作视为F的一个组成部分。如图2所示,类似于欧几里得空间中的分类器(鉴别器)[19],我们的球面分类器(鉴别器)由多个球面感知机(SP)层和最终的球面逻辑回归(SLR)层堆叠而成。SP层是MLP感知机层从欧几里得空间到球面空间的扩展。感知机层由线性变换和激活函数组成。类似地,我们将为构建SP层定义球面线性变换和球面激活函数。
球面线性变换。球面线性变换用于将特征从一个球面空间变换到另一个球面空间。受到超球面神经网络设计的启发[83],我们的球面线性变换由三个组成部分组成,即球面对数映射、切空间中的线性变换和球面指数映射。执行从一个球面空间到另一个球面空间的球面线性变换时,我们首先通过球面对数映射将第一个球面空间中的特征投影到其切空间(即超平面),然后在切空间中通过线性变换将投影的特征变换到第二个球面空间的切空间,最后通过球面指数映射将变换后的特征投影到第二个球面空间。数学上,球面线性变换定义为
其中是线性变换,和分别是球面指数和球面对数映射,是的北极点,。有关和的表达式,我们将其放在附录A.1中,可以在Computer Society Digital Library上找到,网址是http://doi.ieeecomputersociety.org/10.1109/TPAMI.2022.3158637。它们可以通过简单的数学运算实现。
球面激活函数。在球面空间中定义非线性激活函数很容易。我们通过以下方式定义球面ReLU(SReLU):
球面感知机层。有了上述球面线性变换和球面激活函数,给定SP层的输入球面特征,输出球面特征通过以下方式获得:
SP层的参数在线性变换中。
球面逻辑回归层。这一层被设计用于在球面上预测分类分数。设计SLR层的关键是确定分类边界。欧几里得空间中逻辑回归的分类边界是一个超平面,这在球面空间中对应一个圆。这个圆可以表示为,其中,是单位法向量,是偏置,取值范围在内。因此,类似于欧几里得空间中的逻辑回归,我们定义我们的SLR层为:
其中。是上的分类圆边界。偏置的约束可以通过建模来强制执行,其中是待学习参数。
球面分类器和鉴别器的架构。球面分类器和球面鉴别器的层数和节点数与[19]中的设置相同。球面分类器由单个SLR层组成。球面鉴别器由两个每个具有1024个节点的SP层和一个SLR层组成。
球面半径的界限。为了获得适当的球面半径的估计,我们有以下界限:
所有这些损失都是在球面特征空间中定义的。在公式(6)中,、和分别是特征提取器、球面分类器和球面鉴别器,如第3节所讨论的。通过最小化总损失,我们鼓励方法学习源域中的预测球面分类器,并通过对齐域来利用目标域数据的伪标签,减少预测类别的概率不确定性。我们将在本节的后续段落中讨论这些损失。
基本损失
我们的基本损失是定义在球面特征空间中的基本对抗性域适应损失。以DANN[19]和MSTN[17]作为基线方法,这个基本对抗性DA损失定义为:
它由交叉熵损失、对抗性训练损失和语义匹配损失组成。交叉熵损失对源域数据实现了基于真实类别标签的实现,定义为:
其中表示第个元素。最小化强制模型在源域预测类别标签。对抗性训练损失定义为:
球面鉴别器通过最大化来训练,以区分源域和目标域数据。而特征提取器通过最小化来学习,以欺骗鉴别器提取域不变特征。这种最小最大化优化过程是通过梯度反转层(GRL)[9]实现的。语义匹配损失定义为:
基于MSTN[17],其中和分别是源域和目标域中第类的中心,定义在附录A.2中,并且是余弦距离。
条件熵损失
条件熵损失[66]、[84]、[85]、[86]、[87]定义为:
其中是分布的熵。最小化条件熵损失鼓励学习的特征远离分类边界,减少预测分类概率的不确定性。条件熵最小化也被视为隐式的伪标签约束,如[88]中所讨论的。按照[87],我们只使用条件熵损失来更新。
4.1 球面稳健伪标签损失
由于UDA中目标域数据未标记,由球面分类器估计的伪标签可能有助于促进目标域中的学习[17]、[20]、[22]。然而,这些伪标签并不准确,因此我们提出了一种新颖的鲁棒损失,在球面特征空间中稳健地利用这些伪标签。目标域中第个样本的伪标签定义为:
为了模拟伪标签的保真度,我们为每个目标域样本引入了一个随机变量,表示样本是否被正确或错误地标记,取值为1和0分别代表正确和错误标记。如果正确标记的概率表示为,其中表示参数,那么我们的鲁棒损失定义为:
其中,基于正确标记的后验概率定义为:
在公式(13)中,我们丢弃了正确标记概率小于阈值的目标域数据。我们简单地将设置为0.5,并将在第8.5节中研究的影响。正确标记的概率是通过高斯-均匀混合模型在球面空间中基于数据到其所属于类别中心的特征距离来建模的。
正确标记的后验概率。我们现在计算每个目标域数据的后验概率正确标记,即。如图3a所示,对于目标域中带有伪标签的数据,我们假设在球面空间中具有较小特征距离到类中心的数据,例如蓝色点,具有更大的可能性被正确标记。这个假设在[30]、[31]中被采用,并且在图6中的实验中被验证是现实的。
给定第个目标域数据的球面特征,其到相应球面类中心的距离通过计算,其中是余弦距离。如图6所示,在球面空间中正确标记的数据的距离集中在零附近,而错误标记的数据的距离在大范围内分散。这表明我们可以将正确(分别错误)标记的数据视为内围点(分别异常值)。然后我们通过高斯-均匀混合模型对每个类别的特征距离的分布进行建模,这是一个成功用于异常值检测的统计分布[32]、[33],定义为:
其中是当时密度与高斯分布成比例的分布,否则密度为零。是在区间上定义的均匀分布。高斯分量和均匀分量分别模拟正确和错误标记的目标域数据,如图3b所示。利用公式(14),正确标记的后验概率定义为:
高斯-均匀混合模型的参数为 ,其中 是类别的数量。这些参数将在第6节中估计。
5 半监督域适应的训练损失
在本节中,我们讨论了我们方法在半监督域适应(SSDA)设置下的训练损失。与UDA相比,SSDA允许使用标记的目标域数据集。技术上,我们可以简单地在UDA中定义的总损失(公式(6))中为标记的目标域数据添加一个监督分类损失,例如交叉熵损失。然而,这种直接的方法并不理想,因为SSDA中目标域数据内存在域内差异[34]。为了有效地减少这种域内差异,除了之前介绍的技术外,我们还提出了一种新颖的重新加权对抗性训练策略,以在SSDA中对齐标记的(源域和目标域)和未标记的(目标域)数据的分布。接下来,我们将在第5.1节中介绍域内差异的问题,然后在第5.2节中讨论我们的重新加权对抗性训练策略的详细信息,并在第5.3节中介绍SSDA的总损失。
5.1 域内差异
Saito等人[29]通过实验表明,在SSDA设置中,对抗性UDA方法通常无法提高(甚至可能降低)与基线方法相比的模型性能,基线方法仅使用源域和目标域中的标记数据训练模型。Kim和Kim[34]分析了UDA方法失败的主要原因是目标域内存在域内差异。
我们以以下示例来说明域内差异的问题。我们在DomainNet上的1-shot R!C任务中,仅使用标记的源域和目标域数据训练特征提取器。我们在图4a中展示了十个类别的提取球面特征的t-SNE[90]可视化。从图4a中可以观察到,标记的源域数据(S)和标记的目标域数据(Tl)因为都用于最小化监督分类损失而很好地对齐了。此外,还有许多未标记的目标域样本在Tu中,与标记的源域和目标域数据相距甚远。这表明我们需要在对抗性训练中更多地努力将这些远离标记数据的未标记目标域数据与标记的源域和目标域数据对齐。
5.2 重新加权对抗性训练策略
我们设计了以下重新加权对抗性训练策略,以对齐未标记的目标域数据和标记的数据(源域和目标域)。在这一策略中,与标记数据距离较远的未标记目标域样本应在对抗性训练损失中被赋予更大的权重。我们通过实验发现,输出的球面分类器的条件熵是识别未标记目标域样本是否远离标记数据的良好指标。具体来说,我们通过除以它们的最大值来将未标记目标域样本的条件熵归一化到[0,1]区间内,并将条件熵的区间划分为几个区间。然后,我们计算了标记样本和未标记目标域样本之间的A距离,如图4b所示。A距离是分布差异的度量[45],定义为,其中是训练的核SVM将每个区间中的未标记特征与标记特征区分开来的测试误差。图4b显示,随着条件熵的增加,A距离几乎线性增加。这表明条件熵较大的未标记目标域样本更可能远离标记数据。
基于上述观察,我们提出在对抗性训练损失中利用条件熵对未标记目标域样本进行重新加权。每个样本的权重通过以下方式计算:
其中,是通过以下方式归一化的:
公式(16)确保了对抗性训练损失中样本的最大权重小于2.0,最小权重高于1.0,确保每个样本都对抗性损失有所贡献,并且条件熵较大的样本贡献更多。利用公式(16),我们提出的重新加权对抗性训练损失定义为:
其中,。公式(18)与传统的对抗性训练损失在两个方面不同。首先,图4a显示我们需要在SSDA中对齐标记和未标记的数据。因此,我们的球面鉴别器D被训练以最大化公式(18),以区分未标记数据和标记数据。而特征提取器F则通过最小化公式(18)来欺骗球面鉴别器D,以消除标记和未标记数据之间的特征差距。其次,公式(18)中的重新加权策略允许我们在对抗性训练中更多地关注与标记数据不匹配的未标记样本,这可能更有效地解决域内差异问题。
请注意,在UDA中,Long等人[13]和Balaji等人[68]为了安全转移,优先考虑鉴别器对易于转移样本的判别。更具体地说,Long等人[13]为鉴别器的每个训练样本分配了一个权重,随着条件熵的增加而减少。Balaji等人[68]提出了一个鲁棒的最优传输模型,在对抗性训练中减少目标域样本的重要性,这些样本与源域数据相距甚远。与此不同,我们的重新加权对抗性损失是为了解决SSDA设置中的域内差异问题而提出的。我们通过与条件熵正相关的权重重新加权鉴别器的样本,以在对抗性训练中优先考虑未对齐的目标域数据。第8.4节的实验结果暗示了我们的方法对SSDA是有效的。
5.3 SSDA的总损失
对于SSDA,标记数据来自标记的源域数据集和标记的目标域数据集。我们定义了组合数据集和的组合分类损失,如下所示:
我们现在为SSDA定义总训练损失为:
其中,是重新加权对抗性训练损失,如公式(18)中所定义,是球面稳健伪标签损失,如公式(12)中所定义,是条件熵损失,如公式(11)中所定义。注意,和都是针对目标域的未标记数据,与UDA相同。
6 训练算法
在本节中,我们将讨论如何优化网络、、并估计高斯-均匀混合模型的参数。为了最小化公式(6)(对于UDA)或公式(20)(对于SSDA)中的总损失,我们通过交替优化网络和固定其他参数来估计。最初,我们使用基本损失通过[17]、[19]中的训练策略来初始化、、。然后,我们交替执行以下过程。
固定、、时估计
固定、、,我们首先更新伪标签并计算所有目标域数据的距离,然后使用EM算法估计,如下所示。设,其中是从伯努利分布中采样的,然后可以通过以下EM算法估计:
其中
固定时优化、、
给定当前目标伪标签和估计的,训练网络、、是一个标准的域适应训练问题,可以通过[19]中的逐步对抗性训练策略来执行,使用公式(6)(对于UDA)或公式(20)(对于SSDA)的目标函数。
7 理论分析
本节重点对我们提出的方法进行理论分析。我们将分别分析UDA和SSDA的RSDA。
7.1 UDA的RSDA分析
我们的方法的理论分析基于UDA理论[45]、[91]:
其中是假设空间中的一个假设,和分别是源域和目标域的期望风险,是理想联合假设的组合误差,是源域和目标域分布、之间的Hellinger距离。对于我们的方法,我们进一步考虑了伪标签的分类错误在推导我们的上界时,得到以下引理。
引理 1
设是一个假设,和分别是源域和目标域的真实标签函数,是目标域的伪标签函数,那么
其中,是与无关的常数。
证明见附录B.3。
对于我们的方法,源域误差,即公式(23)中的,由源域交叉熵损失施加。伪标签的分类误差,即,由球面稳健伪标签损失执行。通过对抗性训练最小化。是与无关的常数。
7.2 SSDA的RSDA分析
对于SSDA,我们引入了组合期望风险,其中是源域和目标域期望风险之间的权衡。基于[45]中的引理4,考虑到伪标签的分类错误,我们得到了目标域期望风险的以下上界。
引理 2
设是一个假设,我们有
证明见附录B.4。
在SSDA的总损失公式(20)中,组合分类损失用于最小化组合期望风险。我们的重新加权对抗性训练损失减少了由度量的域偏移。SSDA中的分析类似于UDA。
8 实验
在本节中,我们进行了实验来评估我们的方法,并与以前的UDA和SSDA方法进行了比较。我们的源代码可在 https://github.com/XJTUXGU/RSDA 上获得。
8.1 数据集
实验在以下数据集上进行。Office-31数据集[35]是一个广泛使用的域适应基准,包含4,110张图像,涵盖31个类别,分布在三个不同的域:Amazon (A)、Webcam (W)和Dslr (D)。ImageCLEF-DA[36]数据集是ImageCLEF 2014域适应挑战的基准数据集,包含三个域:Caltech-256 (C)、ImageNet ILSVRC 2012 (I)和Pascal VOC 2012 (P),共享12个类别。Office-Home[37]数据集组织得更好,比Office-31更具挑战性,包含15,500张图像,涵盖65个对象类别,来自四个不同的域:艺术图像(Ar)、剪贴艺术(Cl)、产品图像(Pr)和现实世界图像(Rw)。VisDA-2017[38]是一个大规模数据集,包含两个不同的域:合成和真实,共享12个类别。DomainNet[39]是一个大规模、具有挑战性的域适应基准数据集,包含六个域,大约有0.6百万张图像,涵盖345个类别。Digits[40]、[41]、[42]是一个标准的UDA基准,专注于数字识别。我们研究了三个数字数据集:MNIST (M)[40]、USPS (U)[41]和SVHN (S)[42]。CMU Face[43]是一个面部识别数据集,包含640张黑白面部图像,这些人以不同的姿势(正面、左侧、右侧、上方)和眼睛状态(睁开和太阳镜)拍摄。每个人被视为一个域。我们按照[92]选择前四个人(an2i、at33、boland和bmp)进行实验。我们将眼睛状态分类作为我们的任务。
8.2 设置
评估任务。对于UDA,我们在Office-31、ImageCLEF-DA、Office-Home、VisDA-2017、Digits和CMU Face数据集上评估了提出的RSDA。对于Office-31、ImageCLEF-DA和Office-Home数据集,我们将每个域和其余域分别作为源域和目标域,每个数据集上分别得到6、6和12个任务。对于VisDA-2017,我们将合成域作为源域,真实域作为目标域,即合成域!真实域。对于Digits,我们考虑了三个适应任务:M!U、U!M和S!M。对于CMU Face数据集,我们通过将其中四个人的图像作为源域,其余每个人作为目标域,依次构建适应任务。在UDA的每个适应任务中,使用源域的图像及其类别标签。在目标域中,只使用图像。对于SSDA,我们在Office-Home和DomainNet数据集上评估了我们的方法。按照[29]的协议,我们在DomainNet数据集上选择了四个域(现实(R)、剪贴艺术(C)、绘画(P)、素描(S))进行实验,共有126个类别,进行了7个适应任务。对于Office-Home数据集,我们在所有域上进行了12个适应任务的实验。在每个适应任务中,使用标记的源域图像、未标记的目标域图像以及每个类别的一个(1-shot)或三个(3-shot)标记的目标域图像进行训练。
基线。对于UDA,我们在DANN[19]和MSTN[17]的基础上实现了我们的RSDA,通过设置公式(7)中的和。对于SSDA,RSDA是基于DANN实现的,DANN是对抗性域适应的代表性方法。MSTN是最近的一种方法,被用作几种方法的基础[21]、[22]。值得注意的是,RSDA也可以通过嵌入我们的球面技术(如球面分类器、鉴别器和球面稳健伪标签损失)到其他对抗性域适应方法中实现。
比较方法。我们比较了我们的方法与以前的方法,包括UDA和SSDA。1)对于UDA,我们将我们提出的RSDA与对抗性UDA方法DANN[19]、MSTN[17]、MCD[56]、CDAN+E[13]、MDD[18]和SymNets[66]进行了比较。我们的方法还与基于伪标签的方法(iCAN[24]、CAT[71]、CAN[12])和与归一化相关的方法(SAFN[28]、DWT-MEC[74])进行了比较。我们还比较了一些较新的方法CSDA[93]、SRDC[31]、SHOT[94]、HDAN[79]和TSA[95]。2)对于SSDA,我们将我们的方法与UDA方法DANN[19]、CDAN+E[13]、ADR[96]和ENT直接应用于SSDA设置进行了比较。ENT表示最小化未标记目标域数据的条件熵的方法。此外,我们的方法还与最近提出的SSDA方法MME[29]、Kim & Kim[34]和HDAN[79]进行了比较。
实现细节。我们基于PyTorch[97]实现了我们的方法。在对象和面部识别数据集上,特征提取器F设置为在ImageNet数据集[98]上预训练的ResNet50(对于UDA)或ResNet34(对于SSDA)[1],不包括最后的FC层。在数字数据集上,我们遵循[94]使用LeNet[40]进行M!U和U!M任务,并使用LeNet的变体进行S!M任务。公式(5)中的Pw设置为0.999,球面半径r设置为公式(5)中的界限。当优化F、C和D时,所有网络参数都通过动量为0.9的随机梯度下降(SGD)进行更新。C和D的学习率是F的10倍。我们还遵循[66]将λ和超参数γ设置为和,其中k是优化进度,从0线性变化到1,这意味着λ和γ从0增加到1。我们按照[17]在训练过程中使用指数移动平均值计算语义匹配损失中的类中心,并在网络优化期间将类中心归一化到球面上。当估计f时,我们强制执行以控制高斯分布中的样本比率不超过0.5,以进一步增强模型的鲁棒性。对于对象和面部识别数据集,我们将图像大小调整为256×256,并将其裁剪为224×224的图像块作为网络的输入。对于数字识别数据集,输入图像的大小调整为32×32。在我们工作的会议版本[44]中,我们将图像的大小调整为在较短的轴上为256,同时在调整图像大小时保持图像的纵横比,并裁剪224×224的图像块作为网络的输入。在表1、2、3、4和6中,我们用“{}”表示我们方法的会议版本[44]。
8.3 UDA结果
我们报告了所有迁移任务在基准数据集上的平均分类准确率。在Office-31、ImageCLEF-DA、Office-Home、VisDA-2017、Digits和CMU Face数据集上UDA的RSDA结果分别在表1、2、3、4、5和6中报告。比较方法的结果要么来自它们的原始论文(如果协议相同),要么引用自[13]。在表中,我们将球面特征空间适应表示为“S”,公式(12)中的球面稳健伪标签损失表示为“R”,公式(11)中条件熵损失表示为“E”。DANN+S表示在球面特征空间执行DANN的方法,即特征被投影到球面空间,并且基于球面网络构建分类器和鉴别器。DANN+S+R表示向DANN+S添加球面稳健伪标签损失的方法。MSTN+S、DANN+S+R+E等类似定义。RSDA-DANN(RSDA-MSTN)表示基于DANN(MSTN)的RSDA,等同于DANN+S+R+E(MSTN+S+R+E)。
与基线的比较。在表1中,RSDA-DANN和RSDA-MSTN分别提高了DANN和MSTN在Office-31上的准确率8.0%和4.6%。在表2中,在ImageCLEF-DA上,RSDA-DANN和RSDA-MSTN分别提高了 DANN和MSTN基线的5.1%和2.3%。表3比较了Office-Home上的结果。RSDA-DANN和RSDA-MSTN分别提高了DANN和MSTN基线12.2%和5.2%。在表4中,RSDA-DANN在VisDA-2017上提高了DANN准确率12.1%。在表5和6中,RSDA-DANN分别在Digits和CMU Face数据集上超过了DANN 21.6%和3.6%。这些改进表明了我们方法的有效性。
与最近的UDA方法的比较。我们将我们的方法与最近的UDA方法CSDA[93]、SRDC[31]、SHOT[94]和TSA[95]进行了比较。注意,在这些方法中,输入图像块的大小为224×224,这些图像块是从调整大小为256×256的训练图像中裁剪出来的。在Office-31数据集上,我们提出的RSDA-MSTN实现了最佳准确率(91.2%),超过了第二佳方法SRDC 0.4%。在ImageCLEF-DA数据集上,我们提出的RSDA-MSTN与SRDC相比具有竞争力,但在Office-Home和Office-31数据集上,RSDA-MSTN分别超过了SRDC 1.8%和0.3%。RSDA-MSTN在Office-Home数据集上实现了最佳结果(73.1%),超过了第二佳方法SHOT 1.3%。在VisDA-2017上,RSDA-DANN超过了第二佳方法CSDA 0.4%,并且在Office和Office-Home数据集上分别超过了CSDA 1.5%和2.8%。我们还使用类意识采样(CAS)[12]来训练我们方法中的球面鉴别器(表示为RSDA-DANN-CAS),在Resnet50主干网络上进一步提升了最佳结果到82.9%。在Digits上,RSDA-DANN实现了98.9%的最佳准确率。我们还进行了统计测试,以证明性能提升是否显著,在第8.5节中进行。
与基于伪标签的方法的比较。正如相关工作中所讨论的,CAN[12]利用目标域伪标签来估计对比域差异。我们方法的改进表明,我们的球面稳健伪标签损失更有效地利用了伪标签。与iCAN[24]相比,后者也通过基于预测分类分数选择数据来定义伪标签损失,我们的RSDA-MSTN在ImageCLEF-DA上提高了2.9%的准确率,在Office-31上提高了4.0%,表明我们基于高斯-均匀模型的伪标签损失更能可靠地检测错误标记的数据。
与归一化相关方法的比较。与DWT-MEC[74]相比,我们的RSDA-MSTN在Office-Home上提高了7.7%的准确率。与另一种归一化相关方法SAFN[28]相比,我们的RSDA-MSTN在Office-31、ImageCLEF-DA和Office-Home上分别提高了4.1%、1.3%、5.8%。在方法论上,正如相关工作中所讨论的,我们的方法完全在球面特征空间中执行DA,其中使用了球面分类器和鉴别器,并定义了球面稳健伪标签损失,这与上述归一化基础的DA方法不同。
8.4 SSDA结果
DomainNet和Office-Home数据集上SSDA的RSDA结果分别在表7和表8中报告。注意,当直接将“RSDA-DANN”方法应用于SSDA设置时,鉴别器被训练以区分标记的数据(包括源域和目标域的标记数据)和未标记的目标域数据。比较方法的结果要么来自它们的论文(如果可用),要么引用自[29]。
重新加权对抗性训练策略的有效性。在表7中,DomainNet上RSDA-DANN-W在1-shot和3-shot设置中分别将RSDA-DANN的分类准确率提高了3.2%和1.9%。在表8中,Office-Home上RSDA-DANN-W在3-shot设置中比RSDA-DANN提高了0.7%。RSDA-DANN-W的性能提升表明重新加权对抗性训练策略对SSDA是有效的。
与其他SSDA方法的比较。在表7中,DomainNet数据集上我们提出的RSDA-DANN-W在1-shot和3-shot设置中分别实现了70.9%和72.9%的分类准确率。在1-shot设置中,RSDA-DANN-W比第二佳方法HDAN[79]提高了1.4%。RSDA-DANN-W在3-shot设置中将HDAN的结果提高了1.7%。在3-shot设置中,RSDA-DANN-W比第二佳方法Kim & Kim[34]提高了1.2%。在1-shot设置中,RSDA-DANN-W比Kim & Kim[34]提高了3.3%。在表8中,Office-Home上我们提出的RSDA-DANN-W实现了75.6%的最佳分类准确率,比第二佳方法Kim & Kim[34]提高了1.6%。我们还观察到,除了Pr!Ar任务外,RSDA-DANN-W几乎在Office-Home数据集的所有任务中都取得了最佳结果。这些性能提升证实了我们方法对SSDA的有效性。
8.5 分析
为了证明我们方法相对于比较方法(CSDA[93]、SRDC[31]、SHOT[94]、TSA[95]、HDAN[79]和Kim & Kim[34])的改进是否显著,我们在表9中进行了统计测试。我们对每种比较方法和我们提出的方法的所有共同评估任务的结果进行了单侧Wilcoxon符号秩检验。表9中报告了两个典型的显著性水平(0.01和0.1)下的p值和测试结果。观察到我们的方法在所有共同评估任务中的表现优于CSDA、SHOT、HDAN、TSA和Kim & Kim,p < 0.01,并且优于SRDC,p < 0.1。
伪标签损失能否检测到错误标记的数据?为了证明球面稳健伪标签损失是否有助于检测目标域数据中的错误标记,我们计算了在Office-31上W!A任务中基于高斯-均匀模型的正确标记样本与正确标记概率的比率,如图5所示。箱线图显示,基于高斯-均匀模型的正确标记概率是识别目标域数据真实正确标记和移除错误标记数据的良好指标。为了进一步验证我们高斯-均匀模型在真实数据上的有效性,我们在图6中展示了Office-31数据集W!A任务中几个类别的目标特征距离的估计高斯密度。图6显示,错误标记样本(红色点)具有低高斯密度,因此可以被检测到。
球面稳健伪标签损失的有效性。为了证明球面稳健伪标签损失的有效性,我们在Office-31、ImageCLEF-DA、Office-Home和VisDA-2017上基于DANN进行了消融研究。我们评估了“S”、“R”和“E”的不同组合,它们的含义在第8.3节中讨论过。表10、11和12显示,DANN+S+R+E,即RSDA-DANN,在四个数据集上分别显著优于DANN+S+E 2.8%、1.4%、1.8%和6.0%,证明了球面稳健伪标签损失的有效性。同时,DANN+E、DANN+R+E和DANN+S+R+E分别优于DANN(w/ norm)、DANN+R和DANN+S+R,表明条件熵有助于性能提升。
球面特征空间自适应的有效性。在表10、11和12中,DANN+S在四个数据集上分别优于DANN 4.5%、3.5%、2.2%和3.9%,MSTN+S在Office-31、ImageCLEF-DA和Office-Home上分别优于MSTN 2.8%、1.7%和2.6%,证实了在球面特征空间中使用球面分类器和鉴别器进行域适应比在欧几里得空间中更有效。此外,我们在表10、11和12中展示了DANN+S+R+E、DANN+S+R和DANN+S+E,它们基于球面分类器和鉴别器,分别优于DANN+R+E、DANN+R和DANN+E。这表明基于球面分类器和鉴别器的球面稳健伪标签损失和条件熵损失比基于欧几里得分类器和鉴别器的更有效。
为了进一步证明球面网络构建分类器和鉴别器的有用性,我们在Office-31上基于DANN进行了消融研究,并在表13中报告了结果。表13中,DANN+S(w/o exp, log)表示另一种定义SP层的方式,即在每次非线性激活后简单归一化特征,而不使用球面网络中的球面指数和对数映射。结果表明,DANN+S比DANN(w/ norm)提高了2.0%的准确率,表明球面分类器和鉴别器更适合球面特征。DANN+S(w/o exp, log)降低了DANN+S的结果,这与我们的观点一致,即利用指数和对数映射在球面空间中变换特征是合理的。
球面空间对DA有效性的分析。我们从域差距和识别显著性图两个角度分析了球面嵌入对DA的有效性。首先,我们计算了不同方法学习到的源域和目标域特征的A-散度,以衡量分布差异,如图7所示。在图7中,“Res”表示仅使用源域数据训练ResNet的方法,没有使用目标域数据。“Res+S”表示将ResNet提取的特征嵌入到球面空间,并使用球面分类器,但没有使用目标域数据。可以观察到,Res+S的A-散度小于Res,表明嵌入球面空间可以减少不同域特征的域差距。这可能是因为将特征投影到球面上时,消除了特征范数的差异。同时,DANN+S的A-散度小于DANN,表明通过在球面空间中的对抗性训练可以更好地对齐特征分布,而不是在欧几里得空间中。其次,我们在图8中展示了不同方法训练的模型的显著性图[99]。在显著性图中,更亮的区域对模型进行识别决策更为重要。可以观察到,Res+S学习到的显著性图比Res有更大的亮区,表明Res+S学习的模型依赖于更大的区域(更多特征)进行图像识别,提高了模型对遮挡、缺失物体部分等退化的鲁棒性。
损失收敛性和稳定性。考虑到我们希望最小化的损失函数公式(6),我们设计了一种交替优化算法,通过交替优化网络和使用EM算法估计高斯-均匀混合模型的参数。作为一种迭代优化算法,我们的训练方法可以在所有训练实验中稳定地降低损失并收敛。例如,我们在图9中展示了任务A!D在前五个迭代中的测试误差和第一个迭代中的损失函数(因为每个迭代中损失的曲线相似)。测试误差在图9a中迅速收敛。还可以观察到,RSDA的测试误差比DANN更稳定。图9b显示了网络优化过程中所有训练损失都稳定优化。对超参数和的敏感性。我们在图10中研究了我们方法对公式(7)和(6)中的超参数和的敏感性。当和的最大值分别在[0.6, 1.4]和[0.2, 1.0]范围内时,我们方法的结果似乎是稳定的。
公式(13)中阈值的影响。我们在图11a中研究了公式(13)中阈值的影响。观察到当时获得最佳结果。对于较小的,选择的样本更多,更有可能选择目标域数据中的错误伪标签,这可能会降低DA结果,因为错误伪标签的存在。在图11b中,我们绘制了目标域未标记数据正确标记的后验概率的直方图。我们可以看到,如果将设置为较大的值(例如0.8-1.0),对应于图11b中概率的水平轴,选择的目标域数据大多具有正确的伪标签,但只占目标域所有数据的小部分。因此,选择的数据可能无法很好地代表目标域的数据分布。
运行时间比较。我们比较了DANN、CDAN+E、HDAN、TSA和我们提出的RSDA-DANN方法的运行时间。对于测试时间,所有方法都是相同的,因为它们只需要对测试样本进行前向传递以进行预测。对于训练时间,我们运行DANN、CDAN+E、HDAN和TSA各20000步。由于我们使用DANN+S训练的模型作为我们方法的初始化,我们将RSDA-DANN运行了总共40000步,即前20000步用于初始化,后20000步用于我们迭代训练算法中的网络优化。
在计算目标域类中心时数据重新加权。如在线补充材料中的附录A.2所示,我们尝试使用估计的正确标记的后验概率作为权重,重新加权数据以更新目标域类中心,然后使用更新的类中心再次估计高斯-均匀分布,在第6节中描述的我们的交替训练算法的每次迭代中。目标域类中心在语义匹配损失中也使用这种重新加权策略通过指数移动平均值更新。RSDA-MSTN在计算目标域类中心时有无重新加权样本的结果分别为91.2%/91.2%和73.0%/73.1%,在Office-31和Office-Home上。在VisDA-2017上,RSDA-DANN-CAS在计算目标域类中心时有无重新加权样本的结果分别为83.1%/82.9%。这些有和没有重新加权的结果几乎相同,表明我们方法中用于计算目标域类中心的数据重新加权策略并没有带来明显更好的结果。
特征可视化。我们在图12中展示了通过t-SNE[90]学习到的特征。它显示了在球面特征空间中,DANN+S比DANN在欧几里得空间中更好地对齐了源域和目标域特征。RSDA-DANN进一步改善了这种对齐。
9 结论
在本文中,我们提出了一种新颖的在球面特征空间中定义的域适应方法。我们设计了球面分类器、球面鉴别器、球面稳健伪标签损失和重新加权对抗性训练策略。实验表明,所提出的球面域适应方法优于欧几里得对应方法,并且在基准测试中在UDA和SSDA设置下进行视觉识别方面与先前方法具有竞争力或超越。在未来的工作中,我们有兴趣进一步分析球面嵌入,并为具有域差距的DA或其他应用设计鲁棒损失。
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理