TPAMI 2024 | 迁移标注者和实例依赖的转移矩阵以实现从群体学习

科技   2024-10-31 14:00   广东  


题目:Transferring Annotator- and Instance-Dependent Transition Matrix for Learning From Crowds

迁移标注者和实例依赖的转移矩阵以实现从群体学习

作者:Shikun Li; Xiaobo Xia; Jiankang Deng; Shiming Ge; Tongliang Liu

源码链接: https://github.com/tmllab/TAIDTM


摘要

从人群学习描述了训练数据的注释是通过众包服务获得的。多个注释者各自完成了注释的一小部分,其中注释错误经常依赖于注释者。通过噪声转移矩阵对标签噪声生成过程进行建模是解决标签噪声的强大工具。在现实世界的众包场景中,噪声转移矩阵既依赖于注释者也依赖于实例。然而,由于注释者和实例依赖的转移矩阵(AIDTM)的高复杂性,注释稀疏性,即每个注释者只标记了一小部分实例,使得对AIDTM的建模非常具有挑战性。在没有先验知识的情况下,现有工作通过假设转移矩阵与实例无关或使用简单的参数化方法来简化问题,这失去了建模的普遍性。基于此,我们针对一个更现实的问题,即在实践中估计一般的AIDTM。在不失去建模普遍性的情况下,我们使用深度神经网络对AIDTM进行参数化。为了缓解由注释稀疏性引起的建模挑战,我们假设每个注释者与其相似的注释者共享其噪声模式,并通过知识转移来估计AIDTM。因此,我们首先通过所有注释者建模噪声模式的混合,然后将这种建模转移到个体注释者。此外,考虑到从噪声模式的混合到个体的转移可能会导致两个噪声生成差异很大的注释者相互干扰,我们识别了注释者的邻近注释者,并使用它们来校准先前转移的知识。理论分析得出,从全局到个体的知识转移以及邻近个体之间的知识转移可以有效帮助缓解建模一般AIDTM的挑战。实验证实了所提出方法在合成和现实世界众包数据上的优越性。

关键字

  • 从人群学习

  • 标签噪声学习

  • 噪声转移矩阵

  • 知识转移

Ⅰ 引言

在深度学习时代,数据集变得越来越大。如今,在多个领域,大规模且具有高质量注释的数据集几乎已成为获得最先进的深度学习模型的常态。然而,获得高质量的注释非常昂贵。因此,实践中经常利用众包来构建大型注释数据集。众包工作遵循以下场景:(1)任务发布者将整体数据注释任务划分为几个可以重叠的子任务,并分配给注释者;(2)每个注释者随后只标记数据的一小部分;(3)收集来自不同注释者的注释以实现最终的注释数据,在这种情况下,一个实例可能具有来自不同注释者的多个注释。由于许多注释者没有专家知识,注释错误不可避免地发生,导致数据被噪声标记。从人群学习的研究应运而生,其目标是从不完整标记的数据中稳健地学习分类器。

现有从人群学习的算法通常可以分为两类:无模型的和基于模型的算法。在第一类中,许多启发式方法在没有模拟其生成过程的情况下减轻了人群中的标签噪声,例如,通过多数投票识别干净标签。尽管这些方法在经验上表现良好,但它们的可靠性无法得到保证,因为它们没有明确地模拟标签噪声。这自然激发了研究人员通过许多基于模型的算法来建模并学习标签噪声。在这些算法中,噪声转移矩阵(也称为混淆矩阵)是显式模拟标签噪声生成过程的最常见方式。在现实世界的场景中,噪声转移矩阵既依赖于注释者也依赖于实例。例如,人们可能会根据他们对对象特征的不同熟悉程度来识别对象。

然而,估计注释者和实例依赖的转移矩阵(AIDTM)具有非常高的复杂性,这使得它更加困难。具体来说,在具有C个类别的n个示例的训练数据集上对AIDTM进行建模时,至少需要估计r × n × C × C个参数。此外,每个注释者提供的稀疏注释使得估计注释者和实例依赖的转移矩阵更具挑战性。因此,先前的工作通过简化问题来避免估计AIDTM的困难。例如,许多现有工作假设噪声转移矩阵与实例无关,其中对于每个注释者,所有实例共享相同的转移矩阵。此外,没有先验知识,一些现有工作尝试使用一些简单的参数化方法来简化AIDTM的估计,例如,基于实例特征的逻辑回归。然而,在这个时代,众包数据集变得复杂、高维且大规模,其中噪声模式也变得复杂。因此,对于如此复杂且稀疏注释的数据,由于它们的过度简化模型而失去了建模的普遍性,现有的方法很难估计实际的AIDTM。

在本文中,我们针对实际问题,即在实践中估计一般的AIDTM。在不失去建模普遍性的情况下,我们使用深度神经网络对AIDTM进行参数化。为了缓解由注释稀疏性引起的建模挑战,我们假设每个注释者与其相似的注释者共享其噪声模式,并通过知识转移来估计AIDTM。因此,我们首先通过所有注释者建模噪声模式的混合,然后将这种建模转移到个体注释者。此外,注意到从噪声模式的混合到个体的转移可能会导致两个噪声生成差异很大的注释者相互干扰。因此,我们识别了注释者的邻近注释者,并使用它们来校准先前转移的知识。

在细节上,我们首先使用所有带噪声的标记数据,通过使用全局转移深度网络对所有实例的实例依赖转移矩阵进行建模。全局转移深度网络模拟了不同注释者的混合标签噪声生成过程。然后,对于每个注释者提供的带噪声的标记数据,我们微调全局噪声转移网络,将全局知识转移到个体。相应地,每个注释者的个体噪声转移网络得以实现,估计了注释者和实例依赖的转移矩阵。此外,通过测量个体噪声转移网络参数的差异来构建注释者之间的相似性图。对于每个注释者,通过基于图卷积网络(GCN)的映射函数,将邻近注释者的知识转移,以校准个体噪声转移网络。由于注释者的邻近注释者具有相似的噪声模式,转移可以帮助注释者校准实例依赖转移矩阵的估计。通过上述过程,实现了对注释者和实例依赖转移矩阵的更精确估计,进一步增强了分类器的鲁棒性。

在我们深入细节之前,我们强调我们的主要贡献如下:(1) 我们专注于从人群学习的一个重要问题,即估计一般的注释者和实例依赖的转移矩阵。仔细分析了处理该问题的重要意义和挑战。(2) 我们提出了一种通过知识转移使用深度神经网络估计注释者和实例依赖的转移矩阵的方法。提取了所有注释者混合噪声模式的知识,并将其转移到个体。此外,邻近注释者关于噪声模式的知识可以转移到一个注释者,以改进转移矩阵的估计。(3) 我们提供了理论分析,以证明知识转移的作用,表明从全局到个体的知识转移解决了稀疏个体注释无法训练高复杂度神经网络的挑战。此外,邻近个体之间的知识转移解决了从噪声模式的混合到个体的转移可能导致两个噪声生成差异很大的注释者相互干扰的问题。(4) 我们进行了广泛的实验来支持我们的主张。在合成和现实世界的众包数据上的实证结果证明了我们转移矩阵估计器的优越性。还提供了全面的消融研究和讨论。

Ⅲ 方法论

A. 准备工作

我们首先固定一些符号。设表示实例的随机变量,表示噪声类别标签的随机变量,其中C是类别的数量。在从人群学习的设置中,实例由多个注释者进行标记。考虑一个由[R]索引的R个注释者池。对于第i个实例,其注释者是随机选择的,由表示。按照[31]的简化,我们假设每个实例的的大小是相同的,由r表示。选定的注释者j为实例提供了一个噪声标签,其中噪声标签与注释者、实例及其潜在的干净标签有关。我们用来指代。注意,我们的算法也可以应用于的大小在实例间变化的情况,这在第VI节中有所证明。
在这个设置中,关于带噪声标签数据的分布有两种观点:(1) 全局噪声分布,认为实例和相应的噪声标签来自相同的分布;(2) 个体噪声分布,认为来自不同的分布
如上所述,由于注释者和实例依赖的转移矩阵的高复杂性,我们在不失去建模普遍性的情况下,使用深度神经网络对它们进行参数化。重要的是,转移矩阵带来了贝叶斯最优分布和噪声分布之间的关系。主要原因是,研究贝叶斯最优分布和噪声分布之间的转换被认为是研究干净分布和噪声分布之间转换的优势,如[61]中所分析的。
深度神经网络具有强大的容量,这是潜在地模拟高维和复杂模式的能力。然而,在实践中,稀疏的个体注释无法有效地训练高复杂度的深度网络。因此,我们假设注释者之间的噪声模式是共享的,我们考虑执行知识转移以缓解这一挑战。具体来说,提取了所有注释者混合噪声模式的知识(第III-B节),并将其转移到个体(第III-C节)。然后,将邻近注释者关于噪声模式的知识转移到一个注释者,以改进转移矩阵的估计(第III-D节)。最后,我们利用估计的AIDTM通过统计一致的算法学习贝叶斯最优分类器(第III-E节)。

B. 训练全局噪声转移网络

收集贝叶斯最优标签:我们利用[67]中的噪声数据蒸馏方法(其中定理2)从噪声数据集中收集一组经过蒸馏的示例,其中是推断的理论保证的贝叶斯最优标签。具体来说,我们可以通过收集所有噪声类别后验在某个类别上大于某个阈值的示例来获得经过蒸馏的示例。感兴趣的读者可以参考[67]了解更多关于贝叶斯最优标签收集和理论保证的信息。
全局转移网络训练:有了收集到的经过蒸馏的示例,我们可以有效地模拟全局实例依赖转移矩阵,桥接贝叶斯标签分布和全局噪声分布之间的关系,这代表了所有注释者的混合噪声模式。按照BLTM[61]的方法,我们训练一个由参数化的深度网络来估计实例依赖转移矩阵,这代表了贝叶斯最优标签,其中表示贝叶斯最优标签的随机变量。深度网络由参数化,以x为输入,输出估计的转移矩阵。为了学习全局网络的参数,我们最小化了以下经验风险:
其中是交叉熵损失函数,m是蒸馏示例的数量,分别是以一位有效向量形式的。注意,根据[61]中的分析,给定足够的蒸馏示例,通过最小化经验风险,噪声转移网络将很好地模拟转移关系,并且如果它们与蒸馏示例具有相同的模式,它将推广到非蒸馏示例,这也与我们在第IV-A节中的分析一致。此外,最近的一项工作[68]从理论上解释了由深度神经网络模拟的标签噪声转移矩阵的可识别性。

C. 学习个体噪声转移网络

由于每个注释者只标记了一小部分数据,每个注释者(x, , )的蒸馏示例的大小很小,这使得直接学习个体噪声转移网络变得困难。为了解决这个建模问题,我们假设每个注释者与其相似的注释者共享其噪声模式。例如,使一个注释者感到困惑的特征很可能会导致类似的注释者犯错。这个假设也可以得到许多心理和生理 证据的支持,表明人类的感知和识别能力是基于一些共享机制的,例如,呈现的部分[69]、熟悉度[70]和特定能力的水平[71]。因此,我们认为,基于类似的认知过程,个体噪声模式将在类似的注释者之间共享。

由于全局噪声转移网络模拟了不同注释者的混合噪声模式,我们提出将全局建模转移到个体建模。具体来说,我们微调训练好的全局噪声转移网络的最后一层,以转移关于全局噪声分布的知识,从而推断个体噪声分布(见图1)。
注释者j的个体噪声转移网络由参数化,它以实例x为输入,输出注释者和实例依赖的转移矩阵
为了学习个体噪声转移网络的最后一层参数,我们最小化以下经验风险:
其中是注释者j的蒸馏示例的数量。

D. 邻近个体网络之间的知识转移

根据迁移学习的理论[72],源域和目标域之间的差异越大,目标域中的错误界限就越大。这意味着,当存在噪声模式差异很大的注释者时,混合噪声模式和这些个体之间的大差异可能导致知识转移的有效性降低。基于此,我们采用已识别的邻近个体之间的知识转移来改进估计。
构建注释者之间的相似性图:由于个体噪声转移网络的最后一层是线性层,将潜在表示映射到噪声转移矩阵,不同个体噪声转移网络参数之间的相似性可以自然地表示注释者之间的相似性。受此启发,我们使用最后一层参数的余弦距离来测量相似性:
其中i和j分别指注释者i和注释者j,表示L1范数。然后,我们根据KNN算法构建相似性图GS的邻接矩阵A,其中节点是基于KNN算法的不同注释者:
其中NNSearch(S, i, k)表示KNN算法,它接受相似性S、注释者节点i和最近邻居的数量k作为输入,并输出最接近节点i的k个节点。
值得注意的是,所有的噪声转移网络仅使用噪声训练数据来实现。邻接矩阵的构建不可避免地受到标签错误的影响。为了对邻接矩阵进行去噪,我们采用了一种图净化方法[74],即Graph-SVD[75]。Graph-SVD方法假设真实相似性图的邻接矩阵是低秩的,并相应地执行去噪程序。我们将去噪后的邻接矩阵表示为,将其归一化版本表示为。图构建的可视化结果可以在第VI-D节中看到。
利用邻近注释者改进估计:为了转移邻近注释者的知识以帮助估计注释者和实例依赖的转移矩阵,受[76]的启发,我们通过基于图卷积网络(GCN)的映射函数学习最后层的相互依赖参数。直观地说,给定一个准确的相似性图,通过GCN层,一个注释者的节点表示将与最近相似注释者的表示合并,这将引入它们之间的相互依赖。因此,通过使用这些节点表示作为个体网络的最后一层参数,这些最近相似注释者的所有数据可以一起使用来学习它们的相互依赖的AIDTM。
技术上,我们采用L层GCN来学习相互依赖的参数。设为注释者节点的特征描述,其中是第l层每个节点特征的维度。根据[77],GCN的第层接受作为输入,并更新节点特征为,即
其中是要学习的第层的参数,表示非线性操作。注意,这项工作中注释者节点的输入特征是表示每个注释者的一位有效向量的连接。借助GCN,邻近注释者的知识被合并和转移,我们可以获得最终更新的节点特征作为。通过将学习到的相互依赖权重应用于潜在实例表示,我们可以得到改进的注释者和实例依赖的转移矩阵为
其中是将实例特征x映射到潜在实例表示的函数,这些表示已通过全局噪声转移网络学习。为了学习GCN的参数,我们最小化以下经验风险:
上述技术细节和涉及的符号在图2中总结。为了帮助理解,我们在附录I中提供了一个说明性的例子,也可在线获取,GCN基础映射函数的作用的理论证明可以在第IV-B节中看到。此外,映射函数的选择可以在附录C中找到,也可在线获取。

E. 使用损失校正进行分类器训练

在上述通过知识转移学习个体噪声转移网络之后,我们可以获得注释者和实例依赖的转移矩阵。遵循前向校正[78],这是一个典型的标签噪声学习中的分类器一致性算法,我们最小化以下经验风险来优化分类网络参数
其中n是训练示例的数量,f(.)是由参数化的分类网络,旨在预测贝叶斯类别后验概率P(Y^* | X)。此外,受T-Revision[79]的启发,我们进一步调整噪声转移网络和分类器。算法1列出了提出方法的伪代码。

Ⅳ 理论证明

在本节中,我们提供理论分析,以证明我们提出方法中知识转移的作用。

A. 从全局到个体的知识转移

为了证明从全局到个体的知识转移的重要性,我们推导了有和没有知识转移的泛化误差界限。
为了方便,类似于第III-A节,设(X, , )的分布为DG,(X, , )的分布为。相应地,对于收集到的蒸馏示例,有两种观点:(1)全局蒸馏集DG,包含来自DG的mr个示例(x, , );(2)R个个体蒸馏集,其中第j个集合包含来自的mj个示例(x, , )。
设T是可学习的转移矩阵T的假设空间,使得T ∈ T。交叉熵损失函数衡量了T在单个数据点(x, , )上的性能,假设它被M上界。学习到的全局转移矩阵和第j个个体转移矩阵分别是。假设DG和关于是类别平衡的。没有知识转移的泛化误差界限:对于理论分析,我们定义转移矩阵T在所有遵循分布D的数据点上的预期损失为是相应的经验损失。我们还假设噪声转移网络有d层,参数矩阵,以及每层的激活函数。噪声转移网络的映射由表示。然后,转移矩阵T的第(i, j)个条目通过获得。
定理 1:假设权重矩阵的Frobenius范数最多为,实例x由B上界限制,即对于所有。让激活函数是1-Lipschitz的,正齐次的,并且逐元素应用(例如ReLU)。那么,对于任何,以至少的概率,
注 1:定理 1 显示了当训练一个深度分类器网络时,当来自单个注释者的训练示例数量很大时,例如,它注释了所有实例,通过最小化经验风险,学习到的转移矩阵将在具有相同噪声模式的未见测试数据上泛化得很好。然而,对于来自第i个注释者的训练示例数量很小的情况,即很小,泛化误差可能会由于深度网络的高复杂性而大幅增加,即大的d和Mi。这一分析也部分解释了为什么先前的工作采用了高度简化的模型。
有知识转移的泛化误差界限:遵循[81],让是与学习到的全局转移矩阵相关的随机假设(即,T上的分布),将全局网络微调到个体数据被视为在的假设空间上学习上的随机假设,先验为。让是关于的相应经验损失。
定理 2:假设给定学习到的全局转移矩阵和从DG估计的,可以构造具有属性:,其中是Kullback-Leibler散度,是一个非递减函数,测量从全局到个体的知识转移获得的可转移性属性。假设的经验损失很小,即。那么,对于任何,以至少的概率,
注 2:定理 2 显示了当从全局的知识转移有效时,即很小,第j个个体转移矩阵的泛化误差界限将主要取决于,这与模型的复杂性无关,使得可以从稀疏个体注释中使用深度神经网络进行建模。此外,如[81]所述,量化了必须多大,就而言,以便,其中是一个小常数。这意味着这种知识转移的效果取决于混合噪声模式和个体噪声模式有多接近。换句话说,当存在噪声模式差异很大的注释者时,混合噪声模式将远离某些个体,导致更大的,即使很小。注意,这一分析也证明了我们进一步通过邻近个体之间的知识转移改进矩阵估计的动机。

B. 邻近个体之间的知识转移

在本小节中,为了显示邻近个体之间知识转移的重要影响,我们从理论上分析了GCN基础映射函数的作用,该函数执行了知识转移。
为了简化分析,我们假设每个注释者节点在邻接矩阵中具有相同数量的邻居k,非线性函数是ReLU激活函数,表示为ReLU(),参数矩阵Wl的谱范数小于k。然后,我们有以下定理。
定理 3:GCN层可以使相似注释者的节点特征接近。
证明:不失一般性,我们关注GCN的第层,它接受注释者的节点特征和归一化邻接矩阵作为输入,并更新节点特征为。让表示的第i行,代表第l层之后注释者i的节点特征,是注释者i的邻居。
由于,我们有
因此,根据注释者i和注释者j的拓扑结构,我们可以将分为三部分:节点特征,共同邻居特征之和,以及非共同邻居特征之和
然后,我们有
因此,当注释者i和注释者j相似时,这意味着它们是彼此的邻居并且有相似的邻居(即),则.
注 3:这个定理表明,经过第层GCN后,如果两个注释者有很大的相似性,GCN将迫使它们的节点特征彼此接近。通过堆叠更多的GCN层,将合并更高阶的邻居信息,GCN基础映射函数将使相似注释者的节点特征接近。
定理 4:如果不同注释者的输入节点特征是正交的,GCN层可以保持它们的节点特征正交。
证明:遵循定理1中的符号,对于GCN的第层,有两个不同的注释者i和j,它们的输入节点特征大约是正交的,即。此外,如果相似性图是准确的,注释者i和j的邻居也是不同的,即,对于。然后我们有
其中()表示保持中相应值的列,其在()中为正,而将其他列的值设置为零;O是零矩阵。
注 4:这个定理表明,给定正交的一位有效向量作为注释者的输入节点特征,GCN基础映射函数将保持不同注释者的节点特征彼此远离,如果特征维度足够大的话。
推论 1:通过将注释者的最终节点特征用作个体噪声转移网络的最后一层参数,相似注释者的估计AIDTM将接近,而不同注释者的将彼此远离在通常情况下。
证明:根据(8),,然后。因此,根据定理3,当两个注释者相似时,经过GCN基础映射函数后,它们的节点特征接近,即,然后。同样,根据定理4,当两个注释者不同时,经过GCN基础映射函数后,它们的节点特征彼此远离,即高度不同,然后通常与高度不同。
注 5:这个推论表明,将学习到的节点特征用作个体噪声转移网络的最后一层参数可以引入学习的AIDTM之间的相互依赖,然后通过充分的训练个体噪声转移网络,邻近个体之间的知识转移将帮助相似的注释者建模其AIDTM并远离不同注释者,避免高度不同噪声模式的干扰。

Ⅴ 计算复杂度分析

首先,我们假设训练示例的数量是n,实例的平均注释数量是,类别的数量是C,注释者的数量是R,每个注释者在相似性图中的邻居数量是k,个体噪声转移网络的最后一层参数的维度是,GCN层的数量是L,分类器网络的每个实例前向传递的计算复杂度是O(T)。为了方便,我们进一步假设L = 2和第一个GCN层的节点特征维度是

根据算法1,我们的方法执行三个步骤来估计一般的AIDTM,这些步骤的时间复杂度如下:
  1. 当训练全局噪声转移网络时,由于我们使用的模型结构与分类器网络相同,除了最后一层,时间复杂度约为,其中E_1是训练周期的数量。
  2. 当通过微调最后一层来学习个体噪声转移网络时,时间复杂度约为,其中E_2是微调周期的数量。
  3. 对于邻近个体之间的知识转移,由于KNN搜索的时间复杂度是,GCN的时间复杂度是,其时间复杂度是,其中E_3是知识转移的训练周期的数量。
此外,当学习带有损失校正的深度分类器时,给定估计的AIDTM,时间复杂度约为,其中E是分类器训练周期的数量。
因此,提出方法的总体时间复杂度约为,它与训练示例的数量n成线性关系。

Ⅵ 实验

基线:为了使评估全面,我们在实验中使用了三种类型的基线。类型I基线是将所有噪声标签视为相同噪声分布的方法。类型II基线是为从人群学习而设计的无模型方法,它们不显式模拟噪声生成过程。类型III基线是为从人群学习而设计的基于模型的算法,它们通过噪声转移矩阵模拟每个注释者的噪声生成过程。具体来说,类型I基线包括CE、GCE、Forward、Reweight和BLTM。类型II基线包括DL-MV、DL-CRH、DL-MMSR和Max-MIG。类型III基线包括DL-DS、DL-IBCC、DL-EBCC、AggNet、CrowdLayer、MBEM、UnionNet和CoNAL。我们在附录B中详细描述了所有基线,也可在线获取。

A. 在模拟数据集上的评估

数据集:我们在四个模拟数据集上进行实验以验证我们方法的有效性,即Fashion-MNIST (F-MNIST)、Kuzushiji-MNIST (K-MNIST)、CIFAR10和SVHN。F-MNIST和K-MNIST有10个类别的28×28灰度图像,包括60,000个训练图像和10,000个测试图像。CIFAR10有10个类别的32×32×3图像,包括50,000个训练图像和10,000个测试图像。SVHN有10个类别的32×32×3图像,有73,257个训练图像和26,032个测试图像。对于这些数据集,我们留出10%的训练样本作为验证集。这四个数据集包含干净数据。为了模拟每个注释者的噪声标签,我们遵循[61]手动用实例依赖噪声(IDN)根据合成的实例依赖转移矩阵腐蚀训练和验证集。我们通过将它们分成3组具有相同标签噪声模式的组来在这四个数据集中生成300个注释者,这意味着每100个注释者共享相同的实例依赖转移矩阵。每个注释者随机选择实例进行标记,每个示例平均有个标签。更多细节可以在附录A中找到,也可在线获取。注意,我们在不同的个体噪声率下进行实验,“”表示生成多个注释者,其噪声率为,噪声类型为“IDN”。
实现细节:在模拟数据集上的实验中,我们对F-MNIST和K-MNIST使用了ResNet-18,对CIFAR10和SVHN使用了ResNet-34网络。噪声转移网络的架构与分类网络相同,但最后一层线性层根据转移矩阵的形状进行了修改。GCN层的数量是2。我们使用SGD,动量为0.9,批量大小为128,学习率为0.01来学习噪声转移网络。在F-MNIST、K-MNIST和CIFAR10的蒸馏示例收集的预热周期为5,SVHN为10。学习全局噪声转移网络的训练周期为F-MNIST、K-MNIST和CIFAR10的5个周期,SVHN为10个周期。微调以学习个体噪声转移网络的周期为所有数据集的2个周期,k设置为50。在邻近个体之间进行知识转移的训练周期为F-MNIST、K-MNIST和CIFAR10的10个周期,SVHN为15个周期。分类网络在所有数据集上使用SGD优化器进行60个周期的训练,初始学习率为0.01,权重衰减为1e-4,并在第40和55个周期后将学习率除以10。注意,为了公平比较,我们不在所有实验中使用任何数据增强技术,如[61]、[79]中所述。我们使用分类器在最终训练周期中实现的测试准确率进行评估。所有实验都重复了3次。报告了结果的平均值和标准差。
实验结果:表I报告了F-MNIST和K-MNIST数据集上的测试准确率,表II报告了CIFAR10和SVHN数据集上的测试准确率。总的来说,我们的方法(命名为TAIDTM)在各种噪声设置中获得了最高的平均性能。下面,我们进一步讨论基于与三种不同类型的基线的比较结果。

对于类型I基线,我们首先注意到,其中BLTM在大多数情况下获得了有竞争力的分类性能,这清楚地说明了显式模拟实例依赖噪声模式的必要性。此外,我们比较了我们的TAIDTM和BLTM。不考虑注释者的差异,TAIDTM将简化为BLTM。正如所报告的性能所示,TAIDTM的表现明显优于BLTM,随着噪声率的增加,TAIDTM的优越性逐渐显现。具体来说,在AIDN-50%的F-MNIST和KMNIST数据集上,TAIDTM分别带来了+8.52%和+3.87%的改进。此外,在AIDN-50%的CIFAR10和SVHN数据集上,TAIDTM分别带来了+16.67%和+13.89%的改进。
对于类型II基线,我们可以看到,尽管DL-CRH、DL-MMSR和Max-MIG通过考虑注释者的不同可靠性与DL-MV相比实现了改进,DL-MV简单地假设所有注释者具有相同的标记准确性,它们无法很好地处理不同的实例依赖噪声注释者。与它们相比,我们的TAIDTM在各种噪声率下始终表现更好,特别是对于高噪声率的情况。
对于类型III基线,这些方法中没有一个能在所有四个数据集上的各种情况下整体表现更好。除了CoNAL之外,它们的假设是噪声生成是注释者依赖的但与实例无关,在面对实例依赖标签噪声时无法得到满足,因此它们的性能无法得到保证。对于CoNAL,它将注释噪声分解为共同噪声和个体噪声,可以被视为估计一种特殊的AIDTM,其中所有注释者共享一个噪声模式。然而,在现实世界的复杂数据中,不同的噪声模式可能被不同的注释者共享。与这些方法相比,我们的方法假设各种噪声模式在类似的注释者之间共享,并且利用深度网络来显式模拟这种一般的标签噪声,从而获得更好的平均性能。

B. 在真实世界数据集上的评估

数据集:我们在三个真实世界数据集上进行实验以验证我们方法的有效性,即LabelMe、Music和CIFAR10-N。LabelMe是一个真实世界的8类图像分类数据集。它由2,688个图像组成,其中1,000个用于从亚马逊机械土耳其获得平均每个图像2.5个注释者(总共59个注释者)的噪声标签。500个图像用于验证,1108个图像用于测试。我们遵循[58]中的图像预处理方法。Music是一个音乐流派分类数据集,由1,000个来自10个音乐流派的30秒长歌曲示例组成,其中700个被亚马逊机械土耳其注释者标记,其余用于测试。每个示例由平均4.2个注释者标记。CIFAR10-N是CIFAR10的一个变体,具有来自亚马逊机械土耳其的真实世界人类注释的噪声标签。每个示例由3个注释者(总共747个注释者)标记。留出10%的训练图像用于验证。使用原始CIFAR10数据集的测试图像进行测试。
实现细节:对于LabelMe,我们应用了一个预训练的VGG-16网络,后接一个具有128个单元的FC层、ReLU激活和softmax输出层。GCN层的数量是1。对于Music,我们使用与LabelMe相同的FC层和softmax层,其中执行了批量归一化。GCN层的数量是2。我们使用SGD,动量为0.9,批量大小为128,学习率为0.01来学习噪声转移和分类网络。LabelMe的预热周期为10,Music为50。学习全局噪声转移网络的训练周期为LabelMe的10个周期和Music的20个周期。微调周期和k设置为1。在邻近个体之间进行知识转移的训练周期为LabelMe的2个周期和Music的40个周期。在带有损失校正的学习分类器网络的训练周期为50。对于CIFAR10-N,我们使用了与模拟CIFAR-10数据集相同的网络和超参数。我们使用分类器在最终训练周期中实现的测试准确率进行评估。CIFAR10-N上的实验重复了3次,LabelMe和Music重复了50次。
实验结果:表III报告了LabelMe、Music和CIFAR10-N数据集上的测试准确率。我们首先可以发现,我们的TAIDTM在所有真实世界数据集上都比基于模型的从人群学习方法表现更好。其次,TAIDTM在LabelMe和CIFAR10-N数据集上获得了最佳结果。特别是在LabelMe数据集上,它不仅比第二好的结果提高了+1.05%,而且比所有从人群学习基线高出一大截(至少+1.85%)。这些结果证明了我们的TAIDTM可以有效处理真实世界的标签噪声。

C. 消融研究

知识转移的作用:我们的方法有两个知识转移,两者在实践中估计一般AIDTM中都发挥了重要作用。首先,我们将全局噪声转移网络转移到个体噪声转移网络,这解决了稀疏个体注释无法训练高复杂度神经网络的问题。其次,我们通过GCN基础映射函数在邻近个体之间转移知识,这解决了从混合噪声模式到个体的转移可能导致两个噪声生成差异很大的注释者相互干扰的问题。因此,如果没有第一个知识转移,TAIDTM将简化为BLTM,它训练一个注释者的实例依赖转移矩阵。如果没有第二个知识转移,我们的TAIDTM将退化为TAIDTM-FT,它通过微调学习个体噪声转移网络。在这里,我们进行实验比较我们的方法与BLTM和TAIDTM-FT。如表IV所示,借助第一次转移,TAIDTM-FT可以在大多数情况下提高BLTM的性能。由于第二次知识转移,TAIDTM始终优于BLTM和TAIDTM-FT。

注释稀疏性的影响:为了研究注释稀疏性的影响,我们在CIFAR10数据集上进行了AIDN-40%标签噪声下的实验,该数据集具有不同的实例平均注释数量。如图3(a)所示,我们可以看到所有方法的性能随着注释数量的增加而提高,我们的TAIDTM在各种稀疏情况下与其他方法相比具有更好或有竞争力的性能。此外,尽管所有方法的性能随着注释稀疏性的增加而降低,我们的TAIDTM的优越性在注释更稀疏时变得更加显著。此外,图3(a)中TAIDTM和TAIDTM-FT之间的差距表明,通过邻近个体之间的知识转移,特别是在高度稀疏的情况下,取得了显著的改进。

注释者相关性的影响:为了研究注释者相关性的影响,我们在CIFAR10数据集上进行了AIDN-40%标签噪声下的实验,该数据集具有不同数量的注释者组,其中注释者共享相同的实例依赖转移矩阵。注释者组越多,注释者相关性越少。如图3(b)所示,我们首先可以发现,随着注释者相关性的降低,一些类型I基线(例如,Forward和BLTM)的性能也明显降低,因为这些方法模拟了来自一个来源的所有噪声标签。其次,由于TAIDTM可以有效地通过识别和转移它们共享的实例依赖噪声模式来模拟注释者之间的相关性,它始终优于所有基线,这清楚地证明了注释者和实例依赖建模的有效性。此外,消融研究关于映射函数的选择,相似性测量的选择以及超参数k的敏感性可以在附录E中找到,也可在线获取。

D. 可视化结果

如图4所示,我们使用PCA算法降低了最后一层参数的维度,可视化了在不同的超参数k下构建相似性图的过程,其中每个数据点代表一个注释者,颜色相同的数据点意味着它们具有相同的实例依赖噪声转移矩阵。两个点之间的边表示它们是相邻的。从可视化中,我们首先可以发现所有具有相同噪声模式的注释者将在所提出的相似性空间中形成一个簇,表明不同个体网络的最后一层参数的相似性可以很好地测量注释者相似性。其次,我们可以看到构建相似性图对k是鲁棒的。当k小于100时,大多数邻近注释者是相似注释者,只有当k大于100时,图将变得非常不准确,因为许多不相似的注释者将被视为最近邻居。此外,通过应用图净化方法[75],图将被去噪,提高了其鲁棒性。此外,为了进一步展示构建相似性图的有效性,我们也在不同数量的注释者组下可视化了相似性图。如图4最后两行所示,所提出的方法可以在各种注释者相关性下很好地处理注释者之间的相似性度量。注意,为了在面对大组时使相似性图更准确,我们在不同数量的注释者组下的实验中设置了k = 30。

Ⅶ 结论

在本文中,我们研究了一个有价值的从人群学习的问题,即在实践中估计一般的注释者和实例依赖的转移矩阵。为了解决注释稀疏性问题,我们假设每个注释者与其相似的注释者共享其噪声模式,并提出通过知识转移来估计注释者和实例依赖的转移矩阵。理论分析证明了从全局到个体的知识转移以及邻近个体之间的知识转移的作用。在模拟和真实世界的众包数据集上的实证结果清楚地验证了所提出估计器的优越性。将来,我们有兴趣将我们的方法扩展到更多的场景,例如鲁棒图像分割和基础模型的数据清洗。

机器学习算法那些事
号主是大厂人工智能专家,专注于机器学习,深度学习以及计算机视觉等研究方向,每天会更新人工智能最前沿知识和分享自己的论文总结和学习笔记,让你系统化的学习每个知识点,每天进步一点点。
 最新文章