IJCV 2024 | 动态原型学习用于视觉模式去偏见

文摘   2024-07-21 19:00   中国香港  

点击上方“CVPaper”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

Learning Dynamic Prototypes for Visual Pattern Debiasing

动态原型学习用于视觉模式去偏见

Kongming Liang;Zijin Yin;Min Min;Yan Liu;Zhanyu Ma;Jun Guo

代码:https://github.com/zijinY/dynamic-prototype-debiasing


摘要

深度学习在学术基准测试中取得了巨大成功,但由于潜在的数据集偏差,未能在现实世界中有效工作。当前的学习方法倾向于继承甚至放大训练数据集中存在的偏差,并不足以代表特定的人群群体。最近,一些数据集去偏见方法已经开发出来,这些方法基于对受保护或敏感属性标签的认识来解决上述挑战。然而,受保护或敏感属性的数量可能相当大,获取足够的手动注释既费力又成本高昂。为此,我们提出了一种基于原型的网络,以动态平衡给定数据集中不同子组的学习。首先,提出了一种对象模式嵌入机制,使网络专注于前景区域。然后,我们设计了一种原型学习方法,以无监督的方式从训练数据中发现和提取视觉模式。原型的数量根据特征空间中的模式结构动态变化。我们使用三种广泛使用的息肉分割数据集对所提出的基于原型的网络进行了评估,并进行了丰富的定性和定量实验。实验结果表明,我们提出的方法在有效性和公平性指标方面都优于基于CNN和基于transformer的最先进方法。此外,进行了广泛的消融研究,以显示每个提出组件的有效性和各种参数值。最后,我们分析了原型数量在训练过程中的增长情况,并可视化了每个学习到的原型的相关子组。代码和数据将在 https://github.com/zijinY/dynamic-prototype-debiasing 上发布。

关键词:数据集偏差 · 算法公平性 · 医学图像分析 · 多样性 · 息肉分割

1 引言

基于深度学习的模型在计算机视觉方面取得了巨大成功,已成为现代系统(如面部分析、医学成像和自动驾驶)不可或缺的一部分。然而,所有应用中的一个实际挑战是模型可能存在偏见,因为它过度依赖训练数据集进行训练,并倾向于继承数据的不平衡。通常,偏差问题被定义为一个或多个外部受保护或敏感属性,这些属性扭曲了输入和输出之间的关系,从而导致错误的结论。从面部识别到医学成像分析,数据偏差可以很容易地受到不同类型属性(例如种族、性别和年龄)的偏斜分布的影响,并分散模型学习实际辨别线索的注意力。特别是,Buolamwini和Gebru发现,基于视频的性别分类模型因训练集中黑人人口代表性不足而对不同种族群体的表现不同。在医疗保健应用中,Seyyed-Kalantari等人进行的研究中检查了胸部X线病理分类中的偏差。这些研究表明,按性别、种族、保险和年龄定义的受保护群体之间存在诊断差异。这在一定程度上可以反映算法如何被当前评估指标过度优化,但忽略了公平性和多样性等属性。

为了对抗基于深度学习的模型中的偏差,许多研究致力于评估和减少数据集偏差。通常,这些方法可以分为三类:预处理、内处理和后处理。预处理技术解决数据本身的问题。例如,特定受保护变量的分布具有歧视性和不平衡性。这些方法倾向于在模型训练之前转换数据,以便消除或减轻潜在的歧视。内处理技术在训练过程中解决问题。它们倾向于修改学习算法,例如平衡准确性和公平性的多个优化目标。后处理技术通常在训练过程后减轻算法输出的偏差。它们倾向于对模型预测进行转换,以减轻对特定敏感属性的歧视。虽然大量研究表明处理分类偏差具有巨大潜力,但很少有工作集中在分割偏差上。在心脏MR分割中,Puyol-Antón等人发现由于训练数据中种族不平衡,分割准确性存在显著的种族偏见。在大脑MR分割中,Ioannou等人发现模型性能中存在显著的性别和种族偏见效应,并且偏见具有强烈的空间组成部分,有些大脑区域的偏见比其他区域更强。在皮肤分割中,Xu等人提出通过颜色空间增强学习颜色不变特征,因为训练数据集明显偏向较浅的肤色。以前的分割去偏见工作主要集中在数据集的人口多样性(例如性别、年龄、肤色),如图1a、b所示。与它们相比,我们认为分割偏差的直接原因是视觉模式多样性,如图1c所示。由于深度学习模型在训练过程中倾向于捕捉主要视觉模式并忽略少数,它们可能会对不同视觉模式产生有偏见的分割结果,进而失去鲁棒性和泛化能力。因此,视觉模式的不平衡导致模型对不同样本的表示能力不平等。一个可能的解决方案是通过注释所有类型的视图模式,并通过更多地强调较小的模式来平衡学习过程。然而,视觉模式的定义是多种多样的,远不止人口多样性。例如,以前的工作收集了18个信息丰富的视觉属性(例如,有色眼睛、多毛、有图案)来分析深度网络的鲁棒性和可解释性。Du等人和Xu等人使用六种专门的皮肤亚型来衡量皮肤科神经网络的偏见。随着受保护或敏感属性的数量增加,获取所有视觉模式的手动注释尤其费力且成本高昂,特别是在医学图像分析中,只有医生才能完成这项工作。在这项工作中,我们试图回答一个问题:一个模型能否在没有相应受保护属性意识的情况下自动平衡不同视觉模式的学习?为此,我们提出了一个新颖的基于原型的框架,它可以自适应地发现和提取整个训练数据集中包含的多样化视觉模式,以增强大多数和少数样本的表示能力。特定的原型被构建来以动态方式存储不同视觉模式的知识。给定一个输入样本,我们首先计算它与所有原型的相似性。如果相似性的最大值高于预定义的阈值,输入样本将被归类为相应的知识,并进一步用于更新其最近的原型。否则,输入样本的表示将被视为未知模式,并被分配构建一个新的原型。通过这种方式,学到的原型可以聚合类似视觉模式的表示,并保持大量多样化的视觉模式。对于模型推理,我们通过一个精心设计的关注机制,用学到的原型增强输入样本的表示,以增加所有视觉模式的辨别能力。为了评估所提出的框架,我们在结肠镜图像中的息肉分割上进行了广泛的实验。所有息肉图像都根据巴黎分类尺度被划分为不同的子组。子组上的分割差异被用作公平性评估指标。图2显示了PICCOLO数据集中子组的不平衡分布。本文的主要贡献可以总结如下:

  1. 我们以无监督的方式研究了图像分割的数据集偏差。与以前的工作不同,受保护或敏感属性的标签在模型训练期间不需要,但仅在模型评估时需要。

  2. 提出了一种新颖的基于原型的框架,用于发现和提取与受保护或敏感属性相关的视觉模式。学到的原型可以动态平衡大多数和少数子组的学习。

  3. 通过在有效性和公平性方面的全面实验,我们展示了我们的模型优于其他去偏见方法的优越性。此外,进行了广泛的消融研究,以显示每个提出的组件和各种参数值的有效性。

  4. 我们首次提出使用公平性指标对息肉分割评估进行评估。公平性指标能够衡量模型在每种息肉亚型上的性能,并为算法的漏诊提供更多的解释。实验结果表明,所提出的框架可以比现有的最先进模型更有效地减少数据集偏差。

2 相关工作

2.1 公平性和去偏见

在决策的背景下,公平性被定义为在基于个人固有或获得的特征对个人或群体没有偏见或偏袒。在Verma和Rubin中,作者研究了算法二元分类问题的公平性分类。有许多公平性定义,它们彼此不兼容。三个最常见的公平性是(1)等化几率,(2)等化机会和(3)统计平等。由Hardt等人提供的等化几率表明预测满足:
其中是受保护的属性,是标签。这意味着不同的受保护群体应该具有相等的真正例和假正例的概率。等化机会是一个放松的概念:
它只要求不同受保护群体之间的真正例相等。统计平等,也称为人口统计平等,定义为确保预测标签与受保护属性之间独立,正式地:
为了使机器学习模型去偏见并实现群体公平性,已经开发了大量方法。通常,它们可以分为以下三类:预处理技术解决数据本身的问题,例如特定敏感或受保护变量的分布是有偏见的、歧视性的和不平衡的。它们倾向于在训练之前转换数据,以便消除或减轻潜在的歧视。例如,Feng等人采用对抗学习捕获数据分布,并生成公平的潜在表示,以确保不同受保护群体之间的分布等价。Calmon等人提出学习一种具有三个优化目标的数据转换:控制歧视、限制个体失真和保留效用。内处理技术在训练过程中解决问题。它们倾向于修改学习算法,例如,将准确性和公平性的多个优化目标结合起来。例如,Hong和Yang设计了一个加权对比损失,将具有相同目标类别但具有不同偏见特征的一对拉近。Tartaglione等人提出了一个正则化项,其目的是正则化深度特征,防止深度模型学习不必要的偏见。上述两项工作都试图解开偏见和目标之间的相关性。后处理技术在训练过程后减轻输出偏差。它们倾向于对模型预测进行转换,以减轻对特定敏感属性的歧视。它们可以附加到任何模型的末尾,只需要访问预测和敏感属性,这使它们灵活且适用于黑盒应用。例如,Chiappa提出纠正受敏感属性不利影响的观察结果,以形成新的预测。然而,所有先前的工作都集中在二元分类设置中的群体公平定义上,该定义被指定为条件独立性陈述。与它们相反,我们的工作寻求在分割任务中研究公平性。

2.2 医学成像中的公平性

随着深度学习模型越来越多地集成到医学成像中,一个主要的担忧是这些算法是否以道德和公平的方式被使用。大多数以前的工作集中在医学成像分类中的公平问题。Seyyed-Kalantari等人展示了在三个公开可用的胸部X线病理分类数据集上,按性别、种族、保险和年龄定义的受保护群体之间在算法漏诊方面的不平等。Seyyed-Kalantari等人指出,分类器被发现一贯地并且有选择性地放大对训练集中代表性不足的患者群体的现有偏见。这些影响在交叉子群体上更糟糕,例如黑人女性,并且在三个大型和多源胸部X线数据集上持续存在。Zhang等人在胸部X线图像分类任务上对几种去偏见模型进行了基准测试,重点关注群体公平性和最小化公平性。Petersen等人评估了在MRI基础的阿尔茨海默病分类中训练模型在面对不同的数据集分割、性别组成和疾病阶段时的鲁棒性。他们发现,对于男性和女性测试对象,深度网络的表现强烈依赖于训练集中的性别比例,而传统的线性回归方法对这种变化是鲁棒的。Du等人研究了与人口统计因素无关的敏感属性上的偏见问题。他们使用对比学习在皮肤科分类中减轻不同皮肤类型上的性能差异。最近,一些研究人员研究了医学成像分割领域的群体公平性。这些工作研究了对不同种族和性别群体的偏见。Puyol-Antón等人对心脏MR图像数据集上的种族和性别群体的分割表现进行了广泛的实验。他们是第一个展示深度学习基础分割模型中存在种族偏见的人。同样,Lee等人研究了数据不平衡对心脏MR分割中种族和性别偏见的影响。Ioannou等人在大脑MR分割任务中使用不同水平的白人受试者的性别不平衡进行了多次试验。他们发现,分割模型中存在显著的性别和种族偏见,这些偏见具有强烈的空间组成部分,有些大脑区域的偏见比其他区域更强。此外,Puyol-Antón等人提出了三个去偏见基线,这些基线受到分类中公平性文献中工作的启发。然而,以前的工作致力于以人口统计因素(例如性别和种族)衡量群体公平性,但忽略了与感兴趣对象相关的其他属性(例如病理学和形态学)。在我们的工作中,我们专注于以病变形态属性为界的群体公平性。

2.3 息肉分割

早期的自动化息肉分割解决方案主要基于低级特征,例如纹理、几何特征和超像素。但由于这些传统手工制作的特征的表示能力差,它们远非令人满意。近年来,深度学习技术的发展极大地推动了息肉分割的进步。Akbari等人采用全卷积神经网络解决息肉分割问题,他们的结果明显优于传统工作。编码器-解码器架构,如U-Net、U-Net++和ResUNet++在这一领域展示了他们的卓越性能。几项工作试图采用辅助任务或约束来促进表示学习。Murugesan等人提出了一个多任务学习框架,利用距离估计和边界预测任务来协助息肉分割掩模预测。同样,Fang等人使用面积和边界作为约束来指导更好的特征表示学习。ACSNet在解码器中结合全局上下文和局部细节,以处理息肉的形状和大小变化。PraNet聚合多尺度特征,并根据局部特征提取轮廓。SCRNet设计了语义校准和细化模块,以弥合不同特征图之间的语义差距。Cheng等人专注于预测的轮廓精度,因为息肉和周围环境之间的边界模糊,他们通过计算每个像素的八个方向导数来细化边界。在Zhao等人中,作者提出了一个多尺度减法网络,以消除传统编码器-解码器架构中多尺度特征之间的冗余和互补信息。Zhang等人设计了一个动态内核机制,使用全局上下文特征生成分割头,并通过提取的病变特征进行迭代更新。最近的视觉transformer技术)显著提升了息肉分割任务的发展。Wang等人使用金字塔Transformer编码器来提高泛化能力。Dong等人考虑到不同级别特征之间的贡献差异,并设计了一种有效的机制,在transformer架构中融合它们。TransFuse聚合卷积网络与transformer以获得更具辨别力的特征表示。然而,上述以前的工作主要关注于更高的性能,例如Dice相似度得分。人们越来越有兴趣超越单纯的性能,通过测量和解决深度学习方法的鲁棒性、公平性、可解释性和泛化方面。据我们所知,我们的工作是第一个探索结肠镜息肉分割中更有价值的指标。

2.4 原型学习

原型,也称为代理或中心,是训练示例中一类的代表。与决策中的softmax权重相反,原型)旨在学习一个潜在的特征空间,其中预测是通过计算测试锚点和每个类别的原型之间的距离来做出的。原型学习已被证明在数据稀缺范式上更加稳健,例如少样本学习、开放集识别、增量学习和对象类别发现。Arik和Pfster提供了一个可解释的模型,该模型基于相关原型做出决策。Zhou等人提出了一种基于不可学习原型的非参数替代方案,在语义分割中。该模型将每个类别表示为一组原型,依赖于该类别内几个训练像素的平均特征。与构建基于实例的原型不同,在Chen等人中,作者将图像分割为部分,并为每个对象类别的部分设计原型,然后通过组合来自部分原型的证据进行分类。Kim等人在通过利用原型作为指导的人重新识别中呈现了一种注意力机制。Kwon等人提出了一个基于原型的框架,使用对比学习来学习区分性表示,使得同一类别内的特征彼此靠近,而不同类别的特征相距较远。在领域适应领域,Yue等人利用原型执行跨领域实例到原型匹配,将知识从源域转移到目标域。此外,Rambhatla等人提出了一个统一框架,通过原型迭代记忆过去样本,并使用原型发现新对象。在这项工作中,我们展示了原型学习的去偏见能力。所提出的框架可以自适应地更新已知原型,并在没有相应敏感属性标签的情况下发现未知或异常原型。我们的更新范式与Kim等人类似,因为两种方法都考虑了原型的硬负样本以增加原型的辨别能力。关键的区别在于他们的方法在完全监督的方式下工作,具有固定数量的初始化原型,而我们设计了一种无监督方式更新原型,并且原型的数量是动态的,取决于遇到的样本。

3 模式偏差

在本节中,我们首先介绍在MR心脏和大脑分割任务中先前研究的统计偏差,然后我们概述了息肉分割中的模式偏差问题。最后,我们进行了实证研究,以进一步调查息肉分割任务中偏差问题的原因。

3.1 初步

深度学习技术在医学图像分割应用中取得了显著的性能。然而,初步工作表明,对于大脑和心脏MR分割任务,当在不平衡的数据集上训练时,深度学习模型对不同人群群体表现出不一致的结果。众所周知,大脑的结构和解剖学在不同人群群体之间有所不同。心脏结构的情况也是如此。基于上述因素,先前的发现表明,器官和病变的结构的视觉变化与不平衡分布相结合,导致分割性能的统计偏差。此外,Du等人已经证明,除了人口统计因素之外的其他受保护属性(例如视觉皮肤类型)可以引起偏见预测。

3.2 息肉模式偏差

基于上述结论,我们认为统计偏差不仅存在于人口统计学(例如性别和种族)中,还存在于可以直接影响对象视觉模式的属性中。因此,我们推测算法可能对特定视觉模式表现出性能差异,因为它们通常在数据集中分布不均匀。然而,视觉模式的定义在不同的成像领域和任务中是多样化和可变的。在息肉分割中,巴黎分类是食管、胃和结肠表面肿瘤性病变内窥镜分类的黄金标准。它通过描述食管、胃和结肠中表面肿瘤性息肉的形态,将息肉分为不同的亚型。在这里,我们使用巴黎分类作为划分标准来进行所有随后的实验研究。

3.3 实证研究

我们进行了实证研究,以进一步证明上述关于息肉分割任务中偏差原因的推测,基于最近发布的数据集PICCOLO(更多细节见第5节)。根据巴黎分类标准,我们将训练数据划分为六个亚型。数据分布严重不平衡,如图2所示。按照长尾和不平衡学习的数据集设置,我们通过改变不平衡因子(IF,最大亚型样本数量与最小亚型的比率)来重建一个不平衡的训练集和一个平衡的验证集。最大亚型的样本数量保持不变,其他亚型的样本数量根据IF值指数重新采样。所有亚型的分布如图3所示。然后,我们评估了不平衡因子对标准U-Net模型在所有亚型上性能的影响。标准偏差和不同不平衡因子下不同亚型的详细分割精度的实验结果如图3所示。从结果中,我们可以得出几个重要观察结果。首先,随着不平衡因子的增加,亚型的偏差增加,这表明分割差异的严重程度在增加。其次,当减少样本数量时,一些少数亚型(ID = 3和5)的分割精度急剧下降,而大多数亚型的性能相对稳定。第三,亚型的分割性能与其样本大小之间没有严格的正相关。例如,即使亚型ID = 2的样本数量远少于亚型ID = 1,其性能也远大于亚型ID = 1。平衡设置的结果也支持了这一结论,它对亚型ID = 2有相当的偏差。这种现象可能是由亚型的复杂视觉模式引起的,例如其内部变化远小于其他亚型。总之,我们可以看到在不同亚型的不平衡分布下性能存在显著偏差。构建一个完全平衡的数据集似乎是一个有希望的方法来追求模型的公平性。然而,这很费力,因为一些少数群体在正常场景中自然稀缺,特别是在临床应用中。此外,为了减轻不平衡数据集中的统计差异问题,收集对象的相应受保护属性对专家来说很耗时。因此,构建能够不依赖额外注释进行公平预测的自动化模型非常重要。

4 方法

由于每个子组的视觉模式不同,当前算法倾向于在具有更常见视觉模式的主体中表现良好,在具有罕见模式的主体中表现不佳。因此,我们的目标是利用原型来发现和提取主要和次要子组中对象的不同视觉模式。所提出的基于原型的框架通过聚合相似的对象模式并分离不同的对象模式逐渐学习原型。存储的原型进一步用于增强特征的代表性。特别是,网络采用输入图像并从对象特征表示中提取视觉模式。我们自适应地模拟不同视觉模式之间的相似性,并同时执行两个操作:(1)发现未知模式和(2)更新已知模式。最后,我们通过采用精心设计的关注机制,将原型推断作为输入来增强它们的语义表示和辨别能力。本节的其余部分结构如下。在第4.2节中,我们描述了基础分割架构。在第4.3节中,我们介绍了如何从整个图像中提取对象的视觉模式。原型学习过程在第4.4节中介绍,原型推断在第4.5节中介绍。最后,我们在第4.6节中描述了损失函数。所提出框架的概述如图4所示。

4.2 基础架构

对于一组输入图像X和相应的分割掩模Y,我们的目标是为属于前景区域的像素分配标签。我们采用传统的UNet作为网络骨干,它由编码器E = {e1(·), e2(·), ..., e5(·)}和解码器D = {d1(·), d2(·), ..., d5(·)}组成。给定从X中采样的输入图像,第k个编码器阶段提取的特征表示可以表示为,其中是通道数,分别是特征的高度和宽度。为了清晰起见,我们在后续章节中省略了k的表示。我们在最后一个编码块之后串联了所提出的基于原型的框架,以发现对象的全局语义,因为最后一个编码块包含更多的高级语义信息和更少的空间细节。

4.3 对象模式提取

深度特征表示在像素级粒度上描绘了对象与背景之间的差异(Fu et al., 2019; Huang et al., 2019)。然而,具有空间细节的像素级特征无法对整个对象的视觉模式进行建模。我们认为特征表示可以在压缩的对象级粒度上表征不同子组对象之间的差异。因此,我们利用学习对象模式嵌入,以真实标注为监督,以促进后续程序。对象模式提取表示为。对于给定的编码特征,我们首先设计一个转换函数,由conv(3x3) → BN → ReLU → dropout → conv(1x1) → Sigmoid实现,以计算粗略分割图,该图指示每个像素属于对象区域的概率。然后按以下方式计算对象模式嵌入f:
其中是逐元素乘法,GAP表示全局平均池化。通过这样的操作,我们提取了对象的全局模式信息,并通过抑制可能的背景噪声来提高对象区域内的语义一致性。然后我们介绍我们提出的基于原型框架的每个组件的详细信息。

4.4 原型学习

我们提出了一种新颖的原型学习方法,以无监督的方式自适应地聚合相似的视觉模式并分离不同的视觉模式。相似的视觉模式将被分配到同一个原型中。少数子组中的罕见模式将存储在一个独特的原型中。因此,我们可以提高多数和少数的代表性能力,从而减轻偏差问题。
原型表示为一组对象模式嵌入在时间t ∈ {1, ..., T}。我们的方法同时执行两个操作:1)未知模式发现:根据现有原型发现对象的未知(也可以视为“不相似”)视觉模式,2)已知模式更新:使用相似的对象更新存储在现有原型中的已知模式。

4.4.1 未知模式发现

具体来说,给定获得的对象模式嵌入f,我们首先通过计算它们与当前原型之间的相关性来建立关联。软权重是使用余弦相似性计算的,如下所示:
其中中第i个原型在时间步t。权重表示对象模式嵌入与现有原型之间的相关性。阈值用于确定对象是否具有与原型相似或不相似的视觉模式。如果,其中通常设置为0.5,对象f被认为是现有原型的异常值,这意味着当前存储在现有原型中的知识对当前视觉模式是未知的。这种情况促使我们使用对象模式嵌入的内容初始化一个新的原型。因此,时间步t + 1的原型的新状态表示为:
其中对于

4.4.2 已知模式更新

一方面,我们从即将到来的训练数据中发现对象的新视觉概念;另一方面,我们也通过整合相似的对象模式嵌入,连续更新和丰富存储在原型中的已知视觉知识。具体来说,如果,特征嵌入f与现有原型匹配,这意味着对象的视觉外观对当前知识是已知的。在这种情况下,我们可以通过聚合其先前状态和当前对象模式嵌入来更新匹配的原型。然后我们详细介绍了传统的朴素原型更新机制和我们提出的自适应动量更新。

初步

我们首先需要确定哪个原型与当前对象模式嵌入f最相关:
使用指数移动平均的直接方法来更新原型的内容如下:
其中是更新动量,表征原型在潜在空间中调整距离的幅度。它通常设置为一个相对较大的值,例如0.9,方程(5)中的原型的权重远大于对象模式嵌入f,这表明的调整距离远小于f。因此,原型在嵌入空间中的分布通过在线更新原型而连续变化。此操作允许内容保留在相应的原型中,同时逐步擦除旧的或不相关的信息,因此可以稳定长期知识的记忆和更新。原型之间的可分性与不同对象模式嵌入的辨别力相关。然而,在硬负场景中,我们认为传统的更新机制阻碍了原型之间辨别力的学习。

自适应动量更新

因此,我们提出了一种新颖的自适应动量更新机制,考虑到原型和输入数据的结构信息。具体来说,对于涉及更新过程的原型,我们首先通过余弦相似性确定其最硬的负样本:
当原型与其硬负样本比与对象模式嵌入f更相似时,f在更新过程中的权重应该比更大。因此,我们定义我们的自适应动量更新过程如下:
其中分别表示对象模式嵌入f与原型之间的相似性,由方程(2)计算。

4.5 原型推断

从原型中检索适当和相关的知识,并将其整合以增强目标特征的表示,特别是对于少数案例,是至关重要的。传统的注意力机制(Fu et al., 2019; Wang et al., 2020; Yuan et al., 2020)实现了逐像素粒度的自适应空间突出显示特征。但原型应该拥有完整对象视觉模式的概念知识,而没有空间细节。因此,我们提出将全局原型整合到特征表示的空间细节中。

4.5.1 上下文编码

具体来说,我们首先使用目标特征f的空间内容预处理原型:
其中,×是矩阵乘法,分别是1x1的两个卷积层,σ1(·)和σ2(·)表示张量重塑操作符。A描述了每个像素特征的原型编码关联。然后,我们需要计算f'和所有原型之间的相似性系数:
因此,E表示由学习到的原型所包含的知识与目标特征之间的上下文信息。

4.5.2 特征增强

然后我们需要选择有用的上下文语义来增强f'的表示能力。我们利用全局最大池化层ε(·)来识别E中最重要的上下文:
因此,e ∈ RC反映了目标特征与最相关的原型之间的语义相关性。我们通过组合来增强特征表示:
其中⊙表示逐元素乘法。此操作允许将来自外部原型的最相似知识整合到特征中。对于具有罕见视觉模式的少数亚型,召回的类似概念知识增加了特征的代表性,并因此减轻了偏差问题。

4.6 损失函数

我们采用深度监督策略,对解码器分支的三个中间图进行联合优化,以优化模型参数。此外,粗略分割图s由通过下采样真实分割掩模获得的监督指导。类似于以前的研究(Fan et al., 2020),我们采用加权二元交叉熵损失和Dice损失的组合作为总损失函数:
在加权二元交叉熵损失中,每个像素(i,j)将根据中心像素及其周围环境之间的差异分配权重:
其中是目标像素周围的区域,是真实标签。因此,像边界这样的硬像素对应更大的权重,在训练期间得到更多关注。相比之下,像内部区域这样的简单像素将被分配较小的权重。因此,加权二元交叉熵损失如下所示:
其中是超参数,是像素位置(i,j)的预测,是像素(i,j)的二元交叉熵函数:
Dice损失计算如下:
可以更好地比较预测和真实之间的结构相似性。因此,我们的策略可以考虑像素级和区域级测量。

5 实验

在这一部分,我们从分割准确性和公平性两个角度对我们的方法进行了广泛的实验评估。我们进行了消融研究,以验证每个组件的有效性,并探索各种参数值的影响。此外,我们进一步讨论揭示原型的内在属性,并验证我们的设计理念。

5.1 数据集

为了广泛验证我们方法在分割公平性方面的有效性,我们在结肠镜息肉分割和皮肤科皮肤病变分割的医学成像领域中进行了实验:
  • Kvasir-SEG由经验丰富的内窥镜医师验证的图像和注释组成,包括显示GI道中的解剖标志、病理发现或内窥镜程序的几个类别。
  • EndoScene是结肠镜息肉二元分割的广泛使用的基准。
  • PICCOLO是最近发布的用于结肠镜息肉分割的数据集。
  • ISIC-2017是皮肤科皮肤病变二元分割的广泛使用的基准。

5.2 实验设置

5.2.1 对比方法

按照先前研究的实验设置,我们采用三种医学图像分割方法,即UNet、UNet++和ResUNet++作为基线比较。在息肉分割任务中,采用几种最先进的框架,即PraNet、ACSNet、SCRNet、SANet、CCBANet和MSNet作为强对比方法。最近的视觉transformer在医学图像分割中展示了有希望的性能,因此我们进一步包括两个基于transformer的框架,即Swin Transformer和TransFuse进行更全面的比较。在皮肤病变分割任务中,采用几种竞争方法,即MedT、UNext和FATNet作为强对比方法。按照先前工作的实验设计,我们采用四种去偏见算法来检查不同息肉亚型上分割准确性的公平性:
  • 组平衡加权(GBW):意识到受保护属性,该策略旨在通过调整个别样本的损失权重来确保损失计算中不同组的平衡。具体来说,根据训练数据中组的分布频率,大多数组被分配较小的权重,而少数组被分配较大的权重。
  • 组平衡采样(GBS):意识到受保护属性,该策略旨在通过调整采样策略来平衡组的分布。对于每个小批量,根据受保护属性(即巴黎分类)重新采样数据,选择个体以确保每个受保护组都有平等的代表性。
  • 属性感知元学习(AML):这种策略最初由Dwork等人提出,包括为不同敏感属性训练的单独网络或分支。它在面部表情识别中用于偏见缓解。在我们的实验中,我们使用共享编码器和单独的解码器来执行对象分割和受保护属性分类。
  • 分层组模型(SGM):与上述两种方法不同,该策略假定受保护属性在推理和训练时都是可访问的。它为每个组应用独立的分割模型。我们最初使用不平衡的完整训练数据训练普通的U-Net,然后使用受保护组的样本微调单独的模型。
与上述去偏见方法相比,我们的方法在训练期间不需要受保护属性的任何监督。为了公平比较,我们使用相同的U-Net架构实现上述方法。

5.2.2 评估指标

所有方法的性能从三个方面进行评估:有效性,它识别整体分割准确性;公平性,它衡量不同子组上的分割差异;权衡,它结合了有效性和公平性。
  • 有效性:按照先前的工作,我们从像素精度、区域相似性和轮廓准确性评估分割性能。我们使用平均绝对误差(MAE)计算像素级误差。为了测量基于区域的分割相似性,我们使用Dice相似系数(Dice)和交并比系数(IoU)。对于轮廓准确性,我们应用边界Dice测量(F)。具体来说,预测掩模h和真实掩模y的轮廓分别表示为ch和cy。然后可以通过二分图匹配(Martin et al., 2004)计算ch和cy之间的精度Pc和召回率Rc。因此,边界Dice系数定义为:
  • 公平性:按照先前的研究,我们使用相同的指标来评估公平性:Dice值的标准差(SD)和偏差误差比(SER)。标准差衡量不同亚型之间Dice值的差异量。
  • 权衡:我们修改了连结准确性改进(CAI)以衡量算法的有效性和公平性。新的CAI定义为两个术语的加权线性组合,包括(有符号的)子类型间标准差减少和(有符号的)整体准确性改进,与基线和候选去偏见算法相比:
其中分别表示基线和去偏见模型的标准差。类似地,Diceb和分别是基线和去偏见模型的Dice分数。CAI的值越高,表示去偏见方法的优越性越大。

5.2.3 实现细节

我们的模型是用Pytorch实现的,并在单个NVIDIA RTX 3090上训练。我们采用预训练的ResNet-34作为U-Net架构的编码器骨干。为了扩大数据多样性,我们使用数据增强策略,如随机水平和垂直翻转、缩放、平移和旋转。然后,所有增强的图像都被调整为352 × 352进行训练。我们部署Adam优化器,初始学习率为1e-4,批量大小为32,最大周期数为150。

5.3 结果

5.3.1 有效性表现

我们通过与包括卷积网络和transformer在内的先前最先进的息肉分割方法进行比较,验证了所提出方法在三个广泛使用的基准上的有效性。定量结果展示在表1中。在EndoScene上,我们提出的方法在所有指标上都优于所有方法,并且相对边际增加了所有度量。在Kvasir-SEG上,特别是我们的模型将之前的最佳结果从0.902/0.845/0.804提高到0.912/0.859/0.812,分别在Dice/IoU/F方面。在PICCOLO上,我们的方法显著地将最先进的结果从82.91%提高到86.78%的Dice。IoU、MAE和F的提高也是实质性的,分别达到0.825、0.018和0.786。值得注意的是,视觉transformer在PICCOLO上的性能明显优于EndoScene。由于PICCOLO拥有比其他两个数据集更多的多样化病变和复杂场景,这表明视觉transformer具有更好的处理大量样本和复杂情况的能力,这与最近的发现一致。这些观察结果表明,我们的基于原型的表示学习方法在实际临床场景中更适用于更多样化的病变。

5.3.2 公平性表现

实验结果总结在表2、3和4中。不同亚型上的Dice准确度根据它们在训练集中的数量逆序排序。
  • 最先进方法:首先,定量结果表明,我们的方法比最先进方法更公平,特别是在少数亚型上。例如,在表2中,CCBANet、SCRNet、PraNet和我们的方法分别在SD上达到0.187、0.227、0.183和0.060。其次,我们也注意到整体分割性能与模型的公平性大致相关。例如,在表2中,从SCRNet到LDNet,整体Dice等级从0.666增加到0.829,同时SD得分从0.227减少到0.076。然而,也有例外。例如,在表3中,尽管ACSNet的整体Dice高于CCBANet,但ACSNet的SD得分仍然高于CCBANet。这些观察结果表明,引入先进技术,例如上下文信息、注意力机制和强大的预训练骨干,增强了对罕见困难案例的学习能力,在少数亚型上取得了更大的改进,并最终促进了公平性的进步。但并非所有先进的机制都有利于公平性,例如,在表3中,PraNet拥有等价的整体Dice,但与U-Net相比,SD要差得多。如图6所示,我们的方法可以产生各种息肉亚型的准确分割掩模。
  • 偏见缓解算法:前五行显示了基线和四种偏见缓解方法之间的比较。我们可以注意到,所有偏见缓解策略在SD上都有相当大的减少和SER上的增加。它们在少数亚型上取得了巨大的改进,同时在多数亚型上只有微小的提升。例如,在表2中,组平衡加权显著提高了0-IIa/c的Dice分数,从0.350提高到0.722,但只将0-IIa的Dice分数从0.679轻微提高到0.683。在表4中,属性感知元学习将角化病的Dice分数从0.590提高到0.716,但只将痣的Dice分数从0.829轻微提高到0.844。在所有去偏见方法中,组平衡加权在所有子组中实现了最佳的分割平等。此外,我们可以观察到,属性感知元学习,这是一种在分类任务中广泛使用的去偏见方法,在分割中不能很好地缓解偏见问题。这是因为分类中的偏见问题主要是由于深度特征在敏感属性和目标属性上的纠缠(Creager et al., 2019; Hong & Yang, 2021; Tartaglione et al., 2021),而分割中的偏见是由敏感属性之间的不平衡分布引起的。总之,所有的去偏见方法都可以在一定程度上减少偏见问题。表2和表3的最后一行的实验结果表明,我们提出的方法在所有公平性指标方面显著优于所有去偏见比较。值得注意的是,与其他方法相比,我们的方法在少数亚型上取得了更显著的改进。例如,我们的方法在未知、0-IIa/c和0-IIb的少数亚型上取得了最佳或第二佳的表现。这表明我们学到的原型主要代表少数亚型,并进一步验证了我们的框架能够探索和存储来自庞大且复杂数据的罕见视觉模式。
  • 不平衡因子的影响:与第3.3节的设置一致,我们改变了PICCOLO训练集的不平衡因子(IF),以进一步评估我们方法在不同情况下的去偏见能力。从图7所示的结果中,我们可以得出几个观察结果。首先,我们的方法始终以显著的优势胜过其他去偏见算法,在不同不平衡分布下的所有亚型上都取得了最佳性能。其次,我们的方法具有更大的能力来对抗数据不平衡的增加。例如,随着IF的增加,我们方法的标准差只有微小的增加,而三种去偏见算法(GBS、AML和SGM)的标准差却有了相当大的增加。值得注意的是,组平衡加权(GBW)的分割差异也大致保持不变。这些结论表明我们方法在对抗不平衡分布方面的优越性。

5.4 消融研究

在本节中,我们进行了广泛的研究,探讨了每个提出组件和各种参数值的影响。

5.4.1 对象模式提取

在对象模式提取中,设计了一个粗略的分割图,以强制网络专注于有趣对象的视觉模式,并消除无关信息的干扰,例如背景。我们在三个基准上评估了上述操作对分割性能的有效性。如表5所示,当丢弃粗略分割图时,准确性从EndoScene/Kvasir-SEG/PICCOLO的0.858/0.912/0.860急剧下降到0.815/0.881/0.786(以Dice计)。消融结果清楚地表明,专注于前景模式可以促进后续的原型学习并提高分割性能。

5.4.2 未知模式发现

未知模式发现机制确定来样样本是否与现有原型不相似。如果一个特征被认为是与当前原型不相似的,它将被用来构建一个新的原型。因此,我们的方法可以动态地确定训练过程中的原型数量。因此,我们进行了消融分析,将我们的发现机制与使用固定数量原型的方法进行比较,并探索原型数量对公平性的影响。所有比较方法都使用与我们相同的原型更新和推理方案,并且根据均匀分布初始化原型。我们手动选择了三个数量:# proto=6(与我们的原型数量相同),以及12、18和24。从表6中PICCOLO数据集的消融结果中可以得出几个观察结果。首先,随着原型数量从6增加到18,公平性方面的性能也在增加。例如,在少数亚型0-IIa/c/0-IIb上,性能从0.472/0.264显著提高到0.494/0.301。然而,当原型数量继续增加到24时,公平性方面的性能开始恶化。其次,从最后一行可以看出,我们提出的自适应发现机制在多数亚型上获得了相对较小的提高,但在少数亚型上取得了巨大的提升,并在公平性方面取得了最佳性能。

5.4.3 发现阈值

在模式发现过程中,基于对象模式嵌入与原型的余弦相似性,使用阈值将特征分配给原型集合M中的一个原型。如果计算出的相似性小于,则对象模式嵌入被认为是与现有原型不同的。较大的值,我们的框架更容易发现不同的视觉模式。因此,阈值间接控制原型的数量,从而衡量视觉模式建模的能力。在表8中,我们使用不同的阈值进行实验。首先,我们注意到随着阈值的增加,发现的原型数量增加,这与我们的直觉一致。其次,采用阈值在有效性和公平性方面都达到了最佳性能。第三,我们注意到的性能远大于。这些观察结果表明,相对较小的阈值捕获的视觉模式知识是不足的,而相对较大阈值捕获的知识是足够的,但倾向于冗余。

5.4.4 已知模式更新

原型更新机制通过整合相似的对象来连续丰富已知原型。我们提出的自适应动量更新可以增加原型之间的可分性。在表9中,我们将我们提出的更新策略与使用固定动量更新系数的传统更新方法进行比较。我们注意到随着更新动量的增加,模型在有效性和公平性方面都取得了显著的性能提升。这是因为高的值减少了原型在更新期间的变化幅度,因此稳定了长期知识的积累。在最后一行,我们提出策略将Dice性能提高了0.016,SD提高了0.044,并在所有有效性和公平性的指标上取得了最佳性能。
此外,我们进行了实验,验证了我们的自适应动量更新增加原型之间可分性的能力。具体来说,我们记录了原型与其最硬负样本之间以及所有原型之间的平均余弦距离。在图8中,显然,通过我们自适应动量学习到的原型具有更大的可分性。此外,朴素更新机制的学习过程比我们的更稳定,因为朴素动量相对较大,这与大更新动量可以使原型学习更稳定的直觉一致。总之,消融结果表明,明确考虑原型之间的可分性可以提高方法的公平性。

5.4.5 距离函数

在原型学习中,我们使用余弦距离函数来衡量对象模式嵌入和原型之间的相似性。此外,我们通过将余弦距离替换为欧几里得距离进行了实验。如表10所示,余弦距离的性能优于欧几里得距离在所有三个基准上。这是因为欧几里得距离更关注嵌入之间的绝对数值差异,可能无法挖掘模式嵌入之间的实际差异。

5.5 讨论

在本节中,我们讨论并分析了我们基于原型的算法的内在属性。

原型序列分析

为了理解原型在训练过程中的生长行为,我们提供了EndoScene和PICCOLO数据集上原型的时间序列分析。结果在图9中展示。首先,原型的数量在开始时急剧增加,然后逐渐稳定。这一观察结果反映了在训练的早期阶段存储的知识是空缺的,最终在后期阶段饱和,这与我们的直觉一致。其次,误差带表明了不同试验中原型生长行为的差异。当训练数据被洗牌时,每次试验中训练样本的序列存在差异。我们可以观察到,我们原型数量的误差带被抑制在[-1,1]下,这意味着我们的动态原型对训练数据的洗牌是鲁棒的。

原型可视化

在这一部分,我们进一步解释了从我们框架中学到的原型。我们计算了属于每个原型的图像数量在亚型方面。分布被归一化到[0, 1]。从图10的插图中,我们观察到不同原型之间存在很大的分布变化。例如,最后一个原型主要代表多数亚型(例如0-IIa和Is),而第二和第三个原型主要代表少数亚型(例如0-IIb和0-IIa/c)。这些重要的观察结果表明,在我们的学习原型没有相应受保护属性的监督的情况下,它们仍然可以有意识地与不同的亚型相关联。我们的方法可以探索具有不同视觉模式的嵌入之间的固有差异。

6 限制

数据集偏差和任务偏差是最近研究中最常见的两种偏见。数据集偏差通常是由于受保护属性方面的数据分布不平衡而引起的。任务偏差是由受保护属性与目标任务之间的固有依赖性引起的。例如,在面部识别中,头发长度与性别有扭曲的关联。由于所提出的框架旨在以无监督的方式发现视觉模式,它只能减轻由不平衡分布引入的数据集偏差,而不能处理受保护变量和目标任务在特征空间中纠缠的场景。
在我们的工作中,提出的方法旨在平衡视觉模式多样性的学习。事实上,多样性的原因可能来自许多方面,如性别、种族、对象亚型、环境条件等。因此,同时在几个方面评估模型的公平性是非常有趣的。然而,由于大多数分割数据集没有足够的元信息,我们对公平性的评估仅限于息肉亚型。

7 结论

本文提出了一种基于原型的网络,用于学习和平衡不同子群的视觉模式,以减少现实世界数据集中的偏差。我们的方法不需要在训练期间对受保护的属性进行监督,而是通过无监督的方式自适应地发现和提取数据中的视觉模式。通过定量和定性实验,在多个广泛使用的医学图像分割数据集上评估了我们的方法,并与现有的最先进方法进行了比较。实验结果表明,我们的方法在有效性和公平性方面都取得了显著的性能提升。
我们的方法的核心贡献在于:
  1. 提出了一种新颖的无监督原型学习方法,能够动态地聚合相似的视觉模式,并分离不同的模式,从而提高模型对少数和多数子群的泛化能力。
  2. 设计了一种基于注意力的机制,将全局原型知识整合到局部特征表示中,增强了模型对输入样本的辨别能力。
  3. 在多个数据集上进行了广泛的实验验证,证明了我们方法在不同视觉模式上的鲁棒性和公平性。
此外,我们还进行了消融实验,以评估所提出的各个组件和参数对模型性能的影响。结果表明,未知模式的发现、自适应动量更新机制以及使用余弦相似度作为距离度量,对于提高模型的公平性和准确性至关重要。
尽管我们的框架在提高分割任务的公平性方面取得了成功,但仍存在一些局限性。首先,我们的方法主要关注数据集偏差,即由数据不平衡分布引起的偏差,而不能解决受保护属性与目标任务在特征空间中纠缠的情况。其次,我们对公平性的评估仅限于特定的息肉亚型,而没有考虑其他可能影响模型公平性的方面,如性别、种族或环境条件。
未来的工作将探索如何将我们的方法扩展到更广泛的应用场景,并进一步增强其对不同类型偏差的鲁棒性。此外,我们计划研究如何整合更多的元信息来评估模型在多个维度上的公平性,从而为实现更全面、更平衡的人工智能系统提供支持。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

CVPaper
这里有知识和乐趣,感悟和哲理,一起来嗨!!!
 最新文章