“ 模型公平性的几何分析:借助感知流形的曲率来预测和增强深度神经网络的公平性”
论文链接:https://arxiv.org/pdf/2303.12307.pdf
在涉及到模型公平性的讨论时,通常是在数据呈现长尾分布的场景下。但是在分布均衡的数据集上模型也表现出不同程度的偏好,这表明存在更深层次的因素影响了模型的公平性。这项工作从数据分类的几何视角出发,建立了模型公平性的几何分析。
01
—
数据分类的几何观点
每个类别的样本分布在一个嵌入于高维空间的低维流形附近,数据分类可以被视为将不同类别对应的数据流形解缠和分离的过程,这一过程与人类视觉识别的模式相似。因此数据流形的几何特性的复杂度可能会影响到模型的表现。
02
—
什么是感知流形?
数据流形沿着深度神经网络的层被不断映射,直至分类。每个图像在深度神经网络内部都被映射为对应的embedding,由embeddings构成的流形被称为感知流形。为了研究模型公平性,这项工作中的研究对象是类感知流形,也就是由每个类的embeddings形成的感知流形。
03
—
感知流形的几何度量
这项工作系统的提出了感知流形的几何特性的度量,包括感知流形的体积,平均高斯曲率和分离度,具体的推导可以看论文。有了这些度量,就可以定量的研究感知流形几何特性的复杂度对模型公平性的影响。
04
—
类感知流形的曲率与类准确率呈现负相关
数据流形沿着深度神经网络的层被逐渐降维和压缩,以便于分类。直觉上,如果位于深度神经网络的最后一个隐藏层产生的某个类的感知流形的曲率越大,则该类的分类难度也会增加。当一个模型在类别上的表现不一致时,它通常被认为是有偏的。
图1:A 计算类感知流形的曲率与类准确率的示意图。B 在Cifar-10,Cifar-100和SVHN三个样本数量平衡的数据集上训练13个不同的模型,并计算每个模型产生的感知流形的曲率与类准确率的相关性。
如图1所示,首先提取在被良好训练的DNN的最后一个隐藏层产生的对应于每个类别的图像嵌入,这些图像嵌入构成了类感知流形。然后,估计每个感知流形的曲率,并且计算曲率与类准确率的皮尔逊相关系数。可以观察到,在三个样本数量平衡的数据集上,类感知流形的曲率与类准确率呈现显著的负相关。特别是在CIFAR-100上,13个模型稳定的表现出显著负相关,这表明这项发现普遍存在。因为在100个类别的数据集上,实验结果是偶然发生的概率非常小。这一发现不仅为模型公平性的研究提供了新工具,而且表明从几何视角分析深度神经网络的行为有巨大的空间。
05
—
学习过程如何塑造感知流形的几何特性
前面的实验已经表明当深度神经网络被良好训练后,它的最后一个隐藏层产生的类感知流形的曲率能够预测它对类别的偏见。这个发现意味着现有模型在学习过程可能无法处理曲率不平衡带来的偏见。作为对比,作者推测现有的模型能够良好的降低感知流形的分离程度与模型偏差的相关性,因为从直观上来说分离度是分类任务的基本目标。在下文中,作者系统的探究了学习如何影响感知流形的几何特性。
5.1 学习促进了分离
学习通常会导致更大的类间距离,这相当于感知流形之间的更大分离。作者在F-MNIST和CIFAR-10上训练VGG-16和ResNet-18,以探索学习过程对感知流形之间分离度的影响,并观察到每个感知流形在训练期间逐渐与其他流形分离。值得注意的是,训练初期分离较快,后期分离度增量逐渐减小。
5.2 学习降低了曲率及其不平衡程度
作者在CIFAR-10,CIFAR-100和SVHN上训练了ResNet-18,SeNet-34和ShuffleNetV2进行实验探究。在模型的不同训练阶段提取每类图像的嵌入。如图2所示,可以观察到,感知流形的曲率在训练的早期阶段下降较快,但是随着进一步的训练,下降速度逐渐变的平缓。相较于初始的曲率,下降的程度显得不够明显,例如在CIFAR-10上感知流形的曲率下降了不足10%。作者推测这是由于优化目标中缺乏曲率的约束项导致的,前期的快速下降是因为深度神经网络普遍存在信息压缩的能力。为了证实这个观点,作者在图3中绘制了损失的下降曲线和曲率不平衡随着epoch的变化曲线。可以看到,在三个数据集上,当损失逐渐收敛时,感知流形的曲率和不平衡程度的下降速度也逐渐降低。图2 感知流形的曲率随epoch的变化曲线。
上述实验表明,深度神经网络在不带有曲率约束的优化目标的驱动下,仍然能够通过信息压缩来降低感知流形的曲率。这是可以理解的,因为如果不进行信息压缩,则难以实现分类。然而,不带有曲率约束的优化目标足以解决曲率不平衡引起的模型偏差吗?作者进一步可视化了类感知流形的曲率与类准确率的相关性随epoch的变化曲线,以回答这个问题。图3 损失的下降曲线和曲率不平衡随着epoch的变化曲线。
5.3 类感知流形的曲率与类准确率的相关性随学习过程增加
尽管现有的模型在学习过程中将类感知流形彼此分离,并且还使感知流形更加平坦,但是现有的模型具备足够的能力去充分缓解这两个因素带来的模型偏差吗?作者在CIFAR-100和SVHN上训练了ResNet18和SeNet-34,并绘制类感知流形的曲率与类准确率的相关性随epoch的变化曲线。
实验结果如图4所示,作者观察到感知流形的曲率与准确性之间的负相关性则增加。这表明现有模型在训练过程中缺乏对曲率的约束,从而导致在模型收敛后曲率与类准确率的高度负相关。图4 类感知流形的曲率与类准确率的相关性随epoch的变化曲线。
总之,这项工作开辟了一个新的方向(更准确的度量模型的公平性)并且提出了模型公平性的几何分析,这有助于促进对深度神经网络的理解。
推荐阅读: