分布偏移下的图公平性学习
1 背景与动机
图神经网络在处理图结构数据中可能继承甚至放大来自训练数据的歧视和社会偏见问题,这可能导致对拥有敏感属性(如性别、年龄、地区和种族)的敏感群体不公平对待,引发社会和伦理问题,限制了图神经网络在如就业市场、刑事司法和信用评分等关键领域的应用。
为了解决这个问题,虽然已经有许多关于公平图神经网络的研究提出,通过增加与公平相关的正则化项到优化目标,采用对抗学习来学习更公平的节点表示,或对图自身进行去偏处理等方法来提高图的公平性,但这些研究都是基于训练和测试数据分布一致的假设之下进行的。
然而,在现实世界中,分布偏移是经常出现的,这可能会对现有公平图神经网络的公平性表现产生不利影响。如图1所示,一个为工作推荐设计的公平图神经网络在一个州的社交网络上训练后,应用于另一个州的网络时,由于两个社交网络的分布不同,特征聚合后,相同敏感群体内的节点特征将更加同质化,不同敏感群体间的节点则更加容易区分。因此,当图神经网络在测试图上做出预测时,可能会更多地依赖这些敏感属性信息,从而导致如对某些特定种族群体不公平地推荐低薪工作等歧视行为的发生。
图1
图公平性能会因分布变化而下降吗?分布变化如何影响图公平学习?我们致力于从理论和方法角度来探索这两个问题。
2 分布偏移下的图公平性
我们首先建立图公平性和图数据分布之间的联系,然后我们探索为什么分布偏移会导致公平性下降。
2.1 图公平性和数据分布的联系
我们首先定义:
敏感群体:敏感属性为的节点构成敏感群体:
EO群体:敏感群体为,标签为的节点群体:
标签相同的不同敏感群体之间的聚合特征距离:
敏感平衡度:
其中 ,
图上的平均敏感平衡度为:
我们定义不同敏感群体的特征服从高斯分布: 和 .提出如下定理:
定理一:对于任意 ,在大于 的概率和足够大的特征维度 下,有:
我们发现受 和的影响。进一步地,我们提出:
定理二:考虑编码器 提取 维表征 和一个分类器 预测节点的二维标签。假设 和 分别遵循 Lipschitz连续和Lipschitz连续, 公平性受如下限制:
结合定理一和定理二,我们发现主要受两个因素影响:1.不同敏感群体之间的特征差异 ,更大的意味着敏感群体之间的表征很容易被区分,导致公平性变差。2. 平均敏感平衡度。更大的意味着图上的节点更容易有不平衡的邻居,导致公平性变差。
2.2 测试图上的公平性限制
定义训练图上的EO 群体为,测试图上的EO群体为
我们定义训练图和测试图上的EO群体表征差异为:
我们提出如下定理
定理三:训练图和测试图上的公平性差异 受限制:
说明训练图和测试图的公平性不仅依赖于训练图和测试图之间的分布差异,还取决于训练图上的公平性。
3 FatraGNN
图2
我们提出模型,如图2所示,包括三个模块。
3.1 训练图上的对抗去偏
为了在测试图上提高公平性,我们首先需要确保在训练图上已经达到一定的公平性。使用基于图神经网络的编码器提取节点的表示,如果不同敏感群体之间的表示可区分,则分类器可能基于这些信息进行预测,从而导致不公平。为了让不同敏感群体的表示不可区分,我们使用了一个敏感属性的判别器来预测节点的敏感属性,并训练编码器以愚弄这个判别器,使得敏感属性的预测变得困难。损失函数为:
3.2 图生成
该模块的目标是通过生成具有显著偏见和不同分布的图来解决数据分布变化导致的不公平问题。由于训练过程中不知道测试图的具体分布,我们修改训练图的结构和特征来生成新的图,这些图被设计为可能引发不公平的情况,以此训练模型应对更极端的分布变化。首先,结构修改步骤通过在具有相同敏感属性的节点间添加边和移除不同敏感属性的节点间的边来改变图的结构,生成具有更大不平衡邻域的图。这种结构的改变旨在增大敏感平衡度,即图中节点敏感属性的不平衡程度,从而生成更有可能导致不公平的图。接着,特征生成器通过改变节点的特征来进一步增强生成图的偏差。这是通过一个基于多层感知机的特征生成器完成的,它调整输入图的节点特征,以生成具有较大敏感属性特征差异的新图。生成的这些特征旨在模拟可能在未知测试图中遇到的情况。此外,还包括一个正则化项,确保生成的特征不会与训练图的特征差异过大,以保持生成图的可用性和实用性。通过这种方式,生成模块不仅能够创建有助于模型学习处理未知分布图的图,而且还能保持关键特征的连贯性,避免在训练过程中过度偏离实际应用场景。损失函数为:
3.3 EO群体对齐
这个模块通过计算训练图和生成图中具有相同标签和敏感属性的节点组(即EO群体)的表示相似度来实现。这一过程中使用了一个相似性分数,该分数衡量了同一EO群体在训练图和生成图中表示的对齐程度。相似性分数越高,表示对齐越好,意味着两图中相应群体的表示差异越小。为了实现这一目标,模型优化了一个目标函数,该函数旨在最大化所有EO群体的相似性分数之和。通过这种方式,EO群体对齐模块不仅有助于提升模型在生成图上的分类准确性,还有助于通过确保对不同群体公平对待来提高测试图上的公平性表现。此外,通过强制模型学习在训练图和生成图之间获得一致的表示,该模块间接地保护了因特征重要性在生成过程中可能被破坏的因果特征。这一设计确保了在实现公平性的同时,不牺牲模型对关键预测因素的敏感性和准确性。损失函数如下:
4 实验
实验使用的数据集包括真实世界的数据集和半合成数据集,这些数据集被用来评估模型在分布偏移条件下的表现。我们首先比较了FatraGNN模型与多种baseline(包括传统的机器学习方法、公平的图神经网络方法以及面向分布偏移优化的方法)在分类准确性、公平性和鲁棒性方面的表现,如表1,图3所示
表1
图3
实验结果展示了FatraGNN在处理分布偏移时相对于其他模型的优势,尤其是在公平性和准确性的权衡方面。
此外,我们还进行了一系列消融实验来分析模型中各个组件(如对抗去偏模块、图生成模块和EO群体对齐模块)的贡献,以及这些组件对整体模型性能的影响,如图4所示。这些实验帮助进一步验证了模型设计的有效性和各个组件的重要性。
图4
5 总结
在这项工作中,我们研究了图上的不公平问题,特别是在分布变化的条件下,这对于公平图神经网络在真实世界应用中至关重要。我们从理论上证明了图公平性是由图的敏感结构属性和不同敏感群体之间的特征差异所决定的,并解释了为什么分布变化会导致不公平现象。然后,我们推导出了测试图上公平性的上限。基于我们的分析,我们进一步提出了一个新颖的FatraGNN框架来缓解这个问题。实验结果表明,FatraGNN在面对分布变化时,在公平性-准确性权衡性能方面始终优于最先进的baseline。