博士论文 | Stevens 2024 | 值得信赖的图学习 273页

文摘   2025-01-11 22:58   广东  

图学习(Graph learning)是机器学习中一个快速发展的领域,它对实体之间的关系进行建模,例如社交网络知识图谱,可广泛应用于社交网络分析、推荐系统等。图学习的发展催生了许多新技术和算法,例如图神经网络自监督图学习模型,这些模型旨在学习图的潜在低维向量表示(嵌入),同时保留图信息,包括拓扑结构、顶点内容和其他辅助信息然而,随着图学习算法的使用不断增长,人们对图学习算法的可信度产生了一些担忧,例如算法公平性、隐私性、鲁棒性等。在我的研究中,我重点关注可信图学习中的两个重要问题,即算法公平性和隐私性。

图中算法公平性(fairness)旨在减轻图学习过程中引入或放大的偏见。在这篇论文中,我专注于社交网络分析和深度推荐系统中的公平性。

对于社交网络分析,我通过提供准确度差异的定量测量并设计基于不公平性定义减轻偏见的方法,形式化了链接预测中的偏见定义。我们的工作已在 ICWSM'22 上发表。

对于深度推荐系统,我从项目方面定义了一个新的个体公平性概念,以处理推荐中的项目流行度偏见。其次,我设计了两种偏见缓解方法,即基于嵌入的重新排名和贪婪替换。我们的工作已在 FAccT'22 上发表。

隐私(Privacy)是图学习中的另一个重要问题,尤其是包含敏感信息的图,算法可能会无意中泄露训练图数据或模型的敏感信息,从而可能对相关人员或组织造成伤害。在这篇论文中,我重点研究了针对图学习模型的属性推理攻击链接成员推理攻击子图成员推理攻击

属性推理攻击旨在推断训练图中节点和链接组的属性。我研究了一组针对白盒和黑盒设置下的图神经网络 (GNN) 的属性推理攻击,并设计了三种针对属性推理攻击的防御机制。我们的工作已在 CCS'22 上发表。

链接成员推理攻击旨在推断训练图中特定边的存在。我设计了一系列针对无监督和基于对比的图学习模型的链接成员推理攻击,以及针对这些攻击的防御机制。我们的工作已在 ACSAC’23 和 PoPETS’24 上发表。

子图成员推理攻击旨在确定给定的一组节点是否对应于特定的目标结构,例如团伙或多跳路径。我提出了一种针对 GNN 的黑盒攻击及其相应的防御措施。我们的工作已在 PoPETS’24 上发表。

论文题目:Trustworthy Graph Learning

作者Xiuling Wang

类型:2024年博士论文

学校:Stevens Institute of Technology(美国史蒂文斯理工学院

下载链接:

链接: https://pan.baidu.com/s/1Og7AY7Czcda-5VHbOjgoAQ?pwd=xqu7

硕博论文汇总:

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5


图学习,也称为网络分析或图挖掘,涉及研究网络中实体之间的复杂交互,例如社交网络、生物网络和交通网络。图学习已成为机器学习和数据挖掘中的一个重要领域,在链接预测[145, 60, 169, 100]、推荐系统[213, 185, 198, 70]、生物分析[12, 109, 143]等领域有着广泛的应用。图学习的发展催生了许多可用于分析和学习图数据的新技术和算法,例如网络表示学习算法、图神经网络 [101, 64, 177]、自监督图学习模型 [226, 214, 227, 66],旨在学习图的潜在低维向量表示(嵌入),同时保留图信息,包括拓扑结构、顶点内容和其他辅助信息。在学习了图嵌入向量之后,可以在新的表示空间中轻松高效地执行各种图分析任务(例如,链接预测、节点分类和节点聚类)。

然而,尽管图学习模型取得了成功,但人们对这些模型的可信度仍有几个担忧,例如算法公平性 [199, 55, 110, 8, 18, 103, 142, 148, 49, 119]、隐私 [158, 129, 54, 53, 196, 14, 57, 122]、鲁棒性 [127, 89, 170, 133, 201, 171, 151] 等。在本论文中,我重点关注可信图学习中的两个问题,即算法公平性和隐私。

算法公平性是指算法不应延续或加剧现有的社会偏见或不平等。在图学习的背景下,这可能表现为不公平地歧视图中某些群体或社区或个人的算法。例如,有偏见的推荐可能导致针对女性用户的玻璃天花板效应1 [163] 和针对少数群体的富人越来越富效应 [119, 49]。特别是,由于同质性原则 [120],捕捉这种原则的社交推荐算法旨在促进属于特定特征(例如性别和种族)指定的同一人口统计群体的个体对之间的联系 [119]。这种有偏见的链接预测可能会在许多利用用户社交网络数据进行自动决策的应用领域中导致意想不到的重大后果。在过去的几年里,人们提出了许多正式的公平性定义。这些公平性定义可分为两大类,即群体公平性和个体公平性。群体公平性 [26, 51, 27, 94] 定义了特定的群体,并要求基于模型决策计算出的特定统计数据对所有群体都应相等。特别是,受保护群体(由敏感属性(例如种族和性别)定义)不应与优势群体相比受到歧视性对待。另一方面,个体公平性要求对人群中的相似个体给予类似的对待 [45]。

另一方面,隐私是指对训练图中敏感信息的保护。图学习算法通常需要访问个人数据(例如用户个人资料或社交联系),以做出准确的预测或分类。但是,这些数据也可能容易受到未经授权的访问或滥用,从而导致隐私侵犯和对个人的潜在伤害。最近的研究发现了许多推断训练数据中敏感信息的攻击。例如,成员推理攻击 [158, 129] 推断特定数据样本是否用于机器学习 (ML) 模型的训练。模型反转攻击在获得目标模型的访问权限后重建训练示例 [54, 53, 196]。这些攻击专注于数据集中单个记录的隐私。另一方面,属性推理攻击 [14, 57, 122] 推断数据集的聚合信息(属性)。

我的工作。在本论文中,我重点研究两种类型的图学习应用中的算法公平性问题,即社交网络分析和深度推荐系统。对于社交网络分析中的算法公平性,我专注于社交网络图中的链接预测。首先,我采用了两个现有的广泛使用的公平性概念,即统计均等性和平等机会,以形式化链接预测中的准确性差异概念。其次,我在三个现实世界的社交网络图上测量了六种最先进的链接预测算法的准确性差异的存在。第三,我将两个链接组的不平衡组密度确定为准确性差异的潜在来源之一。我还将网络同质性确定为组密度不平衡的原因。第四,我设计了一种偏差缓解方法,通过插入/删除边来补救训练图中的不平衡组密度,从而缓解了不同组之间的不平衡组密度,同时最大限度地减少了原始图上的结构变化量。此项工作已发表于 2022 年国际 AAAI 网络和社交媒体会议 (ICWSM) 论文集。

关于知识图谱深度推荐系统中的算法公平性,首先,我正式定义了一个新的项目端个体公平性概念,以量化个体层面的项目覆盖差异。其次,我设计了两种偏差缓解算法,即基于嵌入的重新排名 (ER) 和贪婪替换 (GS) 算法,以实现 (α, β) 公平性,同时最大限度地提高推荐的准确性。第三,我在两个真实世界数据集和三个最先进的深度推荐系统上进行了广泛的实验。我们的结果表明,GS 和 ER 算法都可以有效地缓解推荐中的单个项目覆盖差异,同时通过缓解将推荐系统的准确性损失降至最低。此外,在公平性和推荐准确性之间的权衡方面,ER 优于 GS 以及现有的最小覆盖率方法 [103, 142]。该成果已在 2022 年 ACM 公平、问责和透明度会议 (FAccT) 上发表。

对于图学习模型中的隐私问题,我重点关注三种类型的攻击,即属性推理攻击、链接成员推理攻击和子图成员推理攻击。

对于属性推理攻击,我将图神经网络 (GNN) 视为目标模型。我将在节点和链接分布上定义的组属性视为攻击目标。首先,我对 GNN 针对组属性推理攻击 (GPIA) 的脆弱性进行了系统调查。在黑盒设置下,对手只能访问目标模型的输出(例如后验概率),而在白盒设置下,他/她可以访问目标模型的架构和参数(例如节点嵌入)。对于这两种设置,我考虑了具有各种类型对手知识的威胁模型的全面分类,并为这些设置设计了六种攻击。其次,我分析了促成 GPIA 成功的主要因素。第三,我设计了三种防御机制来减轻黑盒和白盒设置下 GPIA 的脆弱性,这可以在隐私和模型准确性之间取得良好的平衡。该成果已在 2022 年 ACM SIGSAC 计算机与通信安全会议 (CCS) 上发表。

关于链接成员推理攻击 (LMIA),我考虑了无监督图表示学习 (UGRL) 模型和图对比学习 (GCL) 模型。对于针对 UGRL 模型的链接成员推理攻击,首先,我专注于为两种不同的设置设计 LMIA:仅可以访问节点嵌入的 LMIA 和具备“影子图”知识的 LMIA,这些“影子图”可能来自外部来源,例如公共数据存储库。我评估了它们针对四种最先进的 UGRL 算法的有效性。其次,我系统地研究了嵌入中不同程度的保留结构信息如何影响 LMIA 的性能。第三,我提出了简单而有效的防御机制,对嵌入最不重要的维度引入扰动,旨在减轻 LMIA 造成的隐私泄露。我们的实验结果证明了我们的防御机制的有效性。这项工作已发表在 2023 年年度计算机安全应用会议 (ACSAC) 上。

对于针对 GCL 模型的链接成员推理攻击,首先,我进行了实证研究和分析,以揭示现有 LMIA 在针对 GCL 模型时存在局限性的原因。我还获得了新的见解,可用于提高 LMIA 对 GCL 模型的有效性。其次,我设计了 GCLLeak,这是第一个针对 GCL 模型的 LMIA。我们的实证评估表明,GCL-Leak 在针对 GCL 模型的链接推理方面具有高度准确性。第三,我设计了两种针对 GCL-Leak 的防御机制,并进行了彻底的实证评估以证明其有效性。这项工作将在 2024 年的隐私增强技术研讨会 (PETS) 上发表。

对于子图成员推理攻击,我将 GNN 视为目标模型。首先,我正式将 k-SMIA 问题定义为三标签分类任务,将给定的一组 k 个目标节点映射到三个标签之一。标签 1 和 2 分别表示存在 k 团和 (k-1) 跳路径,而标签 0 表示训练图中不存在任何结构。其次,我设计了黑盒攻击,使用目标模型的预测输出推断结构成员资格。我们的实证研究证明了 SMIA 对三个代表性 GNN 模型的有效性。第三,我设计了一种新的防御机制,通过在节点后验中添加拉普拉斯噪声来抵消 GNN 对 SMIA 的敏感性。通过实证分析,我展示了我们的防御方法在保持目标模型准确性的同时提供了对 SMIA 的强大防御。这项工作正在 2024 年隐私增强技术研讨会 (PETS) 的第二轮审查过程中。

本论文的其余部分结构如下:第 2 章,我讨论了相关工作。第 4 章至第 9 章解释了我对图学习各种可信问题的研究。第 10 章总结了本论文。

图对比学习

黑盒 GPIA 概述。Agg() 是从后验生成 GPIA 特征的聚合函数。

攻击 2 的概述(带有阴影图)。

GCL-Leak

微信群

图科学实验室Graph Science Lab
分享有关图理论、图表示学习、图神经网络、图+交叉学科(生物、化学、物理 ...)、图+交叉算法(DL、RL、NLP、CV ...)最新科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。秉持文理兼修,也分享人文作品。欢迎持续关注。
 最新文章