[论文分享]Arxiv2024 针对图神经网络后门攻击的鲁棒性启发防御

文摘   2024-08-06 21:48   广东  
标题Robustness-Inspired Defense Against Backdoor Attacks on Graph Neural Networks
作者Zhiwei Zhang, Minhua Lin, Junjie Xu, Zongyu Wu, Enyan Dai, Suhang Wang
邮箱{zbz5349, mfl5681, junjiexu, zongyuwu, emd5759, szw494}@psu.edu
论文https://arxiv.org/pdf/2406.09836

Abstract

Graph Neural Networks (GNNs) have achieved promising results in tasks such as node classification and graph classification. However, recent studies reveal that GNNs are vulnerable to backdoor attacks, posing a significant threat to their real-world adoption. Despite initial efforts to defend against specific graph backdoor attacks, there is no work on defending against various types of backdoor attacks where generated triggers have different properties. Hence, we first empirically verify that prediction variance under edge dropping is a crucial indicator for identifying poisoned nodes. With this observation, we propose using random edge dropping to detect backdoors and theoretically show that it can efficiently distinguish poisoned nodes from clean ones. Furthermore, we introduce a novel robust training strategy to efficiently counteract the impact of the triggers. Extensive experiments on real-world datasets show that our framework can effectively identify poisoned nodes, significantly degrade the attack success rate, and maintain clean accuracy when defending against various types of graph backdoor attacks with different properties.

1.Introduction

图在现实世界中无处不在,例如社交网络 [1]、分子图 [2] 和知识图 [3]。图神经网络 (GNN) 在图上的节点表示学习方面表现出了强大的能力。通常,GNN 采用一种消息传递机制,通过迭代地聚合来自邻居的信息来更新节点的表示。生成的节点表示保留了节点属性和局部图结构信息,有利于各种下游任务,例如节点分类 [4、5、6]、图分类 [7] 和链接预测 [8]。

在本文中,我们研究了一个重要的问题,即开发一种有效的图后门防御方法以防御各种类型的后门触发器和攻击方法。本质上,我们面临两个挑战:(i)如何有效而准确地识别中毒节点和后门触发器,即使这些触发器与干净节点无法区分?(ii)当某些触发器无法识别时,如何最大限度地减少后门触发器的影响?为了应对这些挑战,我们提出了一个新颖的框架——鲁棒性启发图后门防御(RIGBD)。为了有效而准确地识别中毒节点,我们在第 3.2 节中通过实证表明,删除连接后门触发器的边通常会导致中毒目标节点的预测方差较大。基于这一观察,我们建议在中毒图上使用专门设计的图卷积操作训练后门模型,执行随机边删除,并将具有高预测方差的节点识别为中毒节点。利用候选中毒节点和已识别的目标类别,我们提出了一种新颖的鲁棒 GNN 训练损失,该损失最小化了模型对中毒节点目标类别的预测置信度,从而有效抵消触发因素的影响。即使训练集中未识别出部分中毒节点,此策略仍然有效。

我们的主要贡献是:(i)我们通过经验验证了中毒节点在边丢弃下通常表现出较大的预测方差。(ii)理论分析保证我们专门设计的图卷积操作可以通过随机边丢弃精确区分中毒节点和干净节点。(iii)我们提出了新颖的训练策略来训练后门鲁棒 GNN 模型,即使未识别出某些中毒节点。(iv)大量实验表明 RIGBD 在防御后门攻击和保持干净准确性方面的有效性。

2. Preliminaries and Notations

威胁模型。攻击者的目标是将后门触发器(即节点或子图)添加到训练图中的一小组目标节点中,并将其标记为目标类 ,以便在中毒图上训练的 GNN 将 (i) 记住后门触发器并被误导将附加触发器的节点归类。以及 (ii) 对于没有附加触发器的干净节点表现正常。具体而言,给定 作为一组目标节点,攻击者将精心设计的触发器 附加到节点 并得到中毒节点 ,其中 是附加操作。

防御者的知识和能力。在训练阶段,防御者可以访问后门图 GT来训练分类器进行节点分类。但是,防御者缺乏有关哪些节点属于后门节点集和目标类的信息。在推理阶段,防御者将看到一个看不见的后门图来进行节点分类。

图后门防御的定义如下:


通常,图后门攻击会在触发器和目标节点之间建立一条边,这意味着如果删除连接触发器和目标节点的边,后门攻击就会失败。此外,后门攻击的一个明确要求是,带后门的 GNN 模型对于没有附加触发器的干净节点表现正常。基于以上分析,我们做出一个假设:给定一个后门图,如果删除连接目标节点 和触发器的触发边 ,则与删除这些边时由干净边 连接的节点上的预测变化相比,后门模型对中毒目标节点的预测逻辑通常会发生显著变化。

为了从经验上验证我们的假设,我们进行了以下实验:给定一个后门图,我们首先在该图上预训练一个后门模型。然后,对于每个节点,我们逐个迭代地删除其每个邻居,并分别测量删除触发边和干净边 所引起的预测方差。我们在 OGB-arxiv [17] 上使用 565 个触发器进行了实验。攻击方法是 DPGBA。模型架构是 2 层 GCN。从图 1 (a) 所示的结果可以看出,删除连接后门触发器的对抗性边将导致比删除干净边大得多的预测方差。其他数据集的更多结果可在附录 B 中找到。

因此,识别后门触发器或中毒目标节点的一种直观方法是单独检查每条边。例如,在 2 层 GCN [5] 中,我们一次为每个节点移除一个邻居,并根据剩余的 2 跳邻居进行推理。通过观察每次移除邻居后的预测变化,我们估计边链接到后门触发器的可能性:预测变化越大,概率越大。然而,这种方法有几个问题:(i) 可扩展性:对于平均度数较高的图,这种方法计算成本高昂。具体来说,对于 L 层 GCN,时间复杂度为 ,其中 d是平均度,N是节点数,M表示特征维度。分析在附录 C 中。随着d的增长,时间复杂度以L的幂呈指数增长,这使得它对于密集图不切实际。(ii) 实用性:当后门触发器是一个子图,其中有多条边将其链接到目标节点时,单独检查每条边就变得无效。如图 1 (b) 所示,当两条边连接触发器和目标节点时,在 OGB-arxiv 数据集上,删除触发器边所导致的大多数预测方差显示出与删除干净边所导致的方差相似的值,从而使直观方法无效。

因此,虽然边丢失引起的预测方差是识别中毒节点或后门触发器的关键指标,但必须开发一种方法,以便(i)准确识别中毒节点,即使多个边将触发器连接到目标节点;(ii)降低时间复杂度以与平均程度线性扩展,从而提高可扩展性。

干净模型易受后门触发器攻击。即使我们可以从训练数据集中删除后门触发器,图后门触发器仍然可能导致成功的攻击,因为攻击者可以制作一个模仿目标类节点邻居的后门触发器 [12]。为了验证这一点,我们采用 DPGBA [12] 攻击方法,并通过从训练数据集中删除后门触发器进行实验。然后,我们在这个干净的数据集上训练一个 2 层 GCN,并在测试数据集上报告攻击成功率 (ASR),如表 1 所示。随机 ASR 以 为参考计算,其中 是每个数据集的类数。如表所示,即使在干净的数据集上训练模型,它仍然可以对模仿目标类节点邻居的后门触发器做出反应。因此,仅仅从训练数据集中删除后门触发器不足以防御图后门攻击。

3.LSEnet

我们的初步分析表明:(1)删除连接触发器和中毒目标节点的对抗性边通常会导致中毒目标节点的预测方差更高;(2)简单地从训练数据集中删除后门触发器不足以防止模仿目标类相邻节点分布的后门触发器。为了利用上述信息解决我们的问题,我们面临两个挑战:(1)如何设计一种有效的方法来查找中毒目标节点?(2)如何在不降低清洁精度的情况下最大限度地减少后门触发器的影响?为了应对上述挑战,提出了一个新颖的框架 RIGBD。具体来说,为了应对第一个挑战,我们从理论和经验上验证了随机边丢弃是区分中毒目标节点和清洁节点的有效方法。为了应对第二个挑战,我们建议最小化中毒目标节点对目标类的预测置信度。这有助于模型抵消触发器的影响。接下来,我们给出每个组件的详细信息。

3.1通过随机边缘删除识别中毒目标节点

为了克服直观的逐个删除每条边的方法的可扩展性和实用性问题,我们提出了一种新颖的随机边删除框架。具体来说,我们为邻接矩阵A定义一个随机边删除噪声,以概率β删除每个现有边。

我们将表示为扰动图,表示逐元素异或运算符。给定一个后门图 GT和相应的邻接矩阵A,我们首先在这个中毒图 GT上训练后门节点分类器,并得到每个节点 的预测 即 。然后,我们使用运算 将随机噪声 ϵ独立地添加到原始邻接矩阵中,得到噪声矩阵 。类似地,我们在每个扰动图上获得节点的预测日志 。然后,节点 对随机边丢弃的预测方差为:

然而,尚不清楚这种方法是否也会导致干净节点的预测方差较大,从而可能损害我们区分中毒目标节点和干净节点的能力。为了解决这个问题,我们建议仅基于其邻居来获取每个节点的表示。具体来说,在执行推理以获得预测逻辑时,每层中的操作可以写成:

我们采用式(3)中的图卷积策略来获取节点表示,原因如下:(1)对于干净节点,由于每个邻居具有相同的删除率,因此在期望中,节点表示保持不变,因为每个邻居的特征对节点表示的预期贡献比例保持不变。因此,干净节点的预测方差期望趋于较小。相反,如果我们包括中心节点的属性,则随机删除边之后,节点表示的期望将更多地集中在中心节点上,使得预测方差不可预测。我们将在定理1中进一步分析。(2)对于中毒目标节点,由于后门触发器旨在攻击各种类型的目标,因此一旦在随机删除边后存在触发器,无论节点表示是仅基于邻居获得还是也考虑节点本身,它仍然会导致成功攻击。但是,如果丢弃触发器,模型将表现出较大的预测方差。值得注意的是,虽然中心节点的属性对于准确分类很重要,但我们这里的重点是测试预测方差和识别中毒节点。一旦确定目标节点,就可以使用各种 GNN 来训练分类器,并使用公式 (6) 中的稳健损失。为了证明我们的随机边丢弃方法可以有效区分中毒目标节点和干净节点,我们对图做出以下假设并提出定理(理论详情可见Theorem 1,2,3)。

为了通过经验验证我们的随机边丢弃方法可以有效区分中毒节点和干净节点,我们采用攻击方法 DPGBA,并在 Cora 和 OGB-arxiv 上进行实验,以显示随机边丢弃后中毒节点和干净节点的预测方差。实验设置和结果的详细信息见附录 E。从结果中,我们观察到:(i)我们的方法始终为中毒节点产生更高的预测方差,从而能够区分中毒节点和干净节点。(ii)即使两个边将后门触发器链接到中毒节点,我们的方法也会对大多数中毒节点保持较高的预测方差。这展示了我们的方法与单独丢弃每个边的直观方法相比的卓越性能。此外,我们方法的时间复杂度与通常很小的 成线性关系,而直观方法与 成指数关系,导致随着 的增加计算成本显著增加。

确定目标节点和目标类别。接下来,我们详细说明如何确定目标类并识别候选中毒目标节点集。给定 作为标签为yi的每个节点 的预测方差,我们按 降序对节点进行排序并形成集合 ,其中 σ 是 {1, 2, ... , n} 的排列,使排序后的值满足 。然后,我们将目标类确定为具有最大预测方差的节点的标签,即 。令j 为 中第一个条目的索引,使得 。选择候选中毒目标节点的预测方差阈值定义为:

然后,我们选择预测方差大于阈值的节点作为中毒目标节点的候选,表示为Vs。

3.2 后门鲁棒 GNN 模型训练

虽然随机边缘丢弃可以帮助识别最受毒害的目标节点,但仍存在一些问题。首先,少量中毒目标节点可能会表现出与干净节点类似的预测方差,不可避免地会留在图中。其次,如第 3.2 节所述,仅仅从训练集中消除后门触发器不足以防御模仿目标类节点邻居分布的后门触发器。

一种直观的解决方案是训练一个能够区分干净节点和后门触发器的触发器检测器。然后,在对未见图Gu进行推理时,采用触发器检测器来去除潜在的触发器。但是,当触发器是子图时,在训练过程中需要同时考虑多个节点及其相互作用,这使得训练触发器检测器的过程变得复杂。此外,每次给我们一个未见图时,我们都需要先运行触发器生成器对整个图进行推理,这增加了计算成本。

因此,在我们的 RIGBD 中,我们建议直接在训练数据集上训练一个后门鲁棒 GNN 节点分类器,通过最小化其对中毒节点的目标类的预测置信度,从而鼓励模型抵消后门触发器的影响并对后门攻击具有鲁棒性。具体而言,给定选定的中毒目标节点 ,训练后门鲁棒 GNN 节点分类器的目标函数为:

其中 表示f 对目标类上的预测置信度, 是交叉熵损失。得到的分类器对触发器具有鲁棒性,因为(i)我们明确地对抗检测到的后门,使我们的模型对后门具有鲁棒性。虽然可能存在未被检测到的目标节点,但它们通常具有较小的预测方差,这意味着它们对 f 的训练影响较小。由于这些触发器或多或少具有与检测到的触发器相似的模式,因此我们的训练策略会隐式地减轻它们的影响。(ii)对于模仿目标类节点邻居分布的触发器,我们的模型 f 被鼓励探索目标类的干净节点和中毒目标节点之间的细微差别,从而确保其干净准确性。

在算法 1 中,我们总结了 RIGBD 用于训练后门鲁棒 GNN 节点分类器的训练方法。具体而言,我们首先随机初始化L层 GNN 节点分类器的参数,它使用公式 (3)(第 1 行)中定义的图卷积运算。在训练循环的每次迭代中(第 2-4 行),我们通过使用监督学习在后门图上训练,直到模型收敛。收敛后,我们进入第二个循环(第 5-8 行),在其中我们对GT进行随机边丢弃并使用后门模型进行推理(第 6 行)。对于每个节点,我们使用公式 (2)(第 7 行)计算预测方差 。预测方差 的节点被选为候选中毒节点其中。由公式 (5) 计算。接下来,我们随机初始化另一个L层 GNN 节点分类器(第 10 行)。在最后的训练循环中(第 11-13 行),我们使用公式 (6) 中定义的稳健训练策略训练来更新直到收敛。该算法最后返回后门稳健 GNN 节点分类器(第 14 行)。

4.实验

在本节中,我们进行实验来回答以下研究问题:(Q1)RIGBD 在防御图后门攻击方面有多有效?(Q2)RIGBD 在检测中毒节点方面的表现如何?(Q3)不同的丢弃率和不同的随机边丢弃迭代次数如何影响 RIGBD 的性能?

数据集。我们在三个广泛用于节点分类的基准数据集上进行实验,即 Cora、Pubmed [21] 和 OGB-arxiv [17]。

攻击方法。为了证明我们的 RIGBD 的防御能力,我们在 3 种最先进的图后门攻击方法上评估了 RIGBD,即 GTA [10]、UGBA [9] 和 DPGBA [12]。

比较方法。我们实现了后门防御策略 Prune [9] 和 OD [12]。此外,还选择了三个具有不同丢弃率的代表性稳健 GNN,即 RobustGCN [15]、GNNGuard [14] 和随机平滑 (RS) [16]。我们还包括 ABL [13],它是图像领域中一种流行的后门防御方法,旨在根据后门中毒数据训练干净的模型。

评估协议。遵循现有的代表性图后门攻击 [9, 12],我们对归纳节点分类任务进行实验。具体来说,我们将图分成两个不相交的子图GT和GU,比例为 80:20。图GT用于训练攻击者。然后,攻击者选择目标节点并将触发器附加到这些目标节点以形成后门图。对于 Cora、PubMed 和 OGB-arxiv,触发器的数量 分别设置为 40、160 和 565。在所有实验中,触发器大小都限制为三个节点。防御者在中毒图上训练模型。接下来,选择GU中的一半节点作为中毒节点,并附加后门触发器以测试攻击成功率 (ASR)。GU中的其余节点保持干净并用于测试清洁准确率 (ACC)。我们还报告了我们的方法在识别中毒节点方面的召回率和精确率。召回率定义为识别出的候选节点中中毒节点占所有中毒节点的百分比。精确率定义为识别出的候选节点中中毒节点的百分比。我们的 RIGBD 部署了一个 2 层 GCN 作为模型架构。每个实验进行 5 次,并报告平均结果。

为了回答问题 1,我们在三个数据集上将 RIGBD 与基线防御方法进行了比较。随机边丢弃的迭代次数设置为 K = 20,丢弃率为 β = 0.5。我们在表 2 中报告了 ASR 和 ACC。从表中我们观察到:(i) 在所有数据集和攻击方法中,RIGBD 始终获得最低的 ASR 分数,通常接近 0%。虽然 Prune 和 OD 等防御方法在抵御 GTA 和 UGBA 攻击方面表现良好,但它们无法防御产生分布内触发器的 DPGBA。这表明 RIGBD 在防御各种类型的后门触发器和后门攻击方面非常有效。(ii) 与 vanilla GCN 相比,我们的 RIGBD 实现了相当或略好的清洁准确度。这表明我们的随机边丢弃方法通常会导致中毒节点的预测方差更高,从而有效识别后门触发器。与这种对中毒节点的精确识别相结合,我们使用等式(6)训练后门鲁棒模型的策略可以显著降低 ASR,同时保持干净的准确率。关于使用不同 GNN 架构的不同丢弃率的 RS 和 RIGBD 的其他结果可以在附录 I 中找到。更多实验结果可见论文。

5.结论

在本文中,我们首先通过经验证明,中毒节点在边缘丢弃时表现出较高的预测方差。然后,我们提出随机边缘丢弃方法,并得到理论分析的支持,以有效、准确地识别中毒节点。此外,我们引入了一种强大的训练策略来开发后门鲁棒的 GNN 模型,即使某些中毒节点仍未识别。大量实验表明,我们的方法可以准确检测中毒节点,显著降低攻击成功率,并保持对各种图后门攻击的准确率。


EvoIGroup
Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学,机器学习,优化和实际(工业)应用上的研究进展。欢迎投稿推文等。联系方式:evoIgroup@163.com。
 最新文章