点击下方“ 计算机书童 ”卡片,每天获取顶刊论文解读
Graph Convolutional Networks With Adaptive Neighborhood Awareness 图卷积网络与自适应邻域感知 Mingjian Guang; Chungang Yan; Yuhua Xu; Junli Wang; Changjun Jiang
摘要 图卷积网络(GCNs)能够快速且准确地学习图表示,并在许多图学习领域展现出强大的性能。尽管它们很有效,但对于GCNs来说,邻域感知仍然是一个重要且具有挑战性的问题。现有的方法通常只从节点或跳数级别执行邻域感知步骤,导致缺乏从全局和局部视角学习节点邻域信息的能力。此外,大多数方法从单一视角学习节点的邻域信息,忽略了从多个视角感知的重要性。为了解决上述问题,我们提出了一种多视角自适应邻域感知方法来高效地学习图表示。具体来说,我们提出了三种随机特征掩码变体,以扰乱一些邻居的信息,以促进图卷积算子在节点级邻域感知中的鲁棒性,并利用注意力机制自适应地从跳数级别选择重要邻居。我们还利用多通道技术,并引入了我们提出的多视角损失,以从多个视角感知邻域信息。广泛的实验表明,我们的方法可以更好地获得图表示,并且具有高准确性。
关键词 I. 引言 图作为一种数据结构,通常用来描述对象之间的关系。许多现实领域的应用,如化学分子[1]和社会网络[2],都可以用图来表示。从图中学习有效的知识已经引起了广泛的关注。不幸的是,一些成功的欧几里得数据深度学习方法,如卷积神经网络(CNN)[3]、[4]或循环神经网络(RNN)[5],不能直接从图数据中学习知识。为了将这些方法推广到图数据,一些图卷积网络(GCNs)[6]、[7]、[8]、[9]已经被提出,并在近年来展现出优越的性能。GCNs使用图卷积算子将图信息编码到欧几里得空间中的节点表示中,然后通过一些欧几里得空间处理方法进一步转换这些表示,以适用于不同的下游任务,如图分类[10]、[11]、节点分类[12]、[13]。
图节点的邻域感知过程在GCNs学习节点表示中扮演着重要的角色[14]、[15]。因为GCNs[8]假设节点表示与其邻居的表示相似(同质性假设[16]),并基于其邻居的表示学习每个节点的表示。如果学习了一些不相关或其他类别的邻居信息,节点表示将变得无法区分,从而影响模型的性能。因此,需要一个合理的邻域感知方法。
为了更好地感知节点的邻域,现有的图分类方法可以分为三个主要类别。第一类是贪婪邻域感知(GNA)方法,它不区分邻居节点的重要性。GCN[8]是一个典型的代表,图1显示了它的邻域感知过程。每次图卷积后,所有节点的感知范围增加一个跳数,并且同等对待同跳数的节点。超参数l控制所有节点的最远感知跳数。第二类是节点级邻域感知(NLNA)方法,它使用节点采样技术[11]、[17]、[18]或注意力机制[19]有选择地聚合部分邻居节点的信息。第三类是跳数级邻域感知(HLNA)方法,它通过多层感知隐式地计算不同跳数级表示的重要性,并将所有卷积层的输出(跳数级表示)进行拼接[20]、[21]。总之,GNA是一种贪婪方法,用于聚合邻域信息。NLNA和HLNA方法分别集中于从局部和全局视角感知邻域信息。
尽管上述方法是有效的,但它们忽略了两个关键点。一个是缺乏具有节点和跳数级别的混合邻域感知(HNA)方法。混合方法可以从全局和局部两个方面感知邻域。另一个是忽略了从多个视角感知邻域的重要性。多视角(MV)学习[22]、[23]在一些领域,如图像处理中取得了巨大成功。这种学习模式对图数据也非常重要,主要原因如下:当我们从不同视角观察同一个图时,每个节点的最优邻域感知范围可能不同。例如,对于同一个社交网络图,一个用户与过去一周内与他联系过的用户关系最密切,当然,也可以是一天之内。很容易注意到,在本例中,不同的视角(一天或一周)可能会影响我们对重要用户的判断[24]。因此,GCNs的多视角邻域感知方法很重要,目前也是必需的。
本文提出了一种多视角自适应邻域感知(MVANA)图分类方法来解决上述两个问题。具体来说,对于节点级邻域感知步骤,我们提出了三种随机特征掩码(RFM)变体作为图数据增强,并利用GraphSAGE[17]作为邻域聚合方法来编码增强图的信息。引入RFM涉及从某些邻居节点中移除特征,这可以促进模型仅使用部分邻居的特征学习正确的节点表示,并提高鲁棒性。对于自适应跳数级邻域感知步骤,我们提出了一种新颖的软自适应邻域感知方法,它显式地计算不同跳数级表示的重要性,并根据它们的重要性融合所有跳数级表示。结合上述两种方法,我们的方法可以从局部-全局方面感知邻域,也可以被视为HNA方法。为了从多个视角感知邻域,我们采用多通道技术,因为每个通道都可以从独特的视角观察同一个图。然而,多通道利用可能会降低甚至退化为单通道,当多个通道的参数相似时。为此,我们还提出了一种多视角损失来控制不同通道之间多样性的程度。在实验部分,我们的方法应用于多个图分类数据集,包括六个公共数据集和中国金融机构提供的四个大规模数据集。实验表明,我们的方法取得了最佳性能。
II. 相关工作 CNN擅长处理欧几里得数据,并展现出卓越的成功,但它不能直接应用于非欧几里得数据的图。为此,谱卷积神经网络(Spectral CNN)[25]采用傅里叶变换将图转换到谱空间,以更好地识别和分类图信号,成功地将卷积算子推广到图表示学习。然而,Spectral CNN存在高计算复杂度问题。一些谱方法[26]、[27]试图优化它。GCN[8]引入了具有对称拉普拉斯平滑的卷积算子,比以往方法更快、更准确地获得图表示。近年来,GCN及其变体[17]、[19]逐渐成为图表示学习方法中最重要的类别,并已成功应用于众多领域[28]、[29]、[30]。邻域感知是影响GCNs性能的最关键的因素之一[14]、[15]。根据邻域感知模式,大多数图分类方法可以分为GNA、NLNA和HLNA方法。接下来,我们介绍这三个类别。
GNA方法聚合特定跳数内的所有邻居,并且平等对待这些邻居。GCN[8]通常堆叠多个图卷积层,每个图卷积为每个节点聚合其所有第一跳邻居的表示。GIN[39]是GCN[8]的一个简单变体,它增强了卷积算子的表示能力,并且可以近似等于WL测试。GIN也是一个GNA方法,因为它采用了与GCN[8]相同的聚合方法。DCNN[40]定义了一个卷积传播算子,使用矩阵幂级数来封装图扩散。
NLNA方法通常采用节点采样技术或注意力机制,有选择地从部分邻居节点中聚合信息,区别对待邻居。GAT[19]对每个邻居的表示进行评分并计算它们的注意力。GraphSAGE[17]为每个节点随机采样固定数量的邻居。邻域的随机扰动可以提高模型的鲁棒性。一些基于采样的池化方法,如gPool[34]、SortPool[31]、HGP-SL[32]、ASAP[41]和MAC[33],对局部邻居进行评分,删除得分较低的节点以形成粗化的图。每次卷积都在这个新的粗化图上执行。由于这些方法移除了一些节点,只有剩余的部分节点参与邻域感知步骤。NLNA主要关注节点对局部邻域的重要性。
HLNA方法从跳数级别计算邻居的重要性以执行邻域感知步骤。欧几里得数据通常使用欧几里得距离来度量数据的距离,但图使用跳数来定义图节点的距离。以节点为中心,其高跳邻居通常被认为与节点的连接较弱。不同层的GCN的输出分别感知不同的跳数级邻域。一些方法,如JK-Net[20]、SGC[21]和SSGC[35],将所有卷积层的输出(跳数级表示)进行拼接,并通过多层感知隐式地计算所有跳数级表示的重要性。Liu等人[42]提出了一种自适应残差图神经网络来执行HLNA步骤,增强图神经网络对异常节点特征的鲁棒性。Huang等人[43]用递归单元替换了跳跃连接,并将其集成到GCN的信息聚合过程中,以减轻节点分类任务对于节点分类任务中的噪声邻域信息聚合。因为这些方法以端到端的模式学习注意力,所以它们也可以被称为软HLNA。AP-GCN[36]自适应地计算每个节点的感知跳数,并显式地知道每个节点感知了多少跳邻居。因为这种方法确切知道要移除哪些邻域,所以它也可以被称为显式HLNA。与NLNA不同,HLNA从全局视角执行邻域感知步骤,并且平等对待同一跳上的邻居。
图数据增强技术[44]、[45]、[46]、[47]、[48]通常对原始图应用各种变换,有效地扩展数据集以缓解过拟合问题或作为对比学习[50]中创建多样化视图[49]的关键方法。因此,一些图表示学习方法经常结合图数据增强方法,并展示出它们的有效性。例如,一些方法[18]、[51]、[52]、[53]采用Dropout来移除节点或特征以正则化网络并增强模型鲁棒性[54]。此外,一些方法采用节点或特征掩码[2]、[55]、[56]来增强图数据,取得了有效的性能。为了使图编码器更好地感知图结构,一些研究[55]、[57]利用节点或特征的重构损失来监督网络重构掩码实体的能力。
目前,一些多视角方法在其他领域取得了巨大成功。IBRNet[23]使用多层感知和射线变换器来学习多个源视图上的信息,以处理图像处理中的新视图合成任务。DMVST-Net[22]分别从时间、空间和语义视图提取图像信息,以获得具有多视图信息的表示。MVAGC[37]采用多视角图卷积层来生成描绘不同图结构的视图,通过度量学习技术实现。GraphDIVE[49]利用参数扰动策略获得输入的不同视图,并采用多个专家对每个视图进行预测。这项工作在图分类方法中首次解决了类别不平衡问题,表现出色。Khan等人[58]引入了一种新颖的合并子空间表示技术来合并多视图网络数据。他们使用图神经网络在合并的图上学习节点表示,并有效地将这种方法应用于解决全球贫困问题。MVGRL[38]引入了一种图自监督学习技术,通过对比两个结构视角(直接邻居和图扩散)的嵌入来获取节点和图级别的表示。MV-HetGNN[59]利用多视角表示学习来广泛捕获局部结构中的复杂异质性和语义,从而为异构图生成全面和全面的节点表示。这种方法具有洞察力,并在各种异构图任务中表现出色。
表I总结了邻域感知图分类方法的属性和类别。与大多数方法不同,我们的方法是一种HNA方法,并且可以从多个视图执行邻域感知步骤。
III. 提出的方法 在这一部分,我们介绍我们的方法的细节。第III-A节介绍一些符号定义。第III-B节展示了我们方法的总体框架。其余小节是我们方法的重要组件。
A. 预备知识 符号表示:一个图可以表示为 ,其中 是节点集, 是边集, 是节点特征矩阵。每个节点 对应一个 维特征向量 ,其中 是 的第 行。且 表示 的所有第一跳邻居节点,即 。 给定一组图 和一组标签 用于图分类任务,其中 是一个独热编码的标签向量, 是类别数。设 是第 个图属于第 个类别的概率,其中 和 ,即 的第 个元素。图分类任务的目标是找到一个映射关系 。 图卷积网络:GCNs 可以用来通过 个图卷积层将 的图拓扑和节点特征编码为节点表示矩阵 ,其中 是隐藏层维度。图卷积的过程通常可以引用消息传递[60]的形式。第 层图卷积的节点表示向量 可以表示为: 其中 是一个聚合函数(例如,LSTM、mean、GRU), 表示一个激活函数(例如,Relu[61]), 是一个可学习的参数矩阵。为了方便,我们将上述公式简化为: 其中 和 分别是第 层的节点表示矩阵和图卷积算子。 B. 总体框架 在这项工作中,我们提出了 MVANA 以实现 GCNs 的自适应邻域感知。主要步骤如下。首先,我们构建了一个多通道 HNA 编码器,它从多个视图和节点-跳数级别感知邻域,并将非欧几里得空间中的图编码为欧几里得空间中的节点表示张量。接下来,使用一个读出函数来压缩图节点并获取图表示。最后,我们使用交叉熵损失来缩小预测值和真实值之间的距离。我们还包括了一个多视图损失函数来控制多个视图之间的多样性。在以下小节中,我们以图 为例介绍这三个关键组件。具体来说,第III-C节介绍了多通道 HNA 编码器;读出函数和损失分别在第III-D和III-E节中介绍。 C. 多通道 HNA 编码器 在这一部分,我们介绍了我们提出的多通道 HNA 编码器。我们的主要目标是采用 HNA 和多视图学习来提高 GCN 的编码能力。给定一个图 ,所提出的图卷积编码过程如图 2 所示。宏观上,我们的编码器由三个模块组成:具有 RFM 的图卷积、自适应 HLNA 步骤和多通道结构。接下来,我们分别介绍这三个模块。 具有 RFM 的图卷积:一些 NLNA 方法通常采用节点采样技术来改变邻居的分布,并使用特定的图卷积算子来学习新邻域分布的表示,例如[11]、[17]、[18]、[31]。然而,[62]中的作者强调了节点采样可能导致关键节点被移除的担忧,这可能会影响图级任务的性能。例如,从苯环中移除一个碳原子会将环状结构转变为链状结构。因此,受掩码自编码器[55]、[63]的启发,我们选择使用 RFM 来扰动邻域分布,作为节点采样的替代方法。这种方法可以被视为一种更温和的节点采样形式,因为它不会破坏底层图结构。此外,节点特征代表了节点的重要信息,改变这些特征本质上改变了节点信息,这影响了图卷积层对邻域信息的聚合。 具体来说,这个模块使用 RFM 来扰动 的特征,以提高我们编码器在 NLNA 中的鲁棒性。 中一些节点的特征被随机设置为 0,这就是 RFM。如图 2 所示,每个节点只感知其邻居的部分特征。在这种具有挑战性的环境中训练,节点表示的获得不那么依赖于所有特征。此外,类似于 Dropout[64] 随机删除神经元,RFM 也具有正则化网络的效果。接下来,我们正式描述 RFM。 正式地,我们从具有掩码比率 的二项式伯努利分布中随机采样来执行 RFM,即: 其中 是 的掩码因子。这项工作在后面的章节中详细设置了如何采样 ,将在算法 1 中明确展示。并且 我们设计了三种 RFM 变体,每种变体涉及不同的使用方式,以更好地利用 RFM 的潜力。这些变体如下:1) 训练特征掩码(TFM):与 Dropout[64] 的常见设置类似,我们在训练期间应用 RFM,但在测试期间不使用。在测试期间排除它减少了对图数据的干扰,允许模型访问更多节点特征并进行更准确的预测。2) 简单特征掩码(SFM):受[18]的启发,作者在训练和测试集上使用 Dropout[64]以确保两组具有相似的分布。SFM遵循他们的设置,在两组上都应用 RFM。3) 混合特征掩码(MFM):受集成学习[65]、[66]的启发,MFM 使用混合策略来增强不同视图之间的多样性。具体来说,不同的通道在训练期间使用不同的掩码比率。MFM 有时表现出 TFM 和 SFM 的特征,原因如下。首先,MFM 仅在训练集上应用 RFM,类似于 TFM 的设置,反映了 TFM 的特征。其次,在掩码率相对较小或甚至为零的特定通道中,模型可以在训练和测试集中几乎感知所有特征,反映了 SFM 的特征。 有了 ,我们随后使用 GCN 来编码 ,并执行图大小归一化[67]操作来归一化节点表示,如下: 其中 ,我们利用 GraphSAGE[17]来实现 GCN。我们还执行 BN[68] 操作如下: 其中 表示方差, 是一个常数,防止分母为 0, 和 是两个与比例和偏移相关的可学习参数。通过使用这两种归一化,可以增加 GCN 的收敛速度。 自适应 HLNA 步骤:在这个模块中,我们提出了一种软自适应邻域感知(SANA)方法来处理 HLNA。主要思想是遍历每个跳数级表示 并为该表示计算一个介于 0 和 1 之间的选择因子。具有大选择因子的表示是重要的。当选择因子为 0 时,其对应的跳数级表示被丢弃。我们使用聚合表示 记录并融合所有被选择因子选中的跳数级表示。 具体来说,我们连接 和跳数级表示 ,并转换它们以捕获两者之间的关系,即: 其中 是一个可学习的参数矩阵, , 是一个连接操作符。然后,我们对 和 进行评分如下: 其中 是一个可学习的参数矩阵, 和 分别是 和 的重要性得分。选择因子可以如下获得: 其中 是选择因子。有了选择因子,我们有选择地聚合当前层的跳数级表示如下: 经过 次迭代聚合后,所有跳数级表示都被软自适应聚合到 中。 我们已经完成了 SANA 方法的计算步骤的介绍。接下来,我们将提供关于所提出的 SANA 实现 HLNA 步骤的操作原理的补充解释,并说明其为何被视为表 I 中的软和显式 HLNA 方法。 假设我们有一个图 ,自环, ,通过自适应传播[36]获得的最优传播步数为 ( )。由于选择因子 遵循二项式伯努利分布,所以 。根据上述实现步骤,我们可以递归地推导出: 其中 表示第 层的选择因子。如果 且 ,则软自适应传播将简化为自适应传播。对于 的情况,我们只需要将 扩展为向量,也可以使 SANA 方法简化为自适应传播。 总之,这种实现与 JKNet[20] 相似,因此被视为软 HLNA 方法。然而,与 JKNet[20] 不同,我们的特点在于能够通过选择因子的值了解各种跳数级表示的重要性和主导性。因此,我们的 SANA 方法也可以被视为显式 HLNA 方法。 多通道结构:上述公式只使用了一个通道。我们还采用多通道结构从多个视图感知邻域。具体来说,对于每个通道 ,我们计算第 个通道编码器的输出 如下: 其中 是一个超参数,用于权衡图卷积与 RFM 和自适应 HLNA 步骤的重要性。当 时,编码器可以退化为没有 SANA 的网络。最后,所有通道上聚合的表示被连接在一起,作为我们编码器的输出 ,即 总之,本小节介绍了我们的编码器,它将图信息编码为欧几里得空间中的节点表示张量 。我们的编码器采用了三个主要模块,前两个用于实现 HNA,最后一个用于多视图学习。 D. 读出函数 本小节的目标是采用读出函数将节点表示张量 压缩为图表示,即 。由于 2D 卷积和池化操作在提取 3D 张量方面表现出色,我们使用它们来提取和压缩 。不幸的是, 的维度对于不同的图是不同的,因为图的节点数量不同,即 是一个未知值。由于输入维度不确定,我们无法计算 2D 卷积操作的输出维度,也无法定义后续全连接层的输入维度。因此,我们利用我们之前的工作[10],它利用注意力机制[69]、[70],将 映射到固定维度的张量,然后输入到 2D 卷积操作中。 正式地,对于每个通道 ,我们对 执行注意力转换如下: 因此,可以通过 (14) 和 (15) 获得 。我们可以观察到 在转换过程中被降低,并且引入了一个新的变量 ,可以设置为超参数。然后,我们可以通过连接所有通道 的输出来获得注意力表示 。 有了 ,我们继续通过 2D 卷积和池化操作来压缩它。设 和 分别表示卷积和池化操作。该过程可以正式写为: 其中 表示多层感知, 是我们的读出函数的输出,也是我们对 的预测,卷积核大小为 5,池化大小为 2。 E. 损失 损失函数可以指导网络学习参数,并作为学习目标发挥关键作用。一个好的损失函数可以使模型更具通用性。本小节中,我们介绍我们的损失函数。 有了前一小节的计算,我们可以为训练集上所有图获得预测值。设 为所有图的预测值集合,通过我们的图编码器和读出函数获得。我们执行 Softmax 函数以获得不同类别的预测概率,即, 然后,我们可以使用交叉熵损失来计算这些预测值与真实标签之间的距离,以优化网络参数,即, 然而,这可能是次优的,因为我们不能控制多个视图之间的多样性。例如,这个损失可能会学到如图 3(a) 所示的模型,两个视图的邻域感知过程可能非常相似。多样性是集成学习[65]和多视图学习[71]中提高性能的非常重要的因素。 为了缓解上述问题,我们额外添加了一个多视图损失来监督和控制多个视图之间的多样性,如图 3(b) 所示。损失函数被惩罚,并鼓励多个通道输出之间的更多多样性。具体来说,我们定义多视图损失如下: 其中 是我们编码器对 的输出, 是一个测量多通道输出矩阵 之间多样性的函数。接下来,我们介绍这个函数的实现和原理。 因为对于相同的输入图,当每个通道的参数不一致时,通道的输出会非常不同。因此,我们假设输出矩阵之间的相似度越低,通道多样性越高。我们可以通过测量通道输出之间的相似度来提供通道参数多样性的反馈。皮尔逊相关系数[72]是测量特征或矩阵相似度的有效方法,我们用它来实现 函数,即, 其中 和 分别表示均值和协方差。在这项工作中,我们使用平均值来实现 。 ,当其值为 0 时,矩阵之间的相似度最低,当其值为 -1 或 1 时,矩阵具有最高的相似度。因此, 在 (19) 中可以用来测量通道之间的多样性。 其中 是多样性损失学习因子,可以控制多样性的程度。实际上,我们也可以添加一个重构损失[55]来恢复掩码特征。然而,考虑到时间效率和计算复杂性,我们在工作中没有采用这种技术。表 II 显示了整个工作中使用的符号及其相应的描述。使用 MFM 的 MVANA 的训练过程如算法 1 所示。 F. 时间复杂度 编码器部分是我们的主要工作,因此本小节主要讨论我们编码器的时间复杂度。我们编码器的主要时间复杂度来源是 RFM、SANA 和图卷积。MFM 在三个 RFM 中具有最大的时间复杂度,因为它执行了 C 次特征掩码。概率采样可以通过 Alias 方法[73]以 O(1) 时间复杂度实现。因此,MFM 的时间复杂度是 O(Cn)。接下来,我们介绍 SANA 的时间复杂度。方程 (7)-(9) 使用矩阵乘法操作,其时间复杂度为 O(2nd^2 + 2nd + 2nd) = O(2nd^2 + 4nd)。Softmax 的时间复杂度为 O(n)。(11) 的时间复杂度也是 O(n)。因此,SANA 的时间复杂度为 O(2nd^2 + 4nd + 2n),且 C 通道的 SANA 的时间复杂度为 O(2Cnd^2 + 4Cnd + 2Cn)。GCN 的图卷积操作的时间复杂度为 O(|E|d^2) [8]。我们的是 O(C|E|d^2),因为我们的编码器有 C 个通道。 总之,我们编码器的时间复杂度为 O(Cn + 2Cnd^2 + 4Cnd + 2Cn + C|E|d^2)。通常,|E| > n,因此复杂度大约为 O(C|E|d^2)。 IV. 实验 本节我们展示 MVANA 的实验。我们首先提供我们使用的 数据集的统计信息。然后在第 IV-B 节中,我们介绍实验设置。为了检验我们方法的性能,我们在第 IV-C 节中使用公开可用的小数据集进行实验验证。我们还在第 IV-D 节中通过消融实验评估每个组件的有效性。因为我们在前面部分介绍了三种 RFM 变体,所以在第 IV-E 节中我们对三种 RFM 变体和两种 Dropout 变体进行全面的比较分析。为了理解每个重要参数的特性,我们在第 IV-F 节中绘制了几个超参数的变化曲线并进行讨论。最后,在第 IV-G 和 IV-H 节中,我们分析了我们方法在欺诈检测中的表现,并提供了图表示的可视化,以加强对我们模型的理解。 A. 数据集 我们评估了六个公共数据集和中国金融机构提供的四个大规模数据集上的 MVANA。公共数据集是 PROTEINS[74]、DD[74]、NCI1[75]、NCI109[75]、Mutagenicity[75] 和 REDDIT-MULTI-12K[76]。金融欺诈数据集是来自金融机构的四个月数据,分别命名为 Fraud-Dec、Fraud-Apr、Fraud-May 和 Fraud-Jun。这些欺诈数据集有两个类别,表示交易是否为欺诈。表 III 显示了我们使用的数据集的统计信息。主要信息包括数据集名称(Datasets)、领域(Dom)、图的数量(|G|)、每个图的平均节点数(Avg. |V|)、每个图的平均边数(Avg. |E|)和类别数(p)。公共数据集来自三个不同的领域,包括生物信息学(Bio)、化学分子(Mole)和社会网络(SN)。它们中的大多数是二分类数据集,包括一个多分类数据集 REDDIT-MULTI-12K。 B. 实验设置 为了评估我们提出的方法的性能,我们采用相同的实验设置来公平高效地比较最先进的基线。接下来,我们从训练设置、基线和超参数设置三个方面介绍实验设置。 训练设置 :我们首先介绍公共数据集的训练设置。遵循之前工作[10]、[11]、[32]、[33],我们使用10折交叉验证方法和早停技术。具体来说,我们将数据集分为训练集、验证集和测试集。我们用于划分数据集的种子与[33]一致。最大训练周期数为300,耐心值为50。模型在测试集上的结果是在验证集上表现最佳的结果。报告的结果是准确度的均值和标准差。对于欺诈数据集,这些是大规模不平衡数据集,与我们使用的公共数据集不同,因此训练设置略有不同。具体来说,正如一些文献推荐[77],我们使用AUC作为衡量模型性能的指标。模型需要在大规模欺诈数据集上进行训练、验证和测试,因此我们使用固定的随机划分而不是10折交叉验证方法。 基线 :为了有效评估我们的方法,我们采用了许多最先进的基线。一些在公共数据集上的报告结果来自已发表的论文[33]、[55]。两个GNA方法被使用,包括GCN[8]和Seq2Seq[78]。我们使用了十个NLNA方法,包括GraphSAGE[17]、SortPool[31]、DiffPool[79]、EdgePool[80]、gPool[34]、SAGPool[11]、HGPSL[32]、MAC[33]、ASAP[41]和GMT[81]。我们还使用了两个代表性的HLNA方法,包括JK-Net[20]和APGCN[36]。包括DropGIN[18]和GraphMAE[55]在内的两种方法利用图增强技术来增强GNNs,也被包括在基线中。此外,我们还将MVANA与两种多视图方法进行了比较,包括MVAGC[37]和MVGRL[38]。除了上述方法,我们还选择了三种欺诈检测方法,包括MLP[82]、RNN[83]和LSTM[84]。超参数设置 :在我们的实验中,我们采用了以下超参数设置。通道数固定为4。隐藏层维度为32。dropout和掩码比率在0和0.5之间。使用的图卷积层的最大数量为2或3。 在[0, 1]范围内以0.2为步长选择。我们从 中选择 。我们从 中选择学习率 。根据上述实验设置,我们基于PYG[85]实现了我们的方法。代码可在 https://github.com/guangmingjian/MVANA.git 获取。C. 公共数据集上的实验结果 表 IV 报告了六个公共数据集上的实验结果。大多数实验结果来自[33]。其他结果是通过第 IV-B 节的实验设置获得的。 通过与基线的比较,我们可以得出以下结论。合理的邻域感知步骤可以有效地提高图神经网络的性能,因为NLNA和HLNA基线几乎总是优于GNA方法。在我们的实验环境中,对于NLNA方法,我们观察到基于采样的方法在大多数情况下优于基于注意力的方法。例如,在我们使用的数据集上,GraphSAGE通常优于GAT。APGCN和MAC分别是NLNA和HLNA中表现最好的方法。这两种优秀的方法在适用的数据集上表现更好,例如,APGCN在Mutagenicity和REDDIT-MULTI-12K上表现更好。对于DropGIN[18]和GraphMAE[55],这两种方法分别利用Dropout[64]和特征掩码技术。它们在某些数据集上表现出性能优势。然而,DropGIN[18]的计算成本高于GraphMAE[55]。我们可以观察到,两种多视图基线MVAGC[37]和MVGRL[38]在所有数据集上都取得了令人印象深刻的性能,表明多视图技术对于图分类任务的有效性。然而,MVGRL[38]在某些数据集上遇到了“内存不足”的问题,表明其高内存消耗的挑战。对于那些遇到“OOM”异常的方法,一个可能的原因是它们的复杂度对节点数量敏感,导致在特定数据集上(如DD和REDDIT-MULTI-12K)内存消耗高。 通过比较MVANA与基线,我们可以得出以下结论。我们的方法有效,因为MVANA在所有数据集上都取得了最佳性能。特别是在数据集REDDIT-MULTI-12K上,改进了5.01%。作为一种HNA方法,MVANA能够在HLNA或NLNA不佳的数据集上取得优异的性能。因此,旨在结合HLNA和NLNA优势的HNA方法是一种有竞争力的方法。 D. 消融实验 上一小节评估了我们模型的整体性能。但之前的结果无法表明所提出的各个组件的有效性,以及哪些组件对我们的模型至关重要。在本节中,我们报告了消融实验的结果,以分析各个组件的影响。 表 V 报告了我们的消融实验结果。本文介绍了三个主要组件,包括 RFM、多视图(MV)学习和 SANA 组件。为了验证每个组件的性能,我们进行了一系列实验,包括移除所有组件、单独将我们的组件添加到基础模型中、成对组合组件,以及一起使用所有组件。在表 V 中,勾选表示实验使用了相应的组件。可以观察到,单独添加我们的每个组件(第 2-4 行)与基础模型相比都有所改进。这表明了我们提出组件的有效性。在这三个组件中,MV 组件略微优于 RFM 组件,因为它在两个数据集上表现更好。此外,将提出的组件成对组合也比单独使用单个组件有所改进,表明任意两个组件之间是兼容且具有协同作用的。最终,当使用所有三个组件时,我们提出的 MVANA 实现了最佳性能,突出了它们的协作关系而非冲突。 E. RFM 变体分析 第 III-C 节介绍了三种 RFM 变体。在本节中,我们研究它们的有效性。表 VI 报告了三种 RFM 变体的性能。结果表明 SFM、TFM 和 MFM 在一个、两个和三个数据集上实现了最佳性能。因此,这三种变体在不同场景中都有一定的适用性,并且可以被视为微调模型性能的超参数。尽管它们中没有一个在所有数据集上都表现最佳,但 MFM 表现出显著的优越性。MFM 在所有数据集上至少实现了第二好的表现,并且获得最佳表现的频率最高。因此,我们推荐 MFM 作为默认的超参数选择,因为它在大多数情况下都表现良好。MFM 的成功也突出了混合掩码比率在提高模型性能方面的有效性。 F. 超参数分析 为了使模型更具可扩展性,我们的方法引入了一些超参数。在本节中,我们可视化了四个超参数的变化趋势,以帮助我们理解这些超参数的特性,如图 4 所示。我们可以观察到以下结论:1) 同一超参数在不同数据集上的曲线趋势差异很大。例如,对于超参数 ,在 之后,三个数据集呈现下降趋势,但数据集 PROTEINS 在 时取得了最佳值。2) 我们的模型对这些参数很敏感,因为不同超参数之间的最佳和最差性能差距在 1% 到 4% 之间。3) 不同数据集上的超参数最优值通常不同,除了 在所有数据集上都以 4 为最佳值。4) , , 和 分别是这些超参数实现最佳性能的范围。 G. 金融欺诈检测中的应用 在本节中,我们评估了 MVANA 在中国金融机构提供的金融欺诈数据集上的性能,实验结果如图 5 和表 VIII 所示。我们可以观察到我们在所有四个数据集上都取得了最佳性能。MVANA 的 ROC 曲线是所有模型中最外层的,我们在 AUC 指标上排名第一。特别是,我们的方法在数据集 Fraud-Dec 上的 AUC 比排名第二的方法高 15%。因此,我们的方法也可以应用于大规模金融欺诈数据集。 H. 可视化分析 如图 6 所示,我们可视化了五个模型在数据集 DD 上学习到的全局图表示,以更好地理解我们的方法。为了在 2D 空间中可视化原始数据集,我们使用了 T-SNE 降维。我们提取了基线的特征,然后在输入到 Softmax 之前进行了可视化。以下是我们的结论:1) 原始数据集的特征重叠非常高,两个类别难以区分。这表明拓扑结构对于这个数据集的分类非常重要,节点特征不能提供足够的分类信息。2) 这些 GCNs 可以被视为图编码器,它们可以通过多次线性和非线性变换将图的拓扑结构和节点特征信息编码为线性可分的全局图表示。3) SAGPool 的类别边界重叠度较低,但其他基线学习到的图表示具有高类别重叠度。4) 我们的方法学习到的图表示在类别边界上具有非常高的分离度,表明我们的方法可以很好地学习图表示。 V. 结论 本工作提出了一种新颖的多视图自适应邻域感知图分类方法,以提高 GCNs 感知邻域的能力。我们的方法能够同时从节点和跳数级别感知邻域信息,这与大多数只从节点或跳数级别学习表示的方法不同。此外,我们提出了一种多视图损失,可以改善不同通道之间的邻域感知多样性。我们在公共数据集和金融机构的欺诈检测数据集上进行了广泛的实验来评估我们方法的有效性。结果表明,我们的方法有效,并且能够更好地将图信息编码为欧几里得空间中的表示。 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。 你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童 为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己 论文 的介绍、解读 等。
稿件基本要求:
• 文章确系个人 论文的解读 ,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编