DRUGAI
今天为大家介绍的是来自同济大学Changjun Jiang团队的一篇论文。GCN能够快速并准确地学习图表征,在许多图学习领域展现了强大的性能。尽管GCN十分有效,但GCN中的邻域感知仍然是一个重要但未完全解决的问题。当前的方法只从节点层面或跳数(hop)层面做邻域感知步骤,这导致了这些方法不能同时从全局与局部视角学习节点的邻域信息。此外,极大多数方法从单一视角学习节点的邻域信息,忽视了多视角的重要性。为了解决以上问题,作者提出了一个多视角的自适应邻域感知方法来有效学习图表征。具体来说,作者提出了三个“随机特征遮盖“的变体操作来扰动一些邻居信息,从而在节点邻域感知层面进一步提升图卷积操作的鲁棒性。同时,作者利用注意力机制自适应地从”跳“层面选取重要邻居。作者还利用多通道技术,提出了多视角损失,从多个视角中感知邻域信息。大量实验证明作者的方法能够得到更好的图表征并达到更高的准确率。该论文的实验代码存储于https://github.com/guangmingjian/MVANA。
图节点的邻域感知过程在GCN的节点表示学习中起着至关重要的作用。因为GCN假设节点表示与其邻居的表示相似(同质性假设),并根据邻居的表示学习每个节点的表示。如果学习了某些不相关或其他类别的邻居信息,节点表示将变得难以区分,从而影响模型的性能。因此,需要一种合理的邻域感知方法。
图 1
为了更好地感知节点的邻域,现有的图分类方法可以分为三大类。第一类是贪婪邻域感知(GNA,greedy neighborhood-aware)方法,不区分邻居节点的重要性。GCN是这一类的典型代表,图1展示了它的邻域感知过程。每次图卷积后,所有节点的邻域感知范围都会增加一跳,同跳的节点被平等对待。超参数l控制所有节点的最远感知跳数。第二类是节点级别的邻域感知(NLNA)方法,通过节点采样技术或注意力机制,选择性地从部分邻居节点中聚合信息。第三类是跳级邻域感知(HLNA)方法,将所有卷积层的输出(跳级表示)拼接在一起,并通过多层感知机制隐式计算它们的重要性。总结来说,GNA是一种贪婪的邻域信息聚合方法,而NLNA和HLNA方法分别从局部和全局角度感知邻域信息。
尽管上述方法有效,但它们忽略了两个关键点。其一是缺乏同时考虑节点级别和跳级别的混合邻域感知(HNA)方法。混合方法可以从全局和局部两个方面感知邻域。其二是忽视了从多个视角感知邻域的重要性。多视角(MV)学习在一些领域,如图像处理中,已经取得了巨大成功。这种学习模式对于图数据也非常重要,主要原因如下:当从不同视角观察同一张图时,每个节点的最佳邻域感知范围可能不同。例如,对于同一个社交网络图,一个用户与在一周内与他接触过的用户关系最密切,当然,也可以是一天内。很容易注意到,在这个例子中,不同的视角(一天或一周)可能会影响我们对关键用户的判断。因此,针对GCN的多视角邻域感知方法非常重要,也是当前所需的。
为了解决以上的问题,作者提出了MVANA网络框架(算法1),框架整体分为三步:1、使用作者提出的多通道HNA编码器,从多个视角感知邻域信息,学习节点表征;2、使用读出(readout)函数来整合节点特征,获得整图的表征;3、使用交叉熵损失函数与作者提出的多视角损失函数计算损失反向传播,使模型学习。后面分三个章节进行讲解。
算法 1
多通道的HNA编码器设计
目的是利用HNA和多视角来提升GCN的编码能力。作者提出的图卷积编码操作展示于图2。宏观上讲,编码器包含三个模块:带RFM的图卷积,自适应的HLNA层,多通道结构。
图 2
带RFM的图卷积。一些NLNA方法通常使用节点采样方法来改变邻域的分布,利用独特的图卷积操作来学习新邻域的表征,比如SAG Pooling、GraphSAGE、DropGNN。其他学者则有不同的观点看法,认为节点采样可能会导致关键节点被移除,潜在导致图层面任务的性能下降。比如,从苯环中移除一个碳原子会将循环结构转变为链式结构。因此,受MAE的启发,作者选择使用RFM(random feature masking)来扰动邻域分布,作为节点采样的替代方案。它可以视为中等形式的节点采样,因为它不扰乱潜在的图结构。更具体地说,节点特征代表节点的关键信息,改变这些特征本质上只修改了节点的信息,影响的只有图卷积层时的aggregate操作,而不影响结构。
而RFM实际上的操作就是将图中一些节点的特征随机设为0。形式化地说,从二元伯努利分布中以遮盖比例q采样得到掩码因子δ,公式为δ=Bernoulli(1 − q),其中δ只有0或1两种取值。此外,与Dropout随机删除神经元类似,RFM同样有着正则化网络的效果。
作者还设计了三种RFM变体(实验设置),包含了不同的使用方法,以更好地利用RFM的潜力。1、训练特征遮盖(Training Feature Masking,TFM):类似于Dropout的设置,在训练时应用RFM,但不在测试时使用。测试时不用RFM可以减少图数据的扰动性,使得模型获得更多节点特征,做出更准确的预测;2、简单特征遮盖(Simple Feature Masking,SFM):受DropGNN启发,作者在训练和测试集上都是用Dropout来保证两个集合呈现相似的分布,同时训练集测试集都应用了RFM;3、混合特征遮盖(Mixed Feature Masking,MFM):受集成学习的启发,MFM利用混合策略来增强视角间的多样性。具体来说,训练时不同通道用着不同的遮盖比例。经过RFM处理过的节点特征放到图G中,作者利用GraphSAGE对图G进行编码,同时使用图尺寸归一化(Graph size normalization)以归一化节点特征和BatchNorm进行批次归一化。
自适应的HLNA步骤。作者为HLNA提出了一个灵活自适应邻域感知方法(soft adaptive neighborhood-awae,SANA)。主要思想是遍历每个跳级层面的表征(即每层GNN处理过后的节点特征),为表征计算一个0到1之间的选择因子(selection factor)。更大的选择因子的表征是更重要的。如果选择银子等于0,就说明对应层的表征被舍弃了。作者用符号M来代表聚集表征,其用来记录通过选择因子混合后的表征(笔者此处认为就是l层的节点表征线性组合得到的表征)。
具体来说,将和拼接起来乘以得到K,随后再将与K拼接起来后乘以得到,将与K拼接起来后乘以得到,和分别是其对应的重要分数(important score)。对重要因子进行softmax化后,可得到每层的选择因子。通过使用选择因子,可以选择性地聚集当前层的表征如公式1所示。在L-1次迭代后,所有层级的表征都被灵活自适应地聚集到中。跟JK-Net不同的地方在于,可以通过选择因子值来知道不同层级表征的重要性。
公式 1
多通道结构。上述的公式仅使用了一个通道,作者还采用了多通道结构从不同视角来感知邻域。具体来说,对于每个通道c,计算第c个通道的编码器输出表征的方法如公式2所示。其中,α是一个超参数用于衡量带RFM的图卷积与自适应HLNA步骤两者之间的重要程度。最后将不同通道的输出表征拼接成Z,即是作者提出的编码器的总输出。
公式 2
Readout函数设计
具体来说,作者对于每个通道c都执行注意力机制,然后将每个通道的表征拼接起来得到Z’(形状为[C, d’, d’])。随后使用2D卷积操作和池化操作处理Z’,如公式3所示。其中卷积核大小为5,池化尺寸为2。
公式 3
损失函数设计
图 3
得到网络预测值Y‘后,使用softmax函数处理Y’,随后使用交叉熵损失函数来计算损失。仅使用交叉熵损失可能并不是最优的,这个损失会像图3a一样进行模型的学习,即多个视角间的邻域感知过程可能是非常相似的。而多样性是集成学习和多视图学习提高性能的一个非常重要的因素。为了解决以上问题,作者额外添加了一个多视角损失(公式4)来监督控制多个视角间的多样性,如图3b所示,鼓励多个通道的输出更加多样化。其中,Zi是图Gi的编码器输出,Div则是一个衡量多通道输出矩阵的多样性的函数。
公式 4
由于对于相同的输入图,当每个通道的参数不一致时,通道的输出会有很大差异。因此,作者假设输出矩阵之间的相似度越低,通道的多样性越高。通过测量通道输出之间的相似度,可以反馈通道参数的多样性。皮尔逊相关系数是衡量特征或矩阵相似度的一种有效方法,作者采用它来实现Div函数(公式5)。公式5中,μ和σ分别代表均值与协方差,Agg函数是平均。
公式 5
最终的损失函数设置为交叉熵损失函数与β倍的多视角损失函数。
实验设置
表 3
作者在六个公开数据集和来自中国某金融机构的四个大规模数据集上评估了MVANA方法。公开数据集包括PROTEINS、DD、NCI1、NCI109、Mutagenicity和REDDIT-MULTI-12K。这些金融欺诈数据集分别为金融机构四个月的数据,命名为Fraud-Dec、Fraud-Apr、Fraud-May和Fraud-Jun。这些欺诈数据集分为两类,分别表示交易是否存在欺诈行为。表3展示了作者所使用数据集的统计信息,主要信息包括数据集名称(Datasets)、领域(Dom)、图的数量(|G|)、每个图的平均节点数(Avg. |V|)、每个图的平均边数(Avg. |E|)以及类别数量(p)。公开数据集来自三个不同的领域,包括生物信息学(Bio)、化学分子(Mole)和社交网络(SN)。其中大部分是二分类数据集,REDDIT-MULTI-12K是一个多分类数据集。
首先介绍公开数据集的训练设置。参考之前的工作,作者使用了10折交叉验证方法和早停技术。具体来说,数据集被分为训练集、验证集和测试集。作者使用的数据集划分种子与之前的工作一致。训练的最大迭代次数为300,patience值为50。模型在测试集上的结果基于在验证集上表现最好的模型,实验指标是准确率的平均值和标准差。对于金融欺诈数据集,由于它们是大规模且不平衡的数据集,与使用的公开数据集不同,因此训练设置略有不同。具体而言,按照一些文献的建议,作者使用AUC作为衡量模型性能的指标。由于在大规模欺诈数据集上进行训练、验证和测试需要较长时间,因此作者使用固定随机划分方法,而不是10折交叉验证。
为了有效评估作者的方法,采用了多种最先进的baseline。一些公开数据集上的结果来自已发表的论文。作者使用了两种GNA方法,包括GCN和Seq2Seq。同时,采用了十种NLNA方法,包括GraphSAGE、SortPool、DiffPool、EdgePool、gPool、SAGPool、HGPSL、MAC、ASAP和GMT。还使用了两种具有代表性的HLNA方法,包括JK-Net和APGCN。此外,作者还选用了两种使用图增强技术提升GNN性能的基线方法,分别是DropGIN和GraphMAE。为了进一步比较,作者还将MVANA与两种多视角方法进行了对比,分别是MVAGC和MVGRL。除了上述方法外,作者还选择了三种欺诈检测方法,包括MLP、RNN和LSTM。
在实验中,采用了以下超参数设置。通道数量固定为4,隐藏层维度为32。Dropout和特征屏蔽比例在0到0.5之间。最大图卷积层的数量为2或3。α在0到1之间,以0.2为步长。β从{0, 1e−4, 1e−3, 1e−2, 0.1}中选择。学习率lr从{1e−2, 1e−3, 5e−3, 1e−4, 5e−4}中选择。根据上述实验设置,作者基于PYG实现了该方法。
实验结果
表 4
表4展示了六个公开数据集的实验结果。大部分实验结果来自之前的研究,其他结果则通过实验获得。通过比较baselinne方法,作者得出以下结论:合理的邻域感知步骤可以有效提升图神经网络的性能,因为NLNA和HLNA基线方法几乎都优于GNA方法。在实验环境中,作者观察到对于NLNA方法,基于采样的策略在大多数情况下往往优于基于注意力的方法。例如,在所使用的数据集中,GraphSAGE在大多数实例中通常优于GAT。APGCN和MAC分别是NLNA和HLNA中性能最好的方法。这两种优秀方法各自适用于不同的数据集,例如,APGCN在Mutagenicity和REDDIT-MULTI-12K数据集上表现更好。
对于DropGIN和GraphMAE这两种方法,它们分别利用了Dropout和特征屏蔽技术,在某些数据集上表现出性能优势。然而,DropGIN的计算成本高于GraphMAE。作者还观察到,两种多视角基线方法MVAGC和MVGRL在所有数据集上均表现出色,表明多视角技术在图分类任务中的有效性。然而,MVGRL在某些数据集上遇到了“内存不足”问题,表明高内存消耗的挑战。对于那些遇到“内存不足”异常的方法,一个可能的原因是它们的复杂性对节点数量敏感,导致在特定数据集(如DD和REDDIT-MULTI-12K)上出现高内存消耗。
通过将MVANA与baseline方法进行比较,得出以下结论。作者的方法非常有效,因为MVANA在所有数据集上都取得了最佳表现。尤其是在REDDIT-MULTI-12K数据集上,提升了5.01%。作为一种HNA方法,MVANA在HLNA或NLNA表现不佳的数据集上依然能取得出色的性能。因此,HNA方法结合了HLNA和NLNA的优点,是一种具有竞争力的方案。
消融实验结果
表 5
表5展示了消融实验的结果。本文引入了三个主要组件,包括RFM、多视角(MV)学习和SANA组件。为了验证每个组件的性能,作者进行了一系列实验,包括移除所有组件、分别将组件添加到基础模型、成对组合组件,以及使用所有组件。在表5中,勾选标志表示相应的实验使用了对应的组件。可以观察到,分别添加每个组件(第2-4行)都比基础模型的性能有所提升,表明了所提出组件的有效性。在这三个组件中,MV组件略优于RFM组件,因为它在两个数据集上表现更好。此外,成对组合组件也比单独使用某个组件表现更好,这表明各组件之间存在兼容性和协同作用。最终,当三个组件全部使用时,所提出的MVANA方法达到了最佳性能,强调了它们的协作关系,而非冲突。
三种RFM变体的分析
表 6
表6展示了三种RFM变体的性能结果。结果表明,SFM、TFM和MFM分别在一个、两个和三个数据集上取得了最佳表现。因此,这三种变体在不同场景中具有一定的适用性,可以作为微调模型性能的超参数考虑。虽然它们没有在所有数据集中都表现最佳,但MFM展现了显著的优势。MFM在所有数据集上至少取得了第二好的表现,并且在实现最佳性能的频率上最高。因此,建议将MFM作为默认的超参数选择,因为它在大多数情况下都表现良好。MFM的成功也强调了混合屏蔽比例在提升模型性能中的有效性。
表 7
为了进一步验证RFM变体的有效性,作者引入了两个额外的变体:使用Dropout节点(DropNode)和Dropout特征(DropFeature)来替代RFM中的MFM。实验结果如表7所示。可以观察到,当用Dropout技术替代MFM时,性能有所下降。特别是用DropNode替代MFM时,MVANA的性能下降最为明显。这表明节点采样可能并不适合图分类问题,这与之前的结论一致。总的来说,在作者的方法框架中,RFM变体在与Dropout技术相比时展示了一定的竞争力。
编译 | 黄海涛
审稿 | 王梓旭
参考资料
Guang, M., Yan, C., Xu, Y., Wang, J., & Jiang, C. (2024). Graph Convolutional Networks With Adaptive Neighborhood Awareness. IEEE Transactions on Pattern Analysis and Machine Intelligence.