TPAMI 2024 | 基于框架正则化的图去噪

文摘   2024-11-20 19:00   中国香港  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Graph Denoising with Framelet Regularizers

基于框架正则化的图去噪

作者:Bingxin Zhou; Ruikun Li; Xuebin Zheng; Yu Guang Wang; Junbin Gao

源码链接:https://github.com/bzho3923/GNN_DoT

论文创新点

  1. 双项正则化(DOT)平滑器:提出了一种新的图正则化方法,通过在特征和结构两个方面同时去噪,增强了图数据的鲁棒性。
  2. 变换域噪声测量:引入了一种新的方法来在变换域中测量图信号的噪声水平,使用L1和L2,1范数代替传统的L2范数,以促进稀疏性和减少过平滑。
  3. 基于ADMM的优化框架:采用交替方向乘子法(ADMM)来优化提出的正则化模型,确保了模型在多种噪声条件下的有效性和鲁棒性。

摘要

现实世界中收集的图数据通常包含噪声,这使得开发鲁棒的图表示学习工具变得迫切。尽管现有研究主要关注特征平滑,但底层几何结构的鲁棒性经常被忽视。此外,图神经网络(GNNs)中普遍使用的L2范数实现全局平滑,缩小了许多局部特征,限制了它们对节点邻域信息的表达能力。本文介绍了旨在解决图数据中特征和结构噪声的新型正则化项。我们采用交替方向乘子法(ADMM)来优化目标函数。我们提出的方法有效防止了在应用多层时图信号表示的过平滑,并确保收敛到最优解。我们的实证结果表明,我们提出的DOT在流行图卷积中,特别是在图严重污染的情况下,性能优于其他方法。

关键字

  • 图神经网络
  • 约束优化
  • 框架变换
  • 谱方法

1 引言

数据质量对于可靠建模至关重要,尤其是当非抽样误差显著影响估计结果的置信度时。这一问题已在网格数据和面板数据的背景下得到广泛研究。作为具有几何结构和特征的一种特殊类型的数据,图也面临类似的挑战。例如,在COVID-19诊断的社交网络图中,患者(节点)可能会夸大症状(节点属性)或隐瞒联系(边),可能导致由于邻域信息聚合不准确而对社区风险水平的误分类。
图神经网络(GNNs)已成为图表示学习中的主导方法,因为它们在各种几何深度学习应用中显示出了有希望的经验性能。然而,最近的研究揭示了许多图卷积层,如GCN和GAT,倾向于过度处理基于L2的图拉普拉斯去噪的图信号,使得难以区分簇间顶点。这种公认的过平滑问题导致模型性能在捕捉到图的几何内部复杂关系之前显著下降。为了解决这个问题,研究人员要么通过谱方法引入高通信息来包括强烈的局部信息,要么引入偏差以在模型拟合度和平滑度之间取得平衡。虽然图特征平滑受到了越来越多的关注,但对结构去噪的探索仍然明显不足。研究人员倾向于关注防御图敌意攻击,这通常假设敌对攻击者进行的小规模操纵。然而,这些场景并不普遍适用于任意图描述的系统,也不对图中的所有实体构成威胁。由于GNNs假设连接节点之间具有相似属性,当连接被污染或不确定时,模型估计的可靠性就会受到损害。
图平滑和去噪的探索不足自然引发了我们的第一个研究问题:如何在嘈杂的图中测量特征信号和结构空间的平滑度?设计不应过度简化或忽视图的复杂几何结构,而应反映其关键属性,如连通性。同时,测量应考虑训练GNNs时固有的陷阱,例如过平滑。为了设计一个实用的解决方案,解决我们的第二个问题是至关重要的:如何设计一个适应各种图卷积层的鲁棒机制?这将使我们的设计能够补充现有的图卷积技术并增强其性能。
为了解决这些问题,我们提出了一种基于框架的双项(DOT)平滑器,用于图正则化。DOT检测并消除图表示中的噪声,同时保留核心图属性。节点去噪、边去噪和近似约束共同构成了总体优化框架,如图1所示。我们通过图范数测量噪声水平,惩罚权重由节点度数加权,确保高度活跃的节点(具有更多邻居的节点)容忍较小的污染风险。对于特征噪声,我们用L1范数替换了普遍的L2范数,以促进变换域中的稀疏性,而不过份追求平滑性。对于几何噪声,我们使用L2,1范数将错误集中在连接的节点上,并减少显著估计误差的可能性。理论和实证评估都证明了我们的方法与现有技术相比的有效性。我们还提供了收敛性分析来证实其性能。此外,我们在各种任务中与流行的去噪技术进行了比较评估,我们提出的DOT在性能上始终优于其他方法。

3 图卷积和L2平滑器

本节探讨了图信号去噪的等价表达式。我们考虑一个无向图,记作,包含个节点,节点由维属性特征化,边连接由邻接矩阵描述。为了保持简单,本节的分析将省略非线性激活函数。主要符号列在表1中。

3.1 空间图卷积

围绕图平滑的图信号去噪的流行技术通过修改的狄利克雷能量函数强制执行连接节点的特征平滑。它通常包括一个保真度项,以确保平滑表示接近输入表示,通常使用凸距离度量,如欧几里得距离(L2范数)。
定理 1. 考虑一个图平滑问题在输入表示
其中图的平滑度由狄利克雷能量度量。归一化的图拉普拉斯处理自邻接矩阵和图的度矩阵。最优解的一阶近似是
证明. 为了获得目标函数的最优解,我们计算偏导数
这给出, 从而, 因此。一阶泰勒展开给出。给定,最优结果的一阶近似是
一阶近似是一种广泛使用的消息传递方案,称为GCN[6]。它涉及使用归一化邻接矩阵平均一跳邻居表示,使用可学习的权重矩阵将高维原始输入投影到较低维度。这个传播规则可以看作是一个低通滤波器,有效地平滑了图信号的细粒度细节。在消息传递框架内探索了不同的聚合策略的各种空间卷积,如GAT[7]、APPNP[10]和SGC[48]。尽管采用了不同的传播规则,但这些方法旨在优化与(1)相似的目标,即在去噪图信号和保持输入信号的平滑度和保真度之间寻求平衡[5]、[25]、[36]。

3.2 谱图卷积

与空间对应物相比,谱图卷积在产生额外操作(如平滑)之前将图信号变换到频率域。
定理 2. 对于给定的变换,一个基于谱的图卷积通过优化平滑输入信号
其中表示相对于干净信号在频率域中的变换系数。最优解
证明. 通过将替换为重写(2),得到
图拉普拉斯,其中的特征对。然后
对目标函数取偏导数,最优解是
上述解类似于谱图卷积,正式定义为:
与图拉普拉斯的特征向量密切相关,由所选变换类型决定,如傅里叶[49]、小波[19]和框架[9]变换。与空间卷积不同,这种类型使图信号处理能够跨多个通道进行,同时处理局部和全局平滑[52]。
系数矩阵通过低通和高通滤波器将图信号投影到不同通道,有效地分离局部和全局平滑操作。虽然这个过程在一定程度上减轻了对过平滑的担忧,但由于L2正则化器的影响,恢复的图信号仍然经历了全局过平滑,这往往会抑制区域波动。为了解决这个挑战,我们从信号处理技术中汲取灵感,引入了与图连通性相关的噪声测量。

4 图信号的噪声

本节针对我们的第一个研究问题,概述了用于图平滑和子空间提取的正则化项。我们从图信号去噪的传统分析模型开始,然后引入旨在过滤节点和结构噪声的正则化项。

4.1 基于分析的图正则化

我们首先考虑观察到的图信号,其中代表真实的图信号,E表示节点上的污染。去噪目标是近似一个鲁棒表示U,用于真实的图信号,从观测X中获得。为了在变换域中对图表示施加稀疏先验,我们采用基于分析的模型,并假设变换域中的系数矩阵是稀疏的。无约束的最小化问题是
其中表示从离散变换中得到的线性变换。特别是,我们采用未衰减图框架变换(见第4.3节)来详细说明不同尺度和层次上的图信号平滑。高通道系数的惩罚由L1-范数控制,假设局部污染在变换域中松散存在。数据保真度由平滑凸函数量化,例如经验风险最小化。

4.2 惩罚函数设计

为了近似鲁棒图表示U用于节点特征和Z用于邻接矩阵,我们为节点和边噪声设计了明确的正则化项。

4.2.1 具有谱稀疏性的顶点特征

遵循[38]中的方法,我们通过
来衡量信号近似的稀疏性和相似性,其中图范数)以节点的度数为权重,对每个节点的错误进行加权,对高度数节点施加更大的惩罚。

4.2.2 具有自表达的边连接

基于图卷积的基本假设,我们假设连接的节点共享共同特征,类似于稀疏子空间聚类,其中自表达性表示组内信息流。我们通过约束每个节点作为其邻居的稀疏线性组合来强化这一假设。对于噪声数据E 定义在(4)中,我们最小化
误差项E使用L2,1,G-范数进行正则化,以最小化高度数节点上的属性误差。

4.3 离散框架变换

框架变换将输入图信号分解为变换域中的一个低通和多个高通系数矩阵。低通矩阵捕获了整体信号趋势,平滑了不必要的细节,而高通系数描绘了小波长上的局部、细粒度波动。它旨在训练一个模型,以产生去噪图信号的鲁棒表示,尤其是在区分稀有局部模式和扰动时。通过变换到框架域,图信号的噪声水平可以通过图系数在高通分量中的稀疏性来衡量。我们采用了快速未衰减图框架变换[9],[38]进行高效的多通道去噪。正式地,小波框架或框架定义为一个滤波器组 (其中K个高通滤波器)和其图拉普拉斯L的特征对 。低通和高通滤波器分别表示为a和b(k),保留了输入图信号的近似和详细信息。在尺度级别l=1,...,L,节点p的低通和第k个(k=1,...,K)高通未衰减框架基表示为:
其中 表示由 定义的关联尺度函数。给定信号x 的节点p在尺度l的框架系数是投影 。Haar型滤波器与扩张因子 被用于成本效益的变换。
为了减轻框架变换的计算成本,我们使用m阶Chebyshev多项式 来近似尺度函数 。对于给定的级别L,我们定义了l=1的全套框架系数为:
对于l=2,...,L,
其中扩张尺度H满足 。在这个定义中,最细的尺度是 ,这保证了 对于

5 双项图信号去噪

本节针对第二个研究问题构建图去噪方案。使用未衰减框架变换系统评估信号稀疏性,该系统使用L个m阶Chebyshev多项式通过一组正交分解算子W将图信号变换为低通和高通框架系数,产生长度为(KL + 1)的序列,其中K个高通滤波器和L个尺度级别。

5.1 ADMM未衰减框架去噪模型

我们将去噪层的前向传播解释为优化迭代。输入X表示嘈杂的原始信号或其隐藏表示。我们的目标是找到U和Z,它们构成了没有污染的清洁图特征和结构表示集。我们将这个双项优化模型简称为DOT。

5.1.1 目标函数设计

联合节点和边去噪的目标是:
受到以下约束:
中我们鼓励第k个高通元素在第l个尺度级别的框架系数的稀疏性,其中B := {(0, L)} {(k, l), }。可调参数集 与紧分解算子Wk,l在高通中相关联。我们表示U 为N个节点的信号近似,与L相应的图拉普拉斯和X噪声输入。
上述函数可以改写为变量分裂策略。定义Y = Z - diag(Z)和Q := WU,即,Qk,l := Wk,lU ,然后
受到以下约束:
相关的增广拉格朗日是

5.1.2 ADMM更新方案

目标函数使用交替方向乘子法(ADMM)[42]来更新六组参数。在迭代t+1时,1) U(t+1) = ;2) Z(t+1) = ;3) E(t+1) = ;4) Y(t+1) = ;5) Q(t+1) = ;6) 更新 s 和 s:
伪代码在算法1中总结,更多细节在附录A中。值得注意的是,我们对原始变量U、Z、E、Y、Q进行迭代更新,但也可以实践并行更新方案[57]。

5.2 主要算法的收敛性

在我们的提议方案中,我们将原始优化问题(11)作为神经网络的一个组成部分。之前,我们使用ADMM方案来解决增广拉格朗日问题(13),其中Z和U都作为网络层的输出。ADMM更新方案的每个迭代,具体来说,作为一个神经网络层,负责从{U(t-1), Z(t-1)}过渡到{U(t), Z(t)}。我们接下来分析ADMM算法(13)的收敛性。

5.3 消融去噪模型

除了提出的全部DOT去噪优化外,我们将目标分解为几个子任务,以检查这些单独组件的有效性。我们还与通常用于信号去噪的TV正则化器以及一些图节点去噪任务[37]、[38]进行比较。

5.3.1 节点特征去噪

我们制定了一个节点特征去噪模型,与(6)类似,并使用ADMM而不是Split-Bregman方法[43]来优化目标。相关的增广拉格朗日问题是:
其中 。ADMM基于的解决方案是:
  1. 更新
在更新 的第一步中,由于矩阵 是对角的,其逆可以快速计算,无需任何近似操作。此外,第二步中的更新规则与(18)相同,可以应用相同的批操作。

5.3.2 边连接去噪

我们现在深入研究用于处理嘈杂边连接的混合L2,1正则化。这种正则化也是更广泛目标函数(12)的一个子集,定义如下:
受到以下约束:
,其增广拉格朗日是:
通过 的更新规则是:
矩阵求逆可以使用线性或Cholesky求解器进行近似,以便于计算。

5.3.3 节点特征的TV正则化器

除了在(20)中对框架系数应用L1范数外,正则化器也可以直接应用于噪声原始信号,使用TV正则化器进行节点去噪。通常,TV正则化器用于信号去噪,也已用于一些图节点去噪任务[37]、[38]。形式上,目标函数定义如下:
其中 表示可调超参数,L表示未归一化的图拉普拉斯。
上述函数中 的更新规则相对直接。通过设置 ,我们得到:

6 数值实验

本节比较了DOT与流行的图去噪层和三个消融模型的性能。我们通过在七个同质和异质图上的节点分类任务来评估DOT的有效性,这些图受到不同类型噪声(特征、结构、混合)的影响。所有实验都是在配备有5120个CUDA核心和16GB HBM2的NVIDIA® Tesla V100 GPU上的HPC集群上使用PyTorch进行的。实现可在 https://github.com/bzho3923/GNN_DoT 上找到。

6.1 实验协议

我们评估DOT在对抗特征和/或结构扰动方面的鲁棒性。我们引入了一种预处理图污染方法,使用黑盒投毒方案。

6.1.1 数据集和基线

我们的实验包括七个以无向图为特征的基准数据集,包括来自引文网络的四个同质基准网络(Cora、CiteSeer和PubMed[63]、[64])和Wiki-CS[65],以及三个异质网页基准数据集(Wisconsin、Texas和Cornell[66])。我们评估DOT与七个杰出基线的性能,这些基线应用于受节点和边污染影响的图输入。这些基线包括AIRGNN[58],它具有自适应残差消息传递方案,ELASTICGNN[36]通过基于L1的图平滑增强局部平滑自适应性,APPNP[59]避免全局平滑的残差连接,GCNII[60]结合初始残差和恒等映射对抗过平滑,GCN-JACCARD[61]检测和恢复潜在的敌意扰动,PROGNN[4]通过低秩、稀疏性和顶点相似性防御结构级敌意攻击,R-GCN[62]结合基于方差的注意力以减轻敌意攻击的传播。虽然我们设计的去噪模块与任何传统卷积兼容,但我们展示了它们对GCN[6]的影响,GCN[6]在顶点域中进行基于L2的全局平滑,GAT[7]提供自适应全局消息传递,具有自注意力聚合器,UFG[9]采用快速未衰减框架变换,通过收缩激活对图扰动具有额外的鲁棒性。

6.1.2 训练设置

在没有真实图信号的情况下,我们使用黑盒投毒方法。对于具有二进制节点特征的数据集(例如Cora、CiteSeer、Wisconsin和Texas),我们引入了25%的污染比例,通过添加随机二进制噪声。对于具有实数节点特征的数据集(例如PubMed和Wiki-CS),我们注入了标准差为0.25的高斯白噪声。边扰动涉及随机破坏25%的边,同时保持受污染连接的总数。它移除了12.5%的边,然后添加了14.3%的新边,以匹配原始图的总受污染连接。
在模型训练期间,我们将隐藏神经元固定在16个,dropout比例固定在0.5,并使用ADAM[67]作为优化器。基线特征两个图卷积层由一个激活函数和一个dropout层隔开。激活函数分别固定为GCN和GAT的默认选择,即ReLU和eLU。去噪层放在第二个卷积层之前,紧接着另一个dropout层。我们省略了第一个卷积层之后的激活操作,因为去噪层类似于非线性激活过滤潜在特征。所有模型对多类分类任务使用SOFTMAX激活。训练过程包括200个周期,关键超参数通过网格搜索进行微调。具体来说,学习率和L2权重衰减在中搜索,UFG的扩张在中变化,对于基本卷积。当使用去噪层进行训练时,我们固定学习率、权重衰减、扩张和(等于1),然后调整中和中。其他未指定的超参数遵循PyTorch Geometric[68]的默认值。

6.2 混合扰动下的节点分类

表2提供了DOT在预测受节点属性和边连接污染影响的图的节点标签方面的性能改进的全面比较分析,即受混合噪声影响的图。结果包括所有方法在十次重复中的平均准确性及其在七个基准数据集上的平均排名。我们的观察表明,DOT在近似嘈杂图信号和拓扑方面展现出比传统图卷积更高的鲁棒性。它甚至优于为抵御敌意攻击、连接污染和稀疏局部信号扰动而设计的成熟去噪模型。这种卓越的性能始终将DOT增强的基础模型置于最高排名,并且方差最小。我们还评估了我们的方法相对于各自原始版本的性能提升百分比。在DOT的基础上添加显著提升了基础模型的性能,最高可达40%。这一显著改进强调了DOT在通过恢复受各种形式污染的图输入的鲁棒表示来增强任何图卷积方法的能力,特别是对于那些难以处理局部多样化输入且富含复杂细节的方法。

图3报告了在Cora数据集上,DOT与基线GCN相比在不同级别的节点(左)和边(右)噪声下的性能提升,噪声范围从0%到50%。在节点和边噪声的两种情况下,GCN-DOT始终优于纯GCN,展现了两种方法之间显著的性能差距。当噪声水平较高时,增强型GCN(带有DOT层)的优越性尤为明显。当图被边噪声污染时,由于违反了连接节点共享相似属性的平均聚合机制的基本假设,GCN的性能显著下降。相反,DOT在变换域中系统地分析节点和边连接,以找到图信号的鲁棒表示,确保了对于下游任务(如节点分类)的一致和可靠的隐藏嵌入。

6.3 消融研究

消融研究比较了DOT与5.3节中列出的三个变体在各种类型的扰动下的性能,包括混合、节点和边噪声。来自10次重复的结果在图2中可视化,并在附录C中详细说明。我们将具有节点和边去噪模块的消融模型分别表示为node-ADMM和edge-ADMM。具有TV正则化的节点去噪模块被命名为node-TV。

在同时受到节点和边属性扰动的情况下(第一行),DOT显示出比基线模型(蓝色框)显著的性能提升。特别是,DOT在所有消融方法中始终表现最佳,比其他方法高出41%。node-ADMM方法始终获得第二高的成绩,突出了近似鲁棒节点表示对节点表示学习的重要性。相比之下,边去噪的影响不那么明显。edge-ADMM列中的大多数得分仅比基线略有提高,因为图的边连接主要影响图嵌入的质量。由于我们的模型可以在变换空间中近似鲁棒的节点嵌入,对连接性的辅助扰动预计不会主导预测性能。
为了探索去噪模块对严重污染的有效性,我们进一步将节点级和边级扰动的噪声比提高到50%。这种放大突出了各个模块对不同噪声类型的不同响应。如图2的第二行和第三行所示的比较分析,阐明了节点和边噪声对模型性能的不同影响。DOT特别是在减轻节点噪声方面表现突出。这种差异源于DOT的边去噪模块,旨在最小化邻接矩阵信息的方差范数。当原始输入包含最小的结构噪声时,额外的惩罚项,即edge-ADMM,对整体性能的影响不大。此外,尽管node-TV方法专注于去噪节点扰动,但其性能表现不佳,原因是L2基于迹的正则化器不足以解决许多消息传递层面临的过平滑挑战。另一方面,DOT和edge-ADMM在边去噪任务中都取得了最佳性能。而node-ADMM和node-TV方法落后于包含显式边去噪模块的方法。这一观察强调了设计特定的边去噪模块的重要性。每当难以确定结构噪声是否可以隐式去除时,包含边模块是明智的。因此,正如DOT建议的那样,联合优化鲁棒的边和节点表示,导致在受污染的图上实现符合预期的鲁棒整体性能。

6.4 学习曲线和敏感性分析

为了研究DOT引入的额外超参数对同质图Cora和异质图Wisconsin的影响,我们保持优化的学习率和权重衰减,同时变化四个模型独有的超参数(详见6.1.2节)。全面的网格搜索评估了所有组合的模型性能,结果在图4中显示,表明最佳性能和波动性。例如,在第一个子图中标题为'Cora (dilation)',最佳性能(蓝线)是为扩张值绘制的。扩张=2的结果总结了超过100种组合的性能,这些组合的扩张=2固定,并变化。在两个基准测试中,模型的四个超参数在调整范围内变化时均实现了稳定的性能,并且方差相对较小。这表明模型的性能对这些额外的超参数表现出相当的不敏感性。值得注意的是,扩张和对模型性能的影响很小,合理范围内增加会带来轻微的改进。因此,我们推断引入额外的超参数并没有显著增加DOT的优化工作量。

图5调查了消融模型在CiteSeer上的学习过程,使用UFG卷积。与基线(无去噪层的UFG卷积)和消融模型相比,DOT(橙色)快速收敛,并达到具有较低损失和较高准确性的稳定点。方差也减少了,展示了DOT稳定可靠的学习过程。

7 结论

本文提出了一种鲁棒的优化方案,用于近似图特征和结构的弹性表示。图噪声是使用双项正则化进行评估的,微调框架系数以创建稀疏、鲁棒的节点表示,同时将邻接矩阵中的不确定性集中在小社区中,影响有限。通过一系列前馈传播实现最优图表示,其中每层作为优化迭代。这些更新朝着鲁棒图表示的精确解收敛,有效地消除不规则的图波动,同时保持表现力。我们提供了全面的理论支持,并进行了广泛的实证验证,强调了我们的去噪方法对节点和/或边污染的有效性。实验表明,与基础模型和其他基线方法相比,在各种噪声类别和水平上都有显著改进。虽然我们的方法有效地学习了各种图数据和噪声类型的鲁棒表示,但值得注意的是,我们的方法和其他许多图去噪方法很少应用于大规模数据集。这可能是因为少量噪声数据(例如,几千个条目)对小型数据集的影响更大。在分析大规模数据集(例如OGB基准)时,捕获和优化此类噪声远不如开发内存高效算法迫切。尽管如此,为大规模数据集应用设计快速便捷的去噪模型是未来研究的一个有希望的方向。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章