生成图结构数据是一项具有挑战性的任务,需要捕捉具有置换不变性的节点和边之间的复杂关系。本文旨在使用潜在空间(latent space)基于能量的模型 (energy-based models,EBM) 生成图。我们将潜在空间 EBM 表述为信息先验分布,并与图生成器模型联合训练。并使用短期马尔可夫链蒙特卡洛 (MCMC) 进行后验推理和先验采样过程。为了进一步捕捉图数据的复杂分布,我们提供了另一个版本,用一系列 EBM 替换 EBM 先验,将先验过程转换为扩散过程。使用包括通用图和分子图在内的不同图数据集来验证该方法,证明了潜在空间 EBM 和潜在扩散方法的有效性。
论文题目:Latent Diffusion Energy-based Model for Graph Generation
作者:Jingbang Chen
类型:2024年硕士论文
学校:University of California, Los Angeles(美国加州大学洛杉矶分校))
下载链接:
链接:https://pan.baidu.com/s/1h0w-P6lZgmguVBIFbvm3Mw?pwd=t98w
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
图是一种常见且重要的数据类型,可用于从社交网络到化学分子等各个领域。图由节点和邻接矩阵组成,擅长对关系和结构信息进行建模。在生成分子图的背景下,我们的目标是创建新颖且有效的分子图,这可以有助于发现新药。此外,生成社交网络使我们能够进行行为分析并深入了解社会结构和动态。通过检查网络中个体的相互联系,我们可以理解信息传播、社会影响和社区形成等现象。
图生成模型领域历史悠久,始于 20 世纪 60 年代的传统方法。传统的图生成模型始于 20 世纪 60 年代(Erd˝os 等,1960 年),基于一些数学性质和统计生成过程。然而,这些手工制作的模型过度简化了图分布,因此只能生成一些相似的图,无法对复杂的现实世界图数据进行建模。
图生成模型领域历史悠久,始于 20 世纪 60 年代的传统方法。这些传统模型基于特定的数学属性和统计生成过程。例如,Erd˝os-R'enyi 模型 (Erd˝os et al., 1960) 通过以固定概率随机连接节点来生成图,从而产生泊松度分布。尽管这些手工制作的模型做出了基础性贡献,但它们往往过于简化了图分布。因此,它们只能生成有限种类的类似图,并且难以模拟现实世界图数据的复杂性。现实世界的网络通常表现出诸如社区结构、无标度度分布和高聚类等属性,而这些属性无法被这些简单的模型捕捉到。
近年来,深度学习在众多生成任务中取得了重大成功,能够生成包括图像、文本和语音在内的高维数据。深度生成网络旨在学习训练集的真实数据分布,旨在生成与原始数据集结构略有不同但又与之相似的新数据。然而,与图像和语言数据不同,图具有置换不变性,这意味着节点的排列不会影响图的身份。此属性为建模和生成图带来了额外的复杂性。此外,节点之间(节点依赖性)和节点对之间的依赖关系(二元依赖性)可能非常复杂。生成此类依赖数据需要学习图结构的底层联合分布及其节点和二元属性。因此,采用图上的概率分布作为生成机制对于有效的图学习至关重要。
已经提出了大量用于图形的生成模型。指数族随机网络模型 (ERNM) (Fellows and Handcock, 2012) 表示图形结构和节点属性的联合分布,但依赖于用户定义的充分统计数据来塑造单个网络的全局结构。这种方法限制了其灵活性和对各种图形类型的适用性。潜在空间模型 (Hoff 等人,2002) 也已为图形开发,它将节点表示为潜在空间中的点,并根据该空间中的距离定义边。然而,它很难扩展到不同大小的图形,因为它需要预定义的节点数量。
另一方面,通过强大的解码器将潜在变量的连续空间映射到图的离散空间的深度生成模型有望解决上述挑战。例如,GraphVAE(Simonovsky 和 Komodakis,2018)2 利用基于变分自动编码器 (VAE) 的生成模型,以一次性方式生成新图。该模型可以捕获图的全局结构,但可能难以处理更精细的细节。GraphRNN(You et al.,2018)使用图循环神经网络作为自回归生成模型。该方法可以处理不同的图大小和复杂的结构,但对于大图,计算成本可能会很高。EDP-GNN(Niu et al.,2020)引入了一种基于分数的生成模型,旨在进行边密集预测。MoFlow (Zang and Wang, 2020) 设计了一种创新的可逆映射,并利用基于流的网络从潜在空间生成图形,从而实现图形生成的高效采样和灵活性。还有许多其他最先进的图形生成模型,例如 (Kusner et al., 2017; Jin et al., 2018; G´omez-Bombarelli et al., 2018) 中描述的模型,每个模型都有独特的优势和局限性。
在本文中,我们提出了一种自上而下的潜在空间能量模型 (EBM),用于对复杂的图分布进行建模。自上而下的潜在 EBM 网络由最大似然学习算法训练,该算法基于短期马尔可夫链蒙特卡罗 (MCMC) 的先验和后验采样。它从初始分布开始运行固定数量的步骤,旨在近似目标分布的采样过程,这在计算机视觉和自然语言处理任务中的分布建模方面取得了成功 (Cui et al., 2023; Pang and Wu, 2021)。
此外,我们在学习潜在扩散 EBM 时采用了这种短期 MCMC 方法,用一系列 EBM 取代了传统的 EBM。这种潜在扩散过程将简单的初始分布逐步转换为复杂的目标分布,有效地捕捉了图形数据的复杂性。虽然 Yu 等人(2022 年)之前的工作使用参考模型构建了一个变分推理框架,但我们在推理过程中使用了短期 MCMC,这要简洁得多,而且效率更高。这种方法简化了训练过程,同时保持了较高的模型性能。
图数据结构概述
GraphVAE 建模
MolGAN 概述
GDSS概述
自我小数据集示例
网格数据集示例