论文标题:TDNetGen: Empowering Complex Network Resilience Prediction with Generative Augmentation of Topology and Dynamics
作者:Chang Liu, Jingtao Ding, Yiwen Song, Yong Li
会议:30th ACMSIGKDD Conference on Knowledge Discovery and Data Mining(KDD 2024)
论文链接:https://dl.acm.org/doi/10.1145/3637528.3671934
代码链接:
https://github.com/tsinghua-fib-lab/TDNetGen
预测复杂网络的韧性,即在外部干扰或内部故障中保持基本功能的能力,在理解和改进现实世界的复杂系统中起着至关重要的作用。基于非线性动力学机制的传统理论方法依赖于网络动力学机制的先验知识,但基于数据驱动的方法又经常面临有标签数据不足的问题,使得已有的数据驱动方法作用有限。在本文中,我们介绍了一个新的复杂网络韧性预测框架,通过生成同时包含网络拓扑和蕴含网络动力学机制的节点状态轨迹数据,来解决有标签数据缺失的问题。
01
背景
真实世界中各类领域的复杂系统,如生态系统、基因调控系统和神经网络,通常被描述为由相互连接的节点及其加权连接组成的复杂网络。这些系统的一个基本特征是其韧性,即在面对干扰时维持功能的能力。从动力学系统的角度来看,复杂网络的节点状态演化由其底层的非线性动力学机制驱动。当每个节点的功能特性由其状态值表示时,一个韧性的复杂网络能够从对其节点状态的干扰之后恢复,并自发演化到所有节点都以高活动水平运行的稳定阶段,而非韧性的复杂网络在其节点状态受到较大强度打击之后无法恢复其原有的节点状态活动水平,从而导致系统崩溃(见下图)。
图1. 复杂网络系统韧性的直观理解
理解和预测复杂网络的韧性这一关键特性,不仅增强了我们分析和干预自然及社会系统的能力,还可以为工程基础设施的设计提供帮助。已有工作提出了基于非线性动力系统理论的韧性预测方式,这些理论框架力图实现复杂网络拓扑结构与动力学机制的解纠缠,从而为复杂的高维系统推导出解析解。然而,理论方法通常假设已知节点状态演化的动力学机制的精确公式表示,而在实际情况下,这种精确的公式表示通常是不可获得的。相比之下,数据驱动的方法能够直接从观测数据中提取网络的结构和动力学机制信息,从而在无需预定义知识的情况下进行韧性预测。由此,预测网络韧性的任务可以视作基于网络结构和网络节点状态轨迹数据的图分类问题。然而,从现实世界的复杂网络中收集大量有韧性标注数据是昂贵且不切实际的。换而言之,大多数网络观测数据仍然是未标注的,仅包含网络拓扑和少量节点状态轨迹、且缺乏韧性标签。
本文中,我们致力于在有标注数据稀缺的背景下预测网络韧性,其面临两大挑战:
(1)由于网络结构与动力学机制之间复杂的相互作用,设计韧性预测模型较为复杂,需要充分利用拓扑数据和短时间窗口的部分演化轨迹数据,并充分建模其耦合关系;
(2)在标签稀缺的情况下提升预测准确性,需要充分利用未标注数据中蕴含的网络结构和动力学的内在信息。现有的伪标签方法在预测模型不确定性较高时往往表现欠佳,而已有的基于自监督学习的方法往往忽视了结构与动力学之间的关键相互作用,仅将状态演化轨迹视为节点属性。当前虽然一些图数据增强方法通过利用未标注数据的分布生成多样化的增强样本,以提升模型的预测性能,但在复杂网络系统韧性预测的场景下,有效建模未标注数据中拓扑与动力学的联合分布的挑战仍然尚未解决。
02
模型
本文中,我们首先设计了数据驱动的复杂网络韧性预测模型,进而提出了一种通过对拓扑结构和动力学机制进行联合建模的生成式数据增强方式,解决在标注数据样本有限情况下的复杂网络韧性预测问题。整体设计共包含三个模块:
(1)韧性预测模块(图2):其基于Transformer与图卷积网络(GCN),分别对观测到的轨迹中的节点状态轨迹和网络拓扑中的节点交互进行联合建模。该预测器为复杂网络系统学习一个低维嵌入表示,并基于该表示预测其韧性。
图2. 韧性预测器
(2)拓扑生成模块 (图3):其基于离散生成扩散模型,可用于建模未标注网络拓扑的分布。由此,我们可以所学习的分布中采样出新的与已观测数据相似的网络拓扑。
图3. 拓扑生成模块
3)动力学机制学习模块:我们提出了一种基于神经常微分方程(Neural ODE)的动力学机制学习模块,用于从观测到的轨迹中学习网络的节点状态演化机制。该模块能够模拟由拓扑生成模块生成的拓扑结构的节点状态轨迹。具体而言,其可利用各类图神经网络(GNN)从观测轨迹中学习节点状态的演化过程,公式表示如下:
所提出框架包括三个阶段 (图4):
图4. 所提出框架的整体流程
1.预训练:仅利用数据集中无标签和有标签的节点状态轨迹及网络拓扑,分别训练拓扑生成模块和动力学机制学习模块,使它们学习数据集中网络拓扑的高维分布及数据集所对应系统的动力学机制;使用可获取的有标签数据对韧性预测器进行预训练;
2.数据增强:在预训练的韧性预测器指导下(Classifier-guidance),指定待生成拓扑的韧性性质(即将待生成样本的标签置为1或0),基于拓扑生成模块与动力学机制学习模块生成新的网络数据,包括其网络拓扑及其各节点的状态轨迹,其标签即为预先指定的韧性性质;
3.重新训练:利用生成的网络数据重新训练韧性预测器,提升其韧性预测性能。
其中,2, 3两步可形成一个协同反馈循环,实现对韧性预测器预测性能的迭代式增强。
03
实验
我们首先探究模型在不同动力学机制上的适用性。具体而言,我们选用了具有代表性的共生动力学机制(Mutualistic dynamics),基因调控动力学机制(Regulatory dynamics)以及神经元动力学机制(Neuronal dynamics),这三种动力学机制分别在生态学、生物化学以及神经科学等领域具有广泛的研究应用。结果显示,借助我们提出的数据增强框架,韧性预测器的预测性能能够得到显著改善,性能提升超过已有的基于伪标签、自监督学习和图数据增强的方法(表1)。
表1. 不同动力学机制上的性能表现
我们进一步探究了模型在不同网络拓扑结构上的适用性。具体而言,我们选用了BA模型、S1/H2模型以及SBM模型,它们具有更复杂和异质的结构属性。此外,我们引入了最大包含998个节点的大规模脑网络,其可用于评估我们框架的可扩展性。实验表明,我们的框架仍能在具有复杂结构属性和不同规模的更广泛类型的网络拓扑结构上实现最佳的增强性能(表2)。
表2. 不同网络拓扑结构上的性能表现
进一步,我们在有标签样本数量更有限和动力学状态观测轨迹长度更短的更具挑战性的情境下,测试了我们提出的框架的对韧性预测器预测能力的增强性能,结果表明,所提出的框架对韧性预测器预测性能的增强效果在这些场景下仍然是鲁棒的(图5 & 图6)。
图5. 不同有标签样本数量条件下的性能表现
图6. 不同动力学状态观测轨迹长度条件下的性能表现
04
参考文献
[1] Jianxi Gao, Baruch Barzel, and Albert-László Barabási. 2016. Universal resilience patterns in complex networks. Nature 530, 7590 (2016), 307–312.
[2] Gang Liu, Eric Inae, Tong Zhao, Jiaxin Xu, Tengfei Luo, and Meng Jiang. 2024. Data-centric learning from unlabeled graphs with diffusion model. Advances in neural information processing systems 36 (2024).
[3] Clement Vignac, Igor Krawczuk, Antoine Siraudin, Bohan Wang, Volkan Cevher, and Pascal Frossard. 2023. Digress: Discrete denoising diffusion for graph generation. ICLR (2023).
[4] Ricky TQ Chen, Yulia Rubanova, Jesse Bettencourt, and David K Duvenaud. 2018. Neural ordinary differential equations. Advances in neural information processing systems 31 (2018).
[5] Jingtao Ding, Chang Liu, Yu Zheng, Yunke Zhang, Zihan Yu, Ruikun Li, Hongyi Chen, Jinghua Piao, Huandong Wang, Jiazhen Liu, et al. 2024. Artificial Intelligence for Complex Network: Potential, Methodology and Application. arXiv preprint arXiv:2402.16887 (2024).
[6] Chang Liu, Fengli Xu, Chen Gao, Zhaocheng Wang, Yong Li, Jianxi Gao. Deep learning resilience inference for complex networked systems, Nature Communications (2024).