技术分享 | DGL分布式GNN

文摘 2024-09-09 09:31 上海

DGL分布式GNN技术分享

1.背景

图是一种由节点和边组成的数据结构。在现代社会，图结构数据无处不在，如分子数据、社交网络等。图神经网络（GNN）作为分析这类数据的强有力工具，正受到越来越多的关注。随着数据规模的增长，传统的单机单卡GNN已无法满足需求。分布式图神经网络通过在多个设备上并行处理数据，显著提高了数据处理的效率。DGL（Deep Graph Library）采用数据并行策略，实现了分布式GNN的训练。

数据并行化分布式GNN训练流程：

数据划分：将数据分配到多个设备上，可采用随机分配或metis等图划分算法。
模型初始化：使用相同的随机种子，对模型进行初始化，保证模型的初始参数完全一致。
训练阶段：

数据采样：各设备独立采样训练节点。
模型训练：计算损失函数并反向传播得到各个设备上的梯度。
梯度同步：将不同设备产生的梯度信息共享到其他设备，确保不同设备的梯度一致。
梯度更新：使用梯度对模型参数进行更新，由于不同设备上的初始参数一致，每一次更新的梯度也一致，所以模型参数始终保持一致。

测试阶段&评价阶段：使用单台设备进行测试和评价。

2.基于DGL的数据并行化分布式GNN训练

数据划分过程：

如果单个设备能够存储完整图数据，则复制到每台设备并分配训练节点；否则，使用metis等图划分算法进行数据切分。

metis算法介绍：

metis算法是一种图划分算法，主要用于将一个图划分成若干个部分，使得每个部分的节点数尽可能接近，并且跨部分的边数量尽可能少。

metis算法的核心思想是通过迭代的方法，逐步优化图的划分。它采用递归二分的方法。在每次迭代中，算法会选择一个节点作为”分割点“，然后尝试将这个点所在的部分与其他部分分开。分割点的选择基于多种因素，包括节点的度、节点的连接性等。

在下图中，我们展示了一个用metis算法将图划分成4个part的结果。可以发现metis算法尽可能的将有边的节点分到了同一个子图中。

主要组件：

采样器(Sampler)：DGL基于远程流程调用技术（RPC）实现了分布式采样。用户可以在DGL使用与单卡场景下相同的api调用分布式采样器进行邻居采样。采样生成的小批量子图会被送回到训练器中，供训练器使用。
训练器(Trainer)：数据并行化分布式GNN训练过程中会有许多训练器。对于每个训练器，负责使用从采样器中获得的小批量子图和从嵌入存储器中获得的数据计算得到更新的梯度信息。
服务器(Server)：主要负责梯度同步和存储图数据。在DGL使用PyTorch后端的情况下，使用PyTorch的all-reduce进行地图同步。其他后端（MXNet和TensorFLow）下使用服务器同步梯度。

嵌入存储器(Embedding/Value Memory)：服务器的一个子模块。负责管理节点和边的数据，可以通过api取出和写入数据。

下图展示了DGL分布式图神经网络的整体训练流程，图结构数据和嵌入信息，被保存在服务器中。采样器会根据图结构获取mini-batch子图，然后将子图发送给训练器。训练器可以通过访问服务器中的嵌入存储器获取所需要的节点和边的信息。经过训练后，训练器会将产生的梯度信息发送回服务器，服务器会将梯度信息进行同步。

3.技术特点

数据并行化

采用数据并行化的方式，将训练数据直接分配给每个训练器，避免了训练过程中的复杂数据通信。只需要在数据采样和梯度同步的过程中进行通信，极大的简化了通信过程。

可扩展性

采用数据并行化技术，能够充分的利用多块显卡上的更多的计算资源，能够更高效的在大规模图数据上进行训练。

4.在OpenHGNN上的实践

线程划分

产生多个线程，线程的数量和要使用的gpu的数量相等。

import torch.multiprocessing as mp
mp.spawn(self.distributed_run, nprocs=num_gpus)

分布式初始化

使用pytorch的分布式初始化api进行初始化。

num_gpus=len(self.config.gpu)
torch.distributed.init_process_group(
    backend="gloo",
    init_method=f"tcp://127.0.0.1:12391",
    world_size=num_gpus,
    rank=proc_id,
)

分配gpu

为每个线程分配gpu。

self.config.gpu = self.config.gpu[proc_id]

模型训练

训练过程的代码基本和单卡的训练代码相同。

if self.config.gpu < 0:
    self.config.device = torch.device('cpu')
elif self.config.gpu >= 0:
    if not torch.cuda.is_available( ):
        self.config.device = torch.device('cpu')
        warnings.warn("cuda is unavailable, the program will use cpu instead. please set 'gpu' to -1.")
    else:
        self.config.device = torch.device('cuda', int(self.config.gpu))

# test add profiler
if self.config.mini_batch_flag == False:
    if hasattr(self.config, 'max_epoch'):
        self.config.max_epoch = self.config.max_epoch // num_gpus

if hasattr(self.config, 'line_profiler_func'):
    from line_profiler import LineProfiler
    prof = LineProfiler
    for func in self.config.line_profiler_func:
        prof = prof(func)
    prof.enable_by_count()

self.config.logger = Logger(self.config)
set_random_seed(self.config.seed)
trainerflow = self.specific_trainerflow.get(self.config.model, self.config.task)
if type(trainerflow) is not str:
    trainerflow = trainerflow.get(self.config.task)
if self.config.hpo_search_space is not None:
    # hyper-parameter search
    hpo_experiment(self.config, trainerflow)
else:
    flow = build_flow(self.config, trainerflow)
    result = flow.train()
    if hasattr(self.config, 'line_profiler_func'):
        prof.print_stats()
    return

总结

分布式GNN训练更充分的使用了多级多卡的算力，能够更快的处理大规模的图数据。数据并行化方法在各种分布式GNN训练方法中，是逻辑最清晰、实现最简洁的一种。

实验室算法库简介

两算法库均获得OpenI启智社区“社区优秀孵化项目奖”

GammaGL：

GammaGL是一个基于TensorLayerX实现的开源的多框架的图神经网络（GNN）算法平台，该框架抽象出图数据、消息传递、采样等组件，已经实现了二十余种图数据集和四十余种术界经典GNN算法。 GammaGL发布0.5版本 https://github.com/BUPT-GAMMA/GammaGL

OpenHGNN：

OpenHGNN是一个基于深度学习框架PyTorch和图神经网络框架DGL作为底层框架的异质图神经网络（HGNN）工具包。该工具包专注于HGNN的算法模型，抽象出了数据集管理、算法流程、任务评测等模块，提供了超参数调优组件和最优的超参数设置，发布了HGNN设计空间和Benchmark等。OpenHGNN发布0.7版本OpenHGNN：https://github.com/BUPT-GAMMA/OpenHGNN

北邮 GAMMA Lab

北邮图数据挖掘与机器学习实验室

最新文章

专题解读 | 大语言模型上下文窗口扩展方法

专题解读 | 大语言模型在推荐场景的实践

专题解读 | EDA中逻辑综合的算子序列优化问题

快讯｜北邮GAMMA LAB的四篇工作被AAAI 2025录用

专题解读 | 大语言模型辅助代码文档生成

专题解读 | 动态图计算技术研究进展

专题解读 | 知识图谱表示学习发展概览

专题解读 | 知识蒸馏再升级：用大语言模型赋能图神经网络

LoG2024速递 | 去芜存菁：经典GNN三次问鼎SOTA的反思

专题解读 | 多层GNN训练如何提升效率？

专题解读 | 大语言模型在可解释推荐领域的应用

IEEE TBD 2024 | 以数据为中心的图学习研究综述

快讯 | 北邮GAMMA Lab两篇论文成功被DATE接收

专题解读 | 图基础模型最新研究进展

大语言模型与图结构的融合：推荐系统中的新兴范式

专题解读 | 大语言模型在序列推荐中的应用

Graph为Code Intelligence赋能！

专题解读 | 图检索增强生成研究进展

NeurIPS 2024 让大语言模型使用代码解决图分析推理任务

专题解读|异配图表示学习研究进展

专题解读| Graph Transformer 最新研究进展

GAMMA LAB 2024 秋游团建活动圆满成功

专题解读 | 让大模型正确表达置信度

专题解读｜多模态图学习

专题解读| 大语言模型长文本训练技术解析

专题解读｜代码图概念与应用

专题解读 | 基于图的推荐系统中长尾问题探究

专题解读 | LLM与GNN的结合：数据增强的视角

专题解读 | 混合专家模型在大模型微调领域进展

微调之外的大模型应用技术

技术分享 | LLM Powered Agents概念与实践

WWW24 | 从数据中心化的角度校准图神经网络

WWW24 | 分布偏移下的图公平性学习

技术分享 | DGL分布式GNN

SMP 2024大模型图分析挑战赛在线评测已开放

快讯｜北邮GAMMA LAB的一篇工作被ICCAD 2024 录用

报名参赛赢大奖 | SMP 2024大模型图分析挑战赛

技术分享 | GraphStore & FeatureStore

GammaGL发布0.5版本

OpenHGNN发布0.7版本

专题解读 | 大语言模型中的提示隐私保护

KDD 24 | 基于特权结构识别的分子不变学习

专题解读 | 大语言模型中的记忆设计

图基础模型综述发布V3版本

ICML 24 | 基于特征基匹配的图蒸馏

专题解读 | 图结构公平性

实验室出征WWW2024：学术交流与多彩活动

ICML 24 ｜过犹不及：揭示Graph Transformers 中的过全局化问题

快讯｜北邮GAMMA LAB的两篇工作被KDD 2024 录用

快讯｜北邮GAMMA LAB的两篇工作被ICML 2024 录用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉