图神经网络算法实战，用DGL框架、GCN算法，在12个节点的图上进行简单应用

文摘科学 2024-04-15 08:04 浙江

大家好，我是小伍哥，好久没更新了，最近看的东西太混乱，各个方向都有，不知道先写啥，并且工作比较忙，周末恰好抽点时间写一篇。

网上关于的图神经网络的文章，大部分都是在Cora、Citeseer等数据集上实验，并且数据集都已经处理好了的理想数据集。看着挺清晰的，但是套用到业务上的时候，发现无从下手，特别是初学者。因为图神经网络还有一步最难，就是把自己的数据处理成算法能够使用的标准格式。甚至这一步，比图神经网络的训练更难一些。我今天就搞个小型的数据集，写一个GCN的模板，给大家参考下，本次的数据格式如下：

首先我们读取下数据集，需要csv数据样例的后台回复【图数据】：

# 关注小伍哥聊风控，后台回复【图数据】import pandas as pd#训练集操作详情表单data = pd.read_csv('图神经网络样本.csv')data.head(12)

数据集是我自己整理的，这里有12个商家的样本，1为黑样本（大部分可能是卖偏的），0为白样本。IP是这里的介质，我们用IP来构建一个同构图，然后利用商品标题和注册时长、商品数目来作为特征，进行训练、验证、预测。

数据构图

通过last_ip进行自匹配，可以进行简单的同构图转换，当然实际业务中可能有更复杂、更专业的的构图需求，可以参考下我的课程，里面讲了6种构图方式。万物皆网络

# 关注小伍哥聊风控，后台回复【图数据】da = data[['shop_name','last_ip']]
# 通过关键词进行匹配df_join = da.merge(da,on='last_ip')
#df_join = df_join[df_join['shop_name_x']!=df_join['shop_name_y']]df_join = df_join[['shop_name_x','shop_name_y']]df_join.head()  shop_name_x  shop_name_y0  tb4646975812  tb46469758121  tb4646975812  蜜桃资源2  tb4646975812  老客户的福利43  tb4646975812  老客户的福利24  tb4646975812  老客户的福利1

简单的可视化以下，可以看到，大概分为两个群体，以及一个孤立点。图神经网络，通过添加自环的形式，可以对孤立节点，也能很好的进行预测，等下我们可以看看结果。

节点编码

上面我们得到的是中文名称的关系，我们的DGL框架，输入的节点必须是数字类型的，所以我们要对节点进行数字编码。当然也可以写好解码函数，对数字进行还原。scr,dst这两个序列，是我们要输入的图里面去应用的起始节点和目的地节点。用来构图用。df_join这个是把编码后的数字还原回去，大家可以看的更清楚。不如商家名称：tb4646975812编码后的节点ID为0。

#编码方法def encode_map(idx):    p_map = {}for index, ele in zip(range(len(idx)),idx):        p_map[ele] = indexreturn p_map

#解码方法def decode_map(encode_map):    de_map={}for k,v in encode_map.items():         de_map[v]=kreturn de_map

# 对节点进行编码dic = encode_map(data['shop_name'])
print(dic){'tb4646975812': 0, 'wcxsryntzr的小店': 1, '蜜桃资源': 2, '老客户的福利4': 3, '老客户的福利2': 4, '老客户的福利1': 5, '老客户的福利3': 6, '琴忆情感': 7, '月光的陪陪小店': 8, '小白熊爱唠嗑': 9, '我啥都干1577': 10, '贩售声音': 11}
df_join['scr_encode'] = df_join['shop_name_x'].apply(lambda x:dic[x])df_join['dst_encode'] = df_join['shop_name_y'].apply(lambda x:dic[x])
scr = df_join['scr_encode'].to_numpy()dst = df_join['dst_encode'].to_numpy()

构建dgl图

根据编码后的节点，构建dgl的图‍

import dgl#dgl图构建g  = dgl.graph((scr,dst))
#添加自环，否则部分节点无法预测g = dgl.add_self_loop(g)print(g)#通过 to_bidirected 函数去重 还可以通过nx去重g  = dgl.to_bidirected(g)print(g)

特征工程

基础的图构建好了，我们重点就要处理特征工程了，特征有文本和数字，我们先处理文本。

#加载结巴分词import jieba
#进行分词处理data['text'] = data['item_list'].apply(lambda x: ' '.join(jieba.cut(x)))data.head()
#CountVectorizer可以计算m每个词出现的次数from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer
#初始化vectorizer = CountVectorizer(max_features=25,token_pattern=r"(?u)\b\w+\b",min_df = 1, analyzer='word') 
#训练进行vectorizer.fit(data['text'])
#词转换成CountVectorizer向量feat_item = vectorizer.transform(data['text']) 
len(vectorizer_word.vocabulary_)
feat_item = pd.DataFrame(feat_item.toarray())

看着可能不大清楚，我们把单词还原回去看看

# 对字典进行反转onehotdic = {}for k,v in vectorizer_word.vocabulary_.items():    onehotdic[v] = k    feat_item.columns = [onehotdic[i] for i in list(feat_item.columns)]feats = pd.concat([feat_item,data[['days','nums']]],axis=1)feats

每个词表示每个样本包含某个词的个数，和我们的数字特征拼接起来，词限制了top的25个，拼接我们之前的数字特征，就是27个维度了。图神经网络的特征，需要进行归一化。

import pandas as pdfrom sklearn.preprocessing import MinMaxScaler transfer = MinMaxScaler(feature_range=(0, 1))   # 实例化一个转换器类features = transfer.fit_transform(feats)   # 调用fit_trafeatures

然后再转换成tensor格式，这样我们的图，特征，标签就准备好了，下面开始划分训练集、验证集、测试集

import pandas as pdfrom sklearn.preprocessing import MinMaxScaler transfer = MinMaxScaler(feature_range=(0, 1))   # 实例化一个转换器类features = transfer.fit_transform(feats)   # 调用fit_trafeatures

数据集划分

mask操作，相当于常规机器学习的训练集、验证集、测试集划分

# mask操作，相当于常规机器学习的训练集、验证集、测试集划分def sample_mask(idx, l):    """Create mask."""    mask = np.zeros(l)    mask[idx] = 1    return np.array(mask,dtype=np.bool_)
#[ 黑 0, 1, 2, 3, 4, 5, 6,  白 7, 8, 9, 10, 11] 0-6是黑样本，7-11是白样本，1这个样本是独立的# 0 2idx_train = [0,2,3,4,7,8,9]idx_val   = [5,6,10]idx_test  = [1, 11]
train_mask = sample_mask(idx_train, 12)val_mask   = sample_mask(idx_val, 12)test_mask  = sample_mask(idx_test, 12)
masks    = train_mask,val_mask,test_mask

下面是模型构建，这个网上就有很多资料了，我就不多说，哪里都可以找到资料。

import osimport numpy as npimport pandas as pdimport torchimport scipy.sparse as spimport dglimport argparseimport torchimport torch.nn as nnimport torch.nn.functional as Fimport dgl.nn as dglnnfrom dgl import AddSelfLoopfrom dgl.data import CoraGraphDatasettorch.set_default_tensor_type(torch.DoubleTensor)

device   = torch.device('cuda' if torch.cuda.is_available() else 'cpu')in_size  = features.shape[1]out_size = 2


class GCN(nn.Module):    def __init__(self, in_size, hid_size, out_size):        super().__init__()        self.layers = nn.ModuleList()        # two-layer GCN        self.layers.append(dglnn.GraphConv(in_size, hid_size, activation=F.relu))        self.layers.append(dglnn.GraphConv(hid_size, out_size))        self.dropout = nn.Dropout(0.3)
    def forward(self, g, features):        h = features        for i, layer in enumerate(self.layers):            if i != 0:                h = self.dropout(h)            h = layer(g, h)        #h = F.softmax(h,dim=1)        #print(h)        return h
#输入依次为图，结点特征，标签，验证集或测试集的mask，模型#注意根据代码逻辑，图和结点特征和标签应该输入所有结点的数据，而不能只输入验证集的数据def evaluate(g, features, labels, mask, model):    model.eval()    with torch.no_grad():        logits = model(g, features)        logits = logits[mask]        labels = labels[mask]        #probabilities = F.softmax(logits, dim=1)         #print(probabilities)        _, indices = torch.max(logits, dim=1)        correct = torch.sum(indices == labels)        return correct.item() * 1.0 / len(labels)

#输入依次为图，结点特征，标签，训练、验证、测试的masks，模型，epoches#注意根据代码逻辑，图和结点特征和标签应该输入所有结点的数据，而不能只输入验证集的数据def train(g, features, labels, masks, model,epoches):    train_mask = masks[0]    val_mask   = masks[1]    loss_fcn = nn.CrossEntropyLoss()    optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, weight_decay=5e-4)

    # training loop    for epoch in range(epoches):                model.train()        logits = model(g, features)        loss   = loss_fcn(logits[train_mask], labels[train_mask])                optimizer.zero_grad()        loss.backward()        optimizer.step()        acc = evaluate(g, features, labels, val_mask, model)        print(            "Epoch {:05d} | Loss {:.4f} | Accuracy {:.4f} ".format(epoch, loss.item(), acc)             )        model = GCN(in_size, 16, out_size).to(device)

开始训练

可以看到样本很少，第二轮就100%的准确了，验证集和测试数据都是100%

# model trainingprint("Training...")epoches = 5train(g, features, labels, masks, model,epoches)

# test the modelprint("Testing...")acc = evaluate(g, features, labels, masks[2], model)print("Test accuracy {:.4f}".format(acc))
Training...Epoch 00000 | Loss 0.6478 | Accuracy 0.6667 Epoch 00001 | Loss 0.5440 | Accuracy 1.0000 Epoch 00002 | Loss 0.4644 | Accuracy 1.0000 Epoch 00003 | Loss 0.4751 | Accuracy 1.0000 Epoch 00004 | Loss 0.3719 | Accuracy 1.0000 Testing...Test accuracy 1.0000

我们调整下函数，让测试集直接输出概率

# 预测函数 ，我们调整下输出的模式，之前的是0-1分类，我们改成输出预测概率def preds(g, features, labels, mask, model):    model.eval()    with torch.no_grad():        logits = model(g, features)        logits = logits[mask]        labels = labels[mask]        probabilities = F.softmax(logits, dim=1)         return probabilitiespreds(g, features, labels, masks[2], model)
tensor([[0.1665, 0.8335],        [0.6135, 0.3865]])

可以看到，我们的测试集是0和11这这两个样本，0号样本是黑样本的概率为0.8335，,11号样本为白样本的概率为0.6135。如下图带颜色的两个样本，可以看看到，wcxsryntzr的小店 作为孤立节点，特征和黑样本相似，也是预测概率蛮高的，所以图神经网络，对于孤立节点也是有很好的学习能力，不一定是一定都要构成图。

今天就写到这里了，大家觉得有用的，可以给我来个三连。顺带推荐下我的课程，对团伙、关系等进行挖掘，是反欺诈必备的一个技能，有需求的可以看看。

往期精彩：

[课程]万物皆网络-风控中的网络挖掘方法

风控中的复杂网络-学习路径图

风控中的地址标准化处理

信用卡欺诈孤立森林实战案例分析，最佳参数选择、可视化等

风控策略的自动化生成-利用决策树分分钟生成上千条策略

SynchroTrap-基于松散行为相似度的欺诈账户检测算法

长按关注本号 长按加我进群

http://mp.weixin.qq.com/s?__biz=MzA4OTAwMjY2Nw==&mid=2650195786&idx=1&sn=ab726b4c58216824e4add2f72e7e1990

小伍哥聊风控

风控策略&算法，内容风控、复杂网络挖掘、图神经网络、异常检测、策略自动化、黑产挖掘、反欺诈、反作弊等

最新文章

阿里妈妈新一代反作弊平台「DNA」算法揭秘

复杂网络有多复杂？

DataCon2024大数据安全分析竞赛-黄牛挂号日志分析等11大赛题

复杂多模态策略挖掘框架

AI：来，我给大家拉一坨大的！—风控策略自动化挖掘方法研究-内容来自AI生成

风控算法岗位能力模型

粉丝2w了，公众号赚了多少钱？

全球AI攻防挑战赛，凭证篡改检测，大模型生图安全疫苗注入-奖金60w

聚类算法DBSCAN，不用事先指定列别，风控必备

一文读懂金融风控领域的人脸反欺诈技术

NetworkX，一个神奇的可视化库！

诈骗公司都怕的羊毛党.....

[DGL基础系列]-异构图神经网络RGCN节点分类案例

风控求职-200家互联网企业名单

走老路，到不了新地方...

金融风控-通用建模流程

跨境电商风险AI全球挑战赛启动，40万奖金悬赏“AI合规”专家，识别假货、禁限售等等

这个号被黑产盯上了......

业务实战-如何搭建知识图谱？

万物皆网络-风控中的网络挖掘方法

作为风控人，你会找工作么？

多模态知识图谱构建初探

SMP2024大模型图（Graph）分析挑战赛

手机 AppList 数据挖掘实践思路

复杂网络社群检测-Leiden算法实战

策略自动化挖掘、团伙挖掘-课程链接

[DGL基础系列]-图神经网络GCN节点分类实战

一个挺有意思的黑产引流模式...

信贷欺诈风险报告，1个背债人骗贷可达1000万！装修贷、车贷、信用贷、企业贷...

利用决策树分分钟生成上千条策略-代码更新

《风控策略自动化挖掘》课程目录

异常检测算法之OneClass SVM

《风控策略自动化》课程上线

[DGL基础系列]-在DGL中，如何创建一个图？

流程图神器PygraphViz详解

百万奖金池赛事来袭！全球Deepfake攻防挑战赛启动

蚂蚁金服异常检测和归因诊断分析实践

10个节点能构造多少个不同的图？35万亿！！！！！！！

一个特征工程和风险感知的思考

不知道说点啥，文章也不想写了。

新加坡特大洗钱团伙错综复杂的关系网络图

金融欺诈中的亡命之徒-只要征信记录清白，年薪百万不是梦

Graphs原理

图神经网络算法实战，用DGL框架、GCN算法，在12个节点的图上进行简单应用

恶意网址反欺诈实战

20大风控文本分类算法之6-基于BERT的文本分类实战

往期文章汇总：内容风控、策略挖掘、复杂网络、异常检测，风控求职等

风险感知-文本【音变】异感知

[课程更新完了]万物皆网络-风控中的网络挖掘方法

风控求职-吐血整理500家风控企业名单

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉