KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

科技 2024-12-14 11:45 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

ACM SIGKDD（简称 KDD）始于 1989 年，是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。KDD 2025 将于 2025 年 8 月 3 日在加拿大多伦多举办。

近日，阿里安全交互内容安全团队与浙江大学软件学院周晟老师团队针对多标签分类场景的图神经网络增强技术的联合研究成果《Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification》被 KDD 2025 收录。这也是 NeurIPS 2024 之后，双方合作的第二篇顶会成果。

论文地址：https://arxiv.org/pdf/2411.17350

图神经网络（GNNs）已经在图数据挖掘的节点分类、链接预测的任务中都取得了巨大成功。对于节点分类任务，传统图神经网络主要关注各节点数据单标签类别的场景。而在现实世界中，许多节点属于多个类别，而不是单一类别，如社交网络中的用户多兴趣，风险用户往往关联了多个风险域，使得 GNNs 在处理多标签场景时可能会面临新的问题。

在这项工作中，我们分析了多标签分类场景对于 GNN 本身消息传递机制带来的潜在问题，将其归纳为节点特征和拓扑结构的模糊性，进而提出了 CorGCN 进行解决。

具体来讲，CorGCN 首先学习与多标签相关的节点特征并将它们分解为多个标签感知特征；基于此，进一步分解出多个标签感知图进行图增强；最终在标签感知图上进行关联增强的图卷积。

1. 研究背景

本研究重点关注于如何增强图神经网络在多标签节点分类的能力。在现实世界中，图上的节点更多情况下属于多个类别，而不是单一类别，使得 GNNs 在处理多标签场景时可能会面临着特征和拓扑结构的模糊性问题，这降低了图数据中信息传递的准确度，并影响了图数据中的标签相关性建模。

我们首先将多标签节点分类场景的特点归纳如下，图 1 给出示意和 PCG 数据集 [1] 上的分析实验。

图 1：（a）多标签节点分类区别示例；(b)-(c) PCG 数据集上的模糊特征和模糊拓扑。

（1）模糊特征（Ambiguous Feature）：在单标签设置中，节点可以通过转换特征从邻域节点中聚合特定类型的标签模式。然而，在多标签设置中，与非图数据上的数据特征存在模糊问题类似，一个节点的特征可能与多个标签相关，特征所代表的模式是模糊的。因此，从这些模糊特征中聚合信息将影响节点表示的区分能力。图 1-(b) 展示了在现实世界的图中，分配相似特征的节点可能共享不同的标签数量。

（2）模糊拓扑（Ambiguous Topology）：在单标签设置中，连接的节点通常共享相同的单一标签（也称为同配性假设 [2]），因此沿边传播的模式通常是确定性的。然而，在多标签设置中，连接的节点都有多个标签，沿边传播的模式通常是模糊的。这种模糊性使得我们难以确定应该从哪些连接的节点中聚合特定标签的信息。直接从所有邻居那里聚合信息将进一步累积模糊性，损害 GNN 学习到的表示的区分能力，最终影响特定标签的推断。图 1-(c) 展示了在现实世界的图中，连接的节点可能共享不同的标签数量。

因而，在模糊特征和模糊拓扑的情况下进行图神经网络的消息聚合也会具有以下问题需要解决：

标签独特性（Label Distinctiveness）：如前所述，多标签图中的节点属性和边可能同时受到多个标签的影响。直接从这样的图中提取信息，混合节点标签可能导致标签独特性的丧失，导致对每个标签的探索不足。
标签相关性（Label Correlation）：在多标签设置中，节点与多个标签的关联意味着这些标签之间存在相关性。现有多标签学习方法的成功也证明了充分利用这些标签间相关性可以显著提高表示的质量。

基于此分析，本文提出了基于标签关联感知图神经网络，从而为 GNN 更好地适配于多标签节点分类场景提供思路。

2. 研究方法

本研究论文提出了一种名为 Correlation-Aware Graph Convolutional Network（CorGCN）的方法，整体思路如图 2 所示，包括：

关联感知图分解（Correlation-Aware Graph Decomposition）：首先学习与标签相关的节点特征，并将它们分解为多个标签感知特征。然后，基于分解后的特征，进一步分解出多个标签感知图进行图增强。
关联增强图卷积（Correlation-Enhanced Graph Convolution）：每一层包括在每个标签感知图视图中的邻域内标签消息传递以及标签感知消息之间的标签间相关性传播。

图 2：CorGCN 的整体架构示意。

2.1 关联感知图分解（Correlation-Aware Graph Decomposition）

由于在多标签场景中，图的节点特征和拓扑结构存在不明确性，我们的目标是将它们分解成多个图。然而，直接进行分解会导致关键的多标签相关性属性的丢失。因此，我们需要基于已经包含了标签相关性的表示来进行分解，因此本阶段存在两个递进的步骤：节点特征分解和拓扑结构分解。

节点特征分解（Feature Decomposition）：该模块首先建模节点-标签和标签-标签之间的相关性，然后基于此进行节点特征在不同标签空间的分解。

具体而言，首先对于 K 个标签分别初始化一个可学习标签表征 E^l，而 n 个节点的原始特征定义为 E^x。

这两类表征会利用对比学习和最终的分类损失进行相关性学习。随后我们通过相似度投影得到相关性建模后分解到 K 个标签空间的节点表征，每个节点的分解后表征为 E_i^proj。

拓扑结构分解（Structure Decomposition）：基于关联感知分解的节点表征，该模块旨在为每个标签及其相关标签分解图结构（消息传递路径），以增强消息传播的图结构。

具体而言，利用原始图结构 A^0 在每个标签 k 的表征空间中进行中心节点与邻域信息的融合：

随后，基于融合后的标签 k 角度的表征，利用 top-k 相似度构造标签 k 的传播图 G^k，如下所示：

此外，结合相关标签感知的节点特征和原始图拓扑，可以获得多标签感知图 G_0 = (A_0, E_x) 以通过消息传递捕获相关结构模式，从而最终可以得到如下的感知相关性的分解图 CDG：

2.2 关联增强图卷积（Correlation-Enhanced Graph Convolution）

先前对于多标签节点分类的研究主要进行了统一的邻域消息传递。我们认为这种方法有两个主要的局限性：（1）以统一的方式传递来自邻域的模糊消息；（2）相关性忽视，即在传递消息时忽略了标签之间的相关性。因此，我们进一步为𝐶𝐷𝐺（Correlation-Enhanced Graph Convolution，相关性增强图卷积）配备了相关性增强的图卷积。

标签内消息传递（Intra-Label Message Passing）：在每个标签视图的图中进行标签内消息传递。

标签间相关性传播（Inter-Label Correlation Propagation）：在标签内消息传递之后，CorGCN 模型通过标签间相关性传播来模拟不同标签视图之间的相关性。

最终，基于标签内和标签间消息传播后得到的表征，模型进行最终的分类预测：

模型的训练目标与多标签分类模型一致采用交叉熵损失函数。

2.3 扩展到庞大标签空间（Extension to Large Label Space）

在一些现实世界的图结构中，节点可能存在于一个非常大的多标签空间中，例如复杂的现实世界社交网络和大型蛋白质相互作用网络。对于具有非常大标签空间的实际图结构，CorGCN 可以扩展到多标签节点分类，以实现高效学习。

具体而言，我们可以通过 K-means 聚类将预训练的标签表示凝练形成宏观标签表示，以减少标签表示的数量和图分解视图的数量，提高计算效率。

3. 实验评估

本文在 Humloc [1]、PCG [1]、Blogcatalog [3]、PPI [4] 和 Delve [5] 这五个数据集上进行了广泛的对比和探索性实验，验证了所提出的 CorGCN 的有效性。

对比实验

本研究的部分对比实验如表 1 所示，CorGCN 与 9 个代表性的基线模型（包含代表性 GNN 模型、图结构学习模型和多标签节点分类模型）的对比结果验证了 CorGCN 的有效性。

表 1：部分对比实验结果。

泛化性实验

如图 3 所示，通过泛化性实验分析可以发现模型能为多个代表 GNN 架构带来表现提升，进一步验证了 CorGCN 的广泛适用性。

图 3：GNN 架构泛化性实验。

4. 业务潜力

多标签节点分类在阿里风控场景具有重要意义。如在庞大的用户（节点）网络中，异常/风险用户往往可能具有多个风险域的风险信号，这些风险域往往不是相互独立的，业务之间具有关联性。挖掘多个风险域之间的相关性对于整体业务表现具有重要意义，这将作为未来的进一步研究。

5. 总结

在这篇论文中，我们针对当前图神经网络在进行多标签分类时面临的潜在问题进行了重点分析，提出了一种数据侧的图分解增强方式和模型侧的消息传播增强，以提高现有图神经网络在多标签分类场景的能力。在实验测试中，我们验证了所提出模型的有效性。详细内容可查看原文。

参考文献

[1] Zhao T, Dong T N, Hanjalic A, et al. Multi-label Node Classification On Graph-Structured Data [J]. Transactions on Machine Learning Research.

[2] Ma Y, Liu X, Shah N, et al. Is homophily a necessity for graph neural networks?[C].ICLR, 2022.

[3] Zhou C, Chen H, Zhang J, et al. Multi-label graph node classification with label attentive neighborhood convolution [J]. Expert Systems with Applications, 2021, 180: 115063.

[4] Zeng H, Zhou H, Srivastava A, et al. Graphsaint: Graph sampling based inductive learning method [J]. arXiv preprint arXiv:1907.04931, 2019.

[5] Xiao L, Xu P, Jing L, et al. Semantic guide for semi-supervised few-shot multi-label node classification [J]. Information Sciences, 2022, 591: 235-250.

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉