ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

创业 2024-09-27 08:23 北京

基于图的消息传递会加剧类别不平衡对分类器的影响，这种现象称为拓扑偏差。少数类节点在邻域中噪声比例上升更快，有效信号减少更多，导致其更容易被误分类。为解决这一问题，本文提出了轻量化的拓扑增强模块BAT，包括节点风险估计、后验概率估计和拓扑增强三步。BAT通过虚拟边和超级节点缓解偏差，易于集成，适用于多种GNN架构和类别不平衡技术，进一步提升分类性能。

论文标题：
Class-Imbalanced Graph Learning without Class Rebalancing
论文地址：
https://arxiv.org/abs/2308.14181
代码地址：
https://github.com/ZhiningLiu1998/BAT

一、太长不看版

Theoretical Insights：基于图拓扑结构的消息传递（message-passing）会加剧类别不平衡对分类器学习的影响，我们称之为 topology-sourced bias。具体地，随着类别不平衡加剧，相比于多数类，少数类节点的邻域中噪声（即异类标记节点，见 Theorem 2.1）比例会更快增加，并且有效训练信号（即己类标记节点，见 Theorem 2.2）比例会更快减少。换言之，在 GNN 的消息传递过程中，少数类节点具有更低的信噪比，因此更容易被误分类。

Practical Algorithm：为了 handle topology-sourced bias，我们提出了一个通用、轻量化的拓扑增强模块 BAT。BAT 的主要流程有 3 步：1）节点风险估计: 估计节点受拓扑 bias 影响而误分类的概率；2）后验概率估计：对已知高误分类风险的节点估计其实际类别标签；3）拓扑增强：为每个类创建 super node 并根据前两步采样虚拟边。

Practical Implementation：我们的 GitHub 实现提供了简洁的 API、文档和用例 ，用户仅需添加10 行左右的代码便可将 BAT 嵌入自己的节点分类训练流程中。BAT 旨在通过动态数据增强来缓解拓扑结构带来的 bias，因此可以与各种现有的类别不平衡节点分类技术和 GNN 架构一同使用，并进一步提升其性能。

有兴趣进一步了解的读者可以继续阅读，下面我将简短地介绍以下内容：背景，研究动机，主要观点，算法设计，实验结果，以及本工作的局限性和未来可能的扩展。

二、Background/背景

类别不平衡（标签中不同类别的标注数据数量的不平衡）是一个已经被广泛研究的问题 [1]，但大部分都是针对 i.i.d.（独立同分布）的数据。而在图节点分类任务中，不同的节点之间具有复杂的 dependence（因此 non i.i.d.），由节点之间的边（edge）来刻画，而这些边组成了图的拓扑结构。

GNN 可以通过整合邻居节点的信息来利用图的拓扑结构帮助表示学习，随着 GNN 在多个领域的成功，图上的类别不平衡学习（CIGL，class-imbalanced graph learning）问题在最近也开始得到关注。

三、Motivation/研究动机

现有的 CIGL 研究多关注于如何设计类别重平衡（CR，class-rebalancing） 机制来缓解图上的类别不平衡，如调整节点的权重 [2]、通过数据增强增加少数类节点数量 [3][4]。

尽管这些工作设计中都考虑了图的拓扑结构，但其核心思想仍是如何利用 topology 来帮助 class-rebalancing，我们称这类工作为 CR-oriented CIGL。但我们认为 CR 并不能完全解决 CIGL 问题：CIGL 的本质挑战在于其复杂的拓扑结构与类别不平衡对表示学习的共同影响。

受到 topology-imbalance 相关研究 [2] 的启发，我们想要探究如下问题：在类别不平衡时，拓扑结构和 message-passing 在 CIGL 中扮演何种角色？

四、Insights/观点

通过理论分析和实验观察，我们发现两种 local topological phenomena 可以放大/加剧类别不平衡的影响：

Ambivalent message-passing (AMP): 节点邻域中存在高比例的异类；
labeled nodes Distant message-passing (DMP): 节点与己类 labeled nodes的连接性弱。

具体地，我们证明且观察到相比于多数类，少数类节点更易受到 AMP/DMP 的负面影响并因此产生错误的分类结果。这额外增大了多数类和少数类之间的性能差异，加剧了类别不平衡的影响。且类别不平衡越严重，AMP 和 DMP 所带来的额外 bias 也越多。详细的证明和讨论请见论文的第二节：Class Imbalance and Local Topology。

图1：AMP（左）与DMP（右）的概念与其对多数类（蓝色）和少数类（橙色）分类性能的影响。

五、Algorithm/算法

缓解 AMP/DMP 带来影响的最直接方法是减轻类别不平衡率（IR，imbalance ratio），这也是各种 CR 方法尝试实现的（e.g., 通过观察到的样本来合成更多“真实”的少数类样本 [3][4]）。但由于 underlying distribution 通常并不可知，我们无法保证合成样本是否满足原始分布，相关技术的实现也通常比较 tricky。但与此同时，我们注意到仅有一小部分节点受到 AMP/DMP 的影响，且这一小部分关键节点对预测性能的影响是巨大的。

无论是多数类/少数类，都只有一小部分节点受AMP/DMP影响（左），且高AMP/DMP的节点具有显著降低的预测准确率（右）。

受此启发，我们希望设计一种算法来直接针对性地缓解 AMP/DMP 对这一部分关键节点的影响。这指导了我们算法的设计：首先定位受 AMP/DMP 影响的节点，然后拓扑增强其在图中的 context（即邻域）以缓解 AMP/DMP。

随着这一思路，我们设计了一个简单的 pipeline：

Node Risk Estimation/节点风险估计：受 AMP/DMP 影响的节点在 message-passing 中具有更低的信噪比，通常也具有更高的预测不确定性。这一步通过量化模型对每个节点的预测的不确定性来定位高风险节点。
Posterior Likelihood Estimation/后验概率估计：高风险节点具有更高的误分类概率，因此其当前的预测标签并不可信。为了选择合适的信息来增强其上下文/邻域，这一步使用 0/1 阶信息重新估计高风险节点的实际标签。
Virtual Topology Augmentation/虚拟拓扑增强：根据当前预测，为每个类别创建一个 prototype 虚拟节点（virtual super node）来表示该类的 general pattern。根据前两步的结果，在高风险节点和其对应的实际标签之间构建虚拟边。注意 BAT 具有线性复杂度，因此计算十分高效，我们在每一步训练中都会重新计算 BAT 来实现动态数据增强。

算法流程图，从左至右

六、Experiment/实验

6.1 Performance/性能

我们在论文中报告了 BAT 在 5（数据集）x 5（GNN架构）x 7（类别不平衡图学习技术）x 3（分类性能/偏差指标）x 4（类别不平衡种类）= 2100 种实验组合下的结果，以展示 BAT 的泛用性和有效性。

主要结果1：灰色部分为BAT在与其他CIGL方法结合时为其带来的平均/最佳性能增益。

主要结果2：在更多数据集以及类别不平衡设置下的结果，与上面一致，灰色部分为BAT带来的性能增益。

6.2 Efficiency/效率

额外地，BAT 具有线性复杂度。使用 0/1 阶信息进行后验概率估计的两个变体分别具有和的计算复杂度，其中和分别为节点/边个数，为类别个数（通常 )。这意味着 BAT 在实际应用中非常高效，且可以 scale 到大规模的图数据（更多相关实验见论文附录 D.1）。在实际中，BAT 进行一次增强计算需要的时间是毫秒级，结果见下表。

Runtime Results of BAT

七、Limitation and Future Directions/局限性及可能的扩展

BAT 的理论分析是在设计算法之后做的，因此算法本身并非是由 theoretical findings motivated。但我们认为从拓扑视角出发的对类别不平衡的分析是很有趣的，在这一方向进一步挖掘应该可以得到更加优雅的（且 unified）结论和算法。

BAT 的设计理念以简单实用为第一准则，在每个步骤/模块我们都使用了最简单直接的解决方案。有许多更高级的技术可以用于节点 risk/后验概率估计等步骤。

图数据的拓扑结构带来了许多独特的挑战。除了本文考虑的节点层面的不平衡之外，在拓扑结构中还可能存在节点出入度的不平衡/子图层面的不平衡等等，如何同时 handle 这些层面的 bias/skewness（以及他们之间的 interaction）也将涉及许多有趣的问题。关于这个问题有一篇 survey [5] 可供感兴趣的各位参考。

参考文献

[1] Krawczyk, Bartosz. "Learning from imbalanced data: open challenges and future directions." Progress in Artificial Intelligence 5.4 (2016): 221-232.

[2] Chen, Deli, et al. "Topology-imbalance learning for semi-supervised node classification." Advances in Neural Information Processing Systems 34 (2021): 29885-29897.

[3] Zhao, Tianxiang, Xiang Zhang, and Suhang Wang. "Graphsmote: Imbalanced node classification on graphs with graph neural networks." Proceedings of the 14th ACM international conference on web search and data mining. 2021.

[4] Park, Joonhyung, Jaeyun Song, and Eunho Yang. "Graphens: Neighbor-aware ego network synthesis for class-imbalanced node classification." International conference on learning representations. 2021.

[5] Liu, Zemin, et al. "A survey of imbalanced learning on graphs: Problems, techniques, and future directions." arXiv preprint arXiv:2308.13821 (2023).

作者：刘芷宁
来源：公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514143&idx=2&sn=42ea193ae84fbb7d3499c1df5cf44c49

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉