NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

创业 2024-11-15 08:22 北京

本文介绍来自华北电力大学孙笠老师团队发表在NeurIPS 2024上的一篇文章“Spiking Graph Neural Network on Riemannian Manifolds”。脉冲神经网络由于其低功耗和事件驱动的特性受到深度学习领域的关注。在图学习问题上，现有脉冲图神经网络仅支持在欧几里得空间建模，忽略了图结构的内蕴几何，并且受到传统的BPTT训练方式的高时间延迟问题的影响。
鉴于上述问题，作者提出在黎曼流形上的脉冲图神经网络，设计了一种简单而有效的黎曼流形脉冲图神经网络（MSG）。它可以应用于任何测地线完备的流形，如常曲率空间（CCS）及其积空间与商空间。
为构建该脉冲网络，本文设计了一种黎曼脉冲神经元，其基于流形的微分通路（DvM）为训练脉冲神经网络提供了一全新的视角，可避免BPTT训练高延迟的缺陷。在理论上，作者揭示了MSG与黎曼流形常微分方程的深刻联系。在现实数据集的实验中，MSG展现出优于现有脉冲图神经网络的表达能力，并且其能源效率相比于典型的黎曼图神经大大提高。该研究为脉冲神经网络和黎曼图学习带来了新的可能。

论文名称：
Spiking Graph Neural Network on Riemannian Manifolds
论文链接：
https://arxiv.org/abs/2410.17941

一、背景与研究动机

传统的图神经网络（GNN）通过复杂的浮点运算获得强大的表达能力，但与此同时带来了高昂的能耗开销；脉冲神经网络（SNN）利用脉冲神经元进行稀疏和事件驱动的通信，具有功耗低的特点。近年来，脉冲图神经网络（Spiking GNN）逐渐受到学界的关注，并设计了一系列脉冲网络架构，例如图卷积、注意机制、变分自编码器和连续图神经网络。虽然上述工作取得了阶段性的成功，但是脉冲图神经网络仍然面临亟待解决的挑战:

(1)表示空间

现有脉冲图神经网络在欧几里得空间中建模图结构，忽略了图结构所蕴含的几何特性。大量的研究表明图结构具有典型的非欧特性，且基于欧式空间的嵌入会导致不可避免的失真。近年来，基于黎曼流形的图表示学习取得了巨大的成功，然而其尚未与脉冲神经网络建立联系。

(2)训练算法

离散的脉冲序列并不可微，这成为了训练脉冲神经网络的主要障碍。现有方法通常将脉冲图神经网络类比于循环神经网络，进行梯度替代并采用BPTT方法训练模型。这类训练方法需要逐时间步地梯度回传，也因而存在高延迟的问题。

鉴于上述问题，本文提出了第一个基于黎曼流形的脉冲图神经网络（MSG），其总体架构如图1所示，并从理论上阐述了其与黎曼流形常微分方程的联系。

二、黎曼流形脉冲图神经网络（MSG）

作者提出了黎曼流形脉冲图神经网络（MSG），其避免了传统BPTT训练高延迟的问题。

2.1 流形脉冲层

给出脉冲层统一的形式化描述，其采取了并行前馈机制。该网络层由一个图卷积和一个新颖的流形脉冲神经元（MSNeuron）组成，如图2所示。对于图中的每一个节点，第l层的变换公式如下：

在并行前馈的过程中，脉冲序列与流形表征相互关联：

具体地，该神经元在将脉冲序列转换为输入电流同时向其注入结构信息。输入电流由图神经网络给出，采取基于消息传递的图卷积操作：

其次，作者利用微分同胚（Diffeomorphism）将脉冲序列与图形表征相互关联。鉴于脉冲序列的欧式结构，作者通过指数映射构造了切空间与流形之间的微分同胚，其适用于测地线完备任何流形。给出测地线的单位矢量，指数映射的形式化描述如下：

最后，介绍模型的初始化方法。作者基于流形的北极点给出初始表征。

2.2学习方法：基于黎曼流形的微分通路（DvM）

下面介绍MSG的训练方法。本文作者注意到，现有脉冲图神经网络普遍存在高延迟的问题，其主要原因在于BPTT训练方法的逐时间步梯度回传。作者将这样的反向传播方式称为基于脉冲域的微分通路（DvS）：

为解决该问题，作者不再局限于BPTT方法，开创性地解耦了前向与反向传播过程，提出了基于黎曼流形的微分通路（DvM）的训练方法：

为了阐述DvM的机理，现将微分几何的相关概念简述如下。

Pushforward、Pullback and Dual Space

在黎曼几何中，Pushforward为一导函数，其原函数关联两个黎曼流形和。在MSG中，作者考虑流形上的实函数，其中为定义域流形。在点处的推前将切向量映射到一个标量值，并且相应地，属于切空间的对偶空间，这是一个由所有线性泛函组成的向量空间。由于流形上不同点的切空间是不同的，它需要一个回拉 (pullback)，将对偶空间映射到对偶空间。

DvM的计算过程由下述定理给出：

公式(9)处处可微，因此不需要梯度替代(surrogate gradient)，而且基于流形的微分通路（DvM）无需递归的反向传播，从而减轻了高延迟训练的问题。

作者指出，指定的DvM和之前的DvS在前向传播中都递归地计算每个时间步，区别在于反向传播：DvM只进行无需递归的逐层梯度反向传播；DvS则需基于BPTT进行逐层逐时间步的梯度回传。除了可微和无需递归的特性外，DvM也不会出现梯度消失或者梯度爆炸问题。

三、理论：MSG与神经微分方程

在理论上，作者揭示了MSG与神经微分方程的内在联系：MSG在极限意义上等价于黎曼流形常微分方程的求解器。

作者利用黎曼流形的图卡（chart）这个概念来研究MSG和黎曼流形常微分方程之间的关系。黎曼常微分方程如下：

特别地，为流形上的轨迹方程，为其切丛中的矢量场。

MSG的流形输入与输出的变换过程被描述为一组连续的流形常微分方程（ODE），其向量场由切丛（tangent bundle）中的脉冲神经网络控制。

MSG利用动态chart（图3）的思想分析黎曼流形常微分方程的解。动态chart求解器的定义如下：

由上可知，一个黎曼流形常微分方程可以由一组连续的切空间进行求解，而这组切空间与chart关联。

由定理5.2的一阶近似可知，给定步长，路径的终点由参数化的脉冲图神经网络给出。逐层前向传播的过程即为从当前chart到其后继chart的流形常微分方程求解过程。因此，MSG的输出在极限意义上等价于流形常微分方程的解。

四、实验与评估

作者使用12个基准模型在Computers，Photo，CS 和Physics数据集上进行了大量的实验，通过表达能力、能耗开销以及DvM的优势三个方面来评估MSG的性能优势：

4.1 实验结果和讨论

4.1.1表达能力

表1体现了MSG在基于SNN的模型较其他方法是更优的。此外，MSG在节点分类中通常优于基于ANN的基线，并且在链接预测中的结果能够接近基于ANN的黎曼基线的结果。

4.1.2消融实验

表2是MSG在不同的流形上的几何变体的实验表现。

在不同的表示空间中，训练时间的对比实验如图4(a)所示：DvM的反向传播时间明显少于BPTT算法。此外，作者计算了DvM的反向梯度，并在图4(b)中绘制了每一层的梯度范数，这表明DvM不会出现梯度消失或者梯度爆炸的问题。

4.1.3能耗开销

作者研究了图模型在理论能量消耗（毫焦耳）方面的能量成本。结果显示，基于SNN的模型通常比基于ANN的模型享有更低的能量成本。除了Photo数据集外，MSG在基于SNN的模型中也实现了最佳的能量效率。

4.1.4可视化与讨论

作者通过实证研究展示了MSG与流形常微分方程之间的联系。图5为Zachary空手道俱乐部数据集的一个简单示例。

五、总结与展望

本文作者从崭新的黎曼几何视角研究了脉冲图神经网络，设计了一种基于黎曼流形的脉冲神经元。其以微分同胚关联黎曼流形与脉冲序列，并提供了基于黎曼流形的微分（DvM）通路以避免传统BPTT训练的高延迟问题。作者进一步揭示了其数学构形与流形常微分方程的内在理论联系；大量的实验证实该模型取得了当前最优的结果。

本文为在提出脉冲神经网络训练方法的同时，也为低能耗的黎曼神经网络设计开辟了新的路径。作者也指出其网络架构主要适用于无向、同质图，而其他类型的图学习仍然是开放的研究问题。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515308&idx=2&sn=639e85d86794a4b22cf65e9a6f6ff393

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉