NeurIPS︱北京脑所/北师大/首医宣武医院联合开发基于侵入式脑电(单根sEEG电极)的高性能语言解码器

学术   2024-11-06 00:01   上海  

【神经科学前沿技术培训系列】详见文末


来源北京脑

责编︱王思珍


随着表征学习的快速发展,利用自监督学习或对比学习这类表征学习方法来提高模型表现越来越有吸引力。然而在脑机接口领域,流行的方法通常基于全脑表征预训练的时序模型,忽略了在任务期间不同大脑区域的活动高度不同步。或者基于单通道表征预训练的时空模型,用于睡眠分期、癫痫检测任务等。但对于语音朗读这类更具有挑战性的任务来说,需要在特定的语言相关区域进行复杂的处理。由此,我们提出了Du-IN模型——受神经科学发现的启发,利用特定大脑区域级别的表征——适用于侵入式大脑建模,探讨了一种神经启发式AI的脑机接口方法。

近日,北京脑科学与类脑研究所、北京师范大学与首都医科大学宣武医院在机器学习国际顶级会议NeurIPS: The 38th Annual Conference on Neural Information Processing Systems上联合发表了题为“Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals”的论文。研究提出了一种语音解码框架Du-IN,通过对特定大脑区域进行离散的密码本引导掩码建模来学习神经表征,并在特定大脑区域中使用单根深度电极实现了最佳解码性能。




为了解决这个问题,我们在中文单词朗读任务sEEG数据集上验证了Du-IN模型,模型通过离散密码本引导的掩码建模基于大脑区域级表征提取上下文嵌入。我们的模型在61个单词分类任务中取得了最佳表现,超越了所有基线。模型比较和消融研究表明,我们的设计选择对这一表现做出了重大贡献,包括(i)基于大脑区域级表征的时间建模,利用1D深度卷积融合外侧感觉运动皮层 (vSMC) 和颞上回(STG)中的通道,以及(ii)通过离散密码本引导的掩码建模进行自监督学习。


1sEEG解码设置的整体说明以及与其他模型的比较。


颅内神经信号建模,尤其是sEEG建模,已引起广泛关注,但仍有几个问题尚未解决。当前对神经信号建模的研究根据基本建模单元(例如,通道级或全脑级)分为两条路线。一些研究使用共享的嵌入模块处理每个通道,忽略了大脑计算的特异性,然后采用时空整合来模拟不同通道之间的空间关系,试图重新获得大脑的精确状态。然而,这些方法主要侧重于通道级分类任务,如癫痫检测,但在更具挑战性的认知任务(例如语言解码)表现较差。另外一条路线通过融合所有通道来建模全脑,采用时间建模来捕捉大脑动态的快速过程,然而这种方法忽略了大脑的去同步性质。此外,大规模标记数据通常不切实际或成本高昂,因此,开发神经科学启发的高效预训练框架是非常有必要的,因为它可以充分利用丰富的未标记数据。


朗读主要涉及与发声相关的特定大脑区域。我们利用语音朗读解码任务来评估哪种模型可以有效地从特定大脑区域提取信息。受神经科学研究的启发,我们系统地证明了大脑计算的局部性和特异性,并提出了Du-IN模型来解决上述问题,可以处理任意时间长度的输入sEEG信号,如图2所示。与现有的其他脑信号建模方法相比,Du-IN61词分类任务上实现了SOTA性能,证明了我们的模型在提取有意义的表征方面的有效性,这些表征可以捕捉特定大脑区域的快速变化和精确状态。它标志着BCI中一种神经启发式AI方法。

2Du-IN 编码器的整体架构。

3Du-IN VQ-VAE训练和Du-IN MAE训练概览。(a)训练Du-IN VQ-VAE中的Du-IN编码器,通过重建原始sEEG信号将其离散化为神经表征。(b)Du-IN MAE的训练过程中,部分sEEG数据被掩码,而目标是从可见数据中预测被掩码的表征。


首先,我们需要将区域级神经嵌入转化为离散神经表征。我们使用矢量量化自编码器进行神经信号重建,如图2a)所示。其关键部分是将sEEG信号编码为区域级表征的Du-IN编码器和从区域级离散表征重建原始sEEG信号的Du-IN回归器。为了让Du-IN利用无标记的数据学习神经表征,我们提出了离散密码本指导的掩码建模,整个过程如图2b)所示。我们随机掩蔽部分sEEG片段,然后输入Transformer编码器来预测掩蔽的sEEG片段。在61类单词分类任务上验证Du-IN模型。


过往神经科学研究表明,发声主要涉及特定的大脑区域。鉴于植入的sEEG电极分布稀疏(每个电极包含8-16个通道),排除与发声无关的冗余电极至关重要,从而提高解码性能。我们保留植入在相关大脑区域的电极,并根据剩余电极评估性能。1表明,排除大约85%的电极甚至会导致解码性能大幅提高。


4表明(1)对语音解码有效的大脑区域与以前的神经科学研究结果一致,(2)我们的模型在仅使用约10个通道的情况下实现了最佳解码性能,其中80%的情况下,使用的10个通道来自同一电极。

4:通道贡献分析。(a)通道贡献图。(b)通道数量(按通道贡献分数排序)对解码性能的影响。


2展示了我们的Du-IN模型和其他模型基线的比较结果,其中包括多种针对大脑信号或时间序列模型。结果表明,我们的Du-IN模型优于所有其他基线模型。值得注意的是,采用单通道级表征建模比采用基于大脑区域级表征建模的模型表现更差。



文章结论与讨论,启发与展望

本文提出了一种语音解码框架Du-IN,该框架通过对特定大脑区域进行离散的密码本引导掩码建模来学习神经表征。受神经科学发现的启发,我们在特定大脑区域中使用单根深度电极实现了最佳解码性能。并且我们的模型优于其他各类基线模型,有效地捕捉了特定大脑区域内的复杂表征。同时,我们的方法具备较高的延展性,能够适用于各类较复杂的神经解码任务,如开放集句子朗读、语音聆听等。我们的方法在脑机接口语言解码上有着广泛的应用前景,能够适用于如渐冻症患者、闭锁综合症患者等存在构音障碍的患者失语恢复场景。


原文链接:https://neurips.cc/virtual/2024/poster/93238


北京脑科学与类脑研究所、北京大学研究生郑晖和北京师范大学认知神经科学与学习国家重点实验室研究生王海腾为本文的共同第一作者;上海交通大学计算机科学与工程系研究生姜卫邦为本文的算法设计做出了贡献;首都医科大学宣武医院的赵国光院长和魏鹏虎主任为数据收集提供了重大帮助;北京师范大学认知神经科学与学习国家重点实验室研究生陈仲韬、博士后何李、研究生林沛阳为算法设计、数据收集做出了贡献,北京脑科学与类脑研究所、北京师范大学认知神经科学与学习国家重点实验室柳昀哲教授为本文的通讯作者。同时,本研究工作还得到了北京芯智达神经技术有限公司的大力支持。


转载须知非“逻辑神经科学”的团队原创稿件和(/或)特邀稿件,本内容著作权归原作者和(/或)原单位所有。如有侵权,请及时联系“逻辑神经科学”。

     


     
【神经科学前沿技术培训系列】

【光遗传学与遗传编码钙探针和神经递质探针工作原理及应用】【在体成像技术在神经科学研究的基础与应用】(第九期)。时间 待定(周六至周一);地点 南京

【脑片膜片钳记录系统的操作和应用】(第六期)。时间 2024126-8;地点 南通

【神经科学前沿技术整合:当在体电生理邂逅光遗传】(第一期),时间 2024119-11(周六至周一);地点 南京

全国前沿组织透明化与三维成像理论和技能培训班(第二期),时间 待定;地点 武汉

【疾病研究与动物行为学系列】

阿尔兹海默症最新研究进展和热点与动物行为学实验设计思路和数据分析(第二期。时间 待定,地点 线上

“理论知识,操作技能,科研思维”
报名方式:15108204441(电话)Wang_Sizhen(微信)
(点击标题阅读全文)

逻辑神经科学”微信群:文献学习

扫码添加微信,并备注:逻辑-文献-姓名-单位-研究领域-学位/职称
(注:不按要求格式备注,则不通过好友申请)
     
编辑︱王思珍
本文完

逻辑神经科学
以逻辑之学术思维,探索神经科学奥秘;汇百家争鸣,促求真明理。
 最新文章