NeurIPS 2024 | 北京脑所、北师大与首都医科大学宣武医院联合开发基于侵入式脑电(单根sEEG电极)的高性能语言解码器

学术   2024-11-03 14:00   北京  



RESEARCH PROGRESS




近日,北京脑科学与类脑研究所、北京师范大学与首都医科大学宣武医院在机器学习国际顶级会议NeurIPS: The 38th Annual Conference on Neural Information Processing Systems上联合发表了题为“Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals”的论文。研究提出了一种语音解码框架Du-IN,通过对特定大脑区域进行离散的密码本引导掩码建模来学习神经表征,并在特定大脑区域中使用单根深度电极实现了最佳解码性能。


01

研究背景


随着表征学习的快速发展,利用自监督学习或对比学习这类表征学习方法来提高模型表现越来越有吸引力。然而在脑机接口领域,流行的方法通常基于全脑表征预训练的时序模型,忽略了在任务期间不同大脑区域的活动高度不同步。或者基于单通道表征预训练的时空模型,用于睡眠分期、癫痫检测任务等。但对于语音朗读这类更具有挑战性的任务来说,需要在特定的语言相关区域进行复杂的处理。由此,我们提出了Du-IN模型——受神经科学发现的启发,利用特定大脑区域级别的表征——适用于侵入式大脑建模,探讨了一种神经启发式AI的脑机接口方法。


为了解决这个问题,我们在中文单词朗读任务sEEG数据集上验证了Du-IN模型,模型通过离散密码本引导的掩码建模基于大脑区域级表征提取上下文嵌入。我们的模型在61个单词分类任务中取得了最佳表现,超越了所有基线。模型比较和消融研究表明,我们的设计选择对这一表现做出了重大贡献,包括(i)基于大脑区域级表征的时间建模,利用1D深度卷积融合外侧感觉运动皮层 (vSMC) 和颞上回(STG)中的通道,以及(ii)通过离散密码本引导的掩码建模进行自监督学习。

图 1:sEEG解码设置的整体说明以及与其他模型的比较。


颅内神经信号建模,尤其是sEEG建模,已引起广泛关注,但仍有几个问题尚未解决。当前对神经信号建模的研究根据基本建模单元(例如,通道级或全脑级)分为两条路线。一些研究使用共享的嵌入模块处理每个通道,忽略了大脑计算的特异性,然后采用时空整合来模拟不同通道之间的空间关系,试图重新获得大脑的精确状态。然而,这些方法主要侧重于通道级分类任务,如癫痫检测,但在更具挑战性的认知任务(例如语言解码)表现较差。另外一条路线通过融合所有通道来建模全脑,采用时间建模来捕捉大脑动态的快速过程,然而这种方法忽略了大脑的去同步性质。此外,大规模标记数据通常不切实际或成本高昂,因此,开发神经科学启发的高效预训练框架是非常有必要的,因为它可以充分利用丰富的未标记数据。


02

Du-IN模型与预训练方法


朗读主要涉及与发声相关的特定大脑区域。我们利用语音朗读解码任务来评估哪种模型可以有效地从特定大脑区域提取信息。受神经科学研究的启发,我们系统地证明了大脑计算的局部性和特异性,并提出了Du-IN模型来解决上述问题,可以处理任意时间长度的输入sEEG信号,如图2所示。与现有的其他脑信号建模方法相比,Du-IN在61词分类任务上实现了SOTA性能,证明了我们的模型在提取有意义的表征方面的有效性,这些表征可以捕捉特定大脑区域的快速变化和精确状态。它标志着BCI中一种神经启发式AI方法。

图 2:Du-IN 编码器的整体架构。

图 3:Du-IN VQ-VAE训练和Du-IN MAE训练概览。(a)训练Du-IN VQ-VAE中的Du-IN编码器,通过重建原始sEEG信号将其离散化为神经表征。(b)在Du-IN MAE的训练过程中,部分sEEG数据被掩码,而目标是从可见数据中预测被掩码的表征。


首先,我们需要将区域级神经嵌入转化为离散神经表征。我们使用矢量量化自编码器进行神经信号重建,如图2(a)所示。其关键部分是将sEEG信号编码为区域级表征的Du-IN编码器和从区域级离散表征重建原始sEEG信号的Du-IN回归器。为了让Du-IN利用无标记的数据学习神经表征,我们提出了离散密码本指导的掩码建模,整个过程如图2(b)所示。我们随机掩蔽部分sEEG片段,然后输入Transformer编码器来预测掩蔽的sEEG片段。在61类单词分类任务上验证Du-IN模型。


03

实验结果


过往神经科学研究表明,发声主要涉及特定的大脑区域。鉴于植入的sEEG电极分布稀疏(每个电极包含8-16个通道),排除与发声无关的冗余电极至关重要,从而提高解码性能。我们保留植入在相关大脑区域的电极,并根据剩余电极评估性能。表1表明,排除大约85%的电极甚至会导致解码性能大幅提高。

表1


图4表明(1)对语音解码有效的大脑区域与以前的神经科学研究结果一致,(2)我们的模型在仅使用约10个通道的情况下实现了最佳解码性能,其中80%的情况下,使用的10个通道来自同一电极。

图 4:通道贡献分析。(a)通道贡献图。(b)通道数量(按通道贡献分数排序)对解码性能的影响。


表2展示了我们的Du-IN模型和其他模型基线的比较结果,其中包括多种针对大脑信号或时间序列模型。结果表明,我们的Du-IN模型优于所有其他基线模型。值得注意的是,采用单通道级表征建模比采用基于大脑区域级表征建模的模型表现更差。

表2


04

结论与展望


本文提出了一种语音解码框架Du-IN,该框架通过对特定大脑区域进行离散的密码本引导掩码建模来学习神经表征。受神经科学发现的启发,我们在特定大脑区域中使用单根深度电极实现了最佳解码性能。并且我们的模型优于其他各类基线模型,有效地捕捉了特定大脑区域内的复杂表征。同时,我们的方法具备较高的延展性,能够适用于各类较复杂的神经解码任务,如开放集句子朗读、语音聆听等。我们的方法在脑机接口语言解码上有着广泛的应用前景,能够适用于如渐冻症患者、闭锁综合症患者等存在构音障碍的患者失语恢复场景。




论文信息



北京脑科学与类脑研究所、北京大学研究生郑晖和北京师范大学认知神经科学与学习国家重点实验室研究生王海腾为本文的共同第一作者;上海交通大学计算机科学与工程系研究生姜卫邦为本文的算法设计做出了贡献;首都医科大学宣武医院的赵国光院长和魏鹏虎主任为数据收集提供了重大帮助;北京师范大学认知神经科学与学习国家重点实验室研究生陈仲韬、博士后何李、研究生林沛阳为算法设计、数据收集做出了贡献,北京脑科学与类脑研究所、北京师范大学认知神经科学与学习国家重点实验室柳昀哲教授为本文的通讯作者。同时,本研究工作还得到了北京芯智达神经技术有限公司的大力支持。




原文链接



https://neurips.cc/virtual/2024/poster/93238


Zheng, H., Wang, H. T., Jiang, W. B., Chen, Z. T., He, L., Lin, P. Y., ... & Liu, Y. Z. (2024). Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals. Advances in Neural Information Processing Systems.


或点击文末“阅读原文”访问原文↓↓↓



北京脑
北京脑科学与类脑研究所成立于2018年3月22日,是北京市重点推进建设的新型研发机构之一。
 最新文章