一种用于EEG-fNIRS解码显性和想象语音的双模态深度学习架构
编译:泰和利康-单家旭
目的:越来越多的脑机接口(Brain-Computer Interface,BCI)研究尝试同时充分利用多个信号模态的不同属性。因此,结合脑电图(Electroencephalography,EEG)的时间分辨率和功能近红外光谱(functional Near-Infrared Spectroscopy,
fNIRS)的空间分辨率的双模态数据采集协议需要新的解码方法。
方法:我们提出了一个EEG-fNIRS混合脑机接口,它采用了一个新的双模态深度神经网络架构,包括两个卷积子网络(子网)来解码显性和想象的语音活动。在进一步的特征提取和分类之前,将每个子网的特征融合在一起。19名参与者在一个新颖的基于提示引导的范式中进行了显性和想象的言语实验,从而研究了刺激和语言效应对解码的影响。
结果:使用混合方法,分类准确率(显性和想象言语分别为46.31%和34.29%(机会:25%))表明,独立使用EEG的想象言语有显著改善(p=0.020),而显性言语的分类准确率则趋于显著(p=0.098)。与fNIRS相比,双模态解码对两种语音活动类型都有显著改善(p<0.001)。显性言语和想象言语的平均差异约为12.02%,准确率分别最高达到87.18%和53%。当刺激对显性言语和想象言语的影响方式显著不同时,更深的子网增强了表现。
结论:在一些任务中,双模态方法对单模态结果有显著改善。结果表明了多模态深度学习在增强神经信号解码方面的潜力。
意义:该结构可用于增强对双模态神经信号的语音解码。
索引词:Electroencephalography, EEG, functional near-infrared spectroscopy, fNIRS, brain-computer interfaces, imagined speech, deep learning, bimodal deep learning.
结合脑电(EEG)和功能近红外光谱(fNIRS)采集协议已成为脑-机接口(BCI)研究的热门方法[1]–[3]。这是由于将脑电信号(EEG)的时间分辨率与fNIRS获得的血流动力学反应的空间分辨率相结合所提供的潜力[3]。用于并发数据采集(Concurrent Data Acquisition)的模式的集成可以缓解单模态协议的缺点[4],EEG和fNIRS的互补特性,以及它们共有的便携性和低成本,使它们成为开发多模态BCIs[5],[6]的有力候选。
随着神经信号采集方案的改进,EEG-fNIRS解码方法的研究也在不断发展。大多数研究使用标准特征,如EEG的频带功率(Band Power)和fNIRS的氧合血红蛋白(Oxy-Hemoglobin,HbO)[1],[8],以及常用的机器学习方法,如线性判别分析(Linear Discriminant Analysis,LDA)[1],[2]和支持向量机(Support Vector Machine,SVM)[9],[10]。与其他领域一样,深度学习(Deep Learning,DL)为解码神经信号提供了一条重要途径[11]-[15]。然而,很少有研究利用EEG-fNIRS数据研究多模态DL[3],[16],[17]。联合多种模态相关的困难,例如非对称预测能力(Asymmetric Predictive Capacity)[1],[18]和多样化的噪声拓扑结构(EEG中的肌肉和眨眼伪影(Artefacts)[19],fNIRS[20]中的心跳和迈耶波(Mayer Waves)),以上内容部分地解释了发表的相关研究的稀缺性。此外,准提出了EEG和fNIRS的时间校必须解决的挑战[7],[9],[21]。关于EEG-fNIRS深度学习方法,一些最重要的研究使用了人工神经网络(Artificial Neural
Networks,ANN)[3]、递归神经网络(Recurrent Neural Networks,RNN)[16]和组合递归-卷积神经网络(Combined Recurrent-Cconvolutional Neural Network,RCNN)[17]。多模态卷积神经网络(CNN)已被应用于脑电图、眼电图(electro-oculogram)和肌电图(Electromyogram)中进行睡眠阶段的分类计算[22],但尽管CNN被用于精神负荷分类[23],但尚未广泛应用于脑电图-近红外光谱(EEG-fNIRS)研究当中。在这里,据我们所知,我们提出了第一个使用EEG-fNIRS与双模态CNN方法进行语音活动解码的研究。
脑机接口(BCI)系统用于从神经活动中解码语音相关过程的研究最近得到了突出的进展[11],[12],[24]-[26]。植入电极(Implanted Electrodes)常用于言语活动解码研究,评估显性言语活动(Overt Speech)[11],[25],[26]或以听觉言语刺激(Auditory Speech Stimuli)为交流方式的反应[12],[24]。想象言语活动(Imagined Speech)解码带来了许多额外的挑战[6],[15],[27],并且结果通常低于显性言语活动,然而,关于两种言语活动模式在脑机接口发展方面的关系,文献中的共识有限[28],[29]。此外,研究范式差异很大,研究主要使用音频[30],[31]或基于文本的[6],[27]刺激。然而,自发言语(Spontaneous Speech )[32]和问答(Question-and-Answer)[6],[11]范式也被研究过。其中一个相关的问题是参与者被要求说的语言的“单位”不同,从音素(Phonemes)[33]和音节(Syllables)[30]到单词[15]和句子[25]。很少有研究考察语义(Semantics)或句法(Syntax)等语言属性(Linguistic Properties)对解码单词或句子的影响[34]。一些研究证明了从非侵入性录音中解码语音的难度,这些研究报告使用二元分类器(Binary Classifier)[35]时的概率准确率并不优于机会准确率(Chance Accuracy),而在3类分类(3-class classification)任务中,12名参与者中只有9名超过了机会准确率[6]。然而,也有人指出了非侵入性语音解码的潜力,一项研究报告在解码三个想象的语音信封时准确率为38.5% [36],另一项研究报告在重复15秒的“是”、“否”和“休息”的3类分类中准确率为64.1%[37]。我们最近的研究对来自4秒任务周期的6个单词和5个元音的解码分别达到24.90%和30.25%[15]。
在之前的一项研究中,我们记录了参与者进行试验时的EEG和fNIRS,试验旨在检测EEG对显性和想象语言的相对解码电位(relative decoding potential)[38]。在这里,我们提出了一个新的深度神经网络结构,用于在一个单一的训练过程中解码双模态神经信号(EEG-fNIRS)。该网络由两个子网(Subnets)组成,在使用融合(Fusion)形成一个组合特征集进行进一步处理和分类之前,它们充当数据特定的特征提取器[39]。该实验旨在检验三种刺激类型(文本、图像和音频)和言语的两种语言特性(语义或句法)对解码准确性的影响(第II.A.部分)[38]。这推动了六个分类任务:每个刺激/言语属性组合。在每个任务中对双模态网络进行训练和测试,包括显性和想象言语活动,并与单模态EEG和fNIRS方法进行比较。
对于显性语音和想象语音,双模态网络的解码精度高于单模态EEG和fNIRS方法。这些结果在除显性言语EEG(p = 0.098)外的所有EEG中均具有统计学意义。由于任务执行时间的限制,fNIRS的影响被确定为提高双峰方法性能的限制因素。我们还发现,用于特征提取的更深的子网有助于提高解码精度。结果证实了之前的研究结果,即显性语音解码的表现始终优于想象语音,同时也表明刺激显著影响解码的表现,并且这种影响在不同类型的语音形式之间(显性和想象)存在差异。语言特性((语义或句法))的影响不显著。最后,我们讨论了如何通过为不同的数据类型定制网络和延长使用fNIRS信号的时间周期来提高性能。
A.实验范式
为了研究用于提示想象语音的刺激对BCI解码的影响,我们的实验采用了三种方式来提示参与者:文本、图像和音频(图1(a)和(b))。选择这些模式的动机在[38]中有详细的讨论,这里也有简要的讨论。在“文本”刺激下,参与者可以直接从提示中阅读,但有可能绕过语音产生的初始阶段,即概念准备和词汇选择[40],[41],因此”文本提示语音(Text-Prompted Speech)”与”自发语音(Spontaneous Speech)”之间存在重要差异。在图片命名任务中,通过间接将单词作为图像呈现,参与者会处于语音生成的早期阶段[42],[43],并且有假设认为,与单词重复(Word Repetition)相比,图片命名增加认知负荷可以提高语音解码任务的信噪比[44]。听觉刺激有潜在的混淆效果(Confounding Effects),因为它们向参与者展示了他们被希望用另一个人的声音说的话。先前的研究已经证明了听觉刺激反应的神经解码[12],[26],但是,将语音听辨和语音产生完全分离所带来的挑战是极其巨大的。使用所有这三种方式可以比较不同的效果。此外,我们还使用了两个类别来选择用于研究的单词:动作词和组合(图1(c))。选择词组(Word Groups)来研究语义和句法的语言特性是否影响语音解码。
第一组基于语言具身性(Linguistic Embodiment)理论,该理论假设与不同身体部位相关的动作词汇(如踢、舔、挑)会引起与执行该动作的肌肉群(如脚、舌、手)相关的皮质区域的活动[45]。在这里,我们使用两个具身性的实例来选择动作词(图1(c))。“挤”和“跳”这两个词对应的是与肢体有关的动作,而“吻”和“笑”这两个词则与脸有关,更具体地说,与嘴唇有关。
选择第二个单词组来检查存在或不存在语法改变对解码的影响。这些组合的选择是基于一项观察,即单词列表缺乏将它们组合成单个概念的关键计算[46](Lists of words lack the critical computation to combine them into a single concept)。因此,我们选择了两个短语和两个列表(图1(c))。它们是“红球(red ball)”和“绿帽子(green hat)”(短语)和“红 绿(red green)”和“球 帽(ball hat)”(列表)。
在设计实验程序时考虑了几种常用的方法。一种是要求参与者在受到刺激后立即开始说话[27],[33],[47]。另一种方法将刺激/提示和任务执行这两个组成部分分割开来,在执行前直接刺激[31],[48]。考虑的最后一种方法需要在刺激和任务产生期间有一段明确的间歇期,以便参与者在任务执行前记住目标单词或短语[49],[50]。
尽管每种方法都有各自的优缺点,但我们选择了第一种方法,即双重刺激和任务执行时间(图1(a)-绿色),以限制与工作记忆相关的认知负荷,减少每次试验的总时间,并避免干扰常用的产生模型所描述的语音产生过程[29]。
在“-500ms”时,每个试次开始时,屏幕上呈现一个注视十字。在此之后,三种刺激类型中的一种在时间“0”出现,以提示参与者将要说出某个单词。也就是说,对于任何给定的试次,都会通过向参与者展示该单词的文本、图像或音频来提示一个单词。文本和图像刺激在屏幕上显示1秒,然后再用空白的灰色背景替换1秒(图1(a))。补充图1中显示了所选择的代表文字的图像,除了“球帽”图像的大小被调整为488 × 325(使两个对象都能清晰地可视化显示)外,所有图像的大小都被调整为325 × 325像素的标准尺寸。
音频开始在500ms处播放,所有音频剪辑播放不到1秒。在音频呈现期间,显示器显示可识别的符号,指示这是刺激呈现时期(图1(b))。2s周期用绿色阴影表示(1s刺激+ 1s空白;图1(a))为任务执行周期。这一阶段被认为是EEG的分类期,并对fNIRS进行了必要的校正(见第二节D部分)。在任务后处理阶段(post-task production period),屏幕上显示注视十字,时间随机在1.5到2.5秒之间。我们向所有参与者提供了关于如何产生想象中的言语的相同书面说明(补充材料),并根据综合的实验方案,指导其在感知到每个单词后立即开始产生言语。参与者在每个试次中都被明确告知每个单词或一对单词只能说一次。每一个可能的刺激和单词的组合都被展示给参与者50次。试验被分成6个区组,每个区组进行2次运行,每次运行100个试次,因此每个试验有1,200次。参与者在每次运行之间允许进行短暂休息。试次在区组和组间随机排列。实验共持续约2小时。有关实验协议的详细信息,请参见[38]。
B.参与者
略。
C.数据采集
使用g.Nautilus fNIRS-8同时记录EEG和fNIRS数据(g.tec medical engineering GmbH Austria),一个完全集成的EEG和fNIRS记录设备。g.Nautilus fNIRS-8可实现采集信号在10米范围内的无线数字传输。使用MATLAB-Simulink平台实现同步信号记录,并为EEG和fNIRS定制Simulink模块。
使用g.SCARABEO有源(Active)湿(Wet)电极配置64通道EEG montage(图2)。根据统一的montage 10-5标准系统定位电极,使其均匀分布在头皮位置,并便于在双半球运动区域定位fNIRS光极。EEG采集频率为250 Hz。使用0.1Hz的高通滤波器去除记录期间的慢漂移(Slow Drifts),使用48-52Hz的陷波滤波器去除50 Hz的工频噪声。在采集过程中,fNIRS数据以10Hz的频率记录,并升采样至250 Hz。使用8个基于LED的发射器,每个发射器发射波长为760和850 nm的光来获取数据。两个接收器,每个与4个发射信道相关联,产生2×4 fNIRS信道。每个fNIRS通道记录两个波长的光密度(Optical Densities),从而产生总共16个通道包含每个记录的光密度。此外,基于改进的比尔-朗伯定律(Modified Beer-Lambert Law)[51],[52],g.Nautilus fNIRS-8可以在线将光密度转换为HbO和脱氧血红蛋白(Deoxy-Hemoglobin,HbR)的浓度变化(Concentration Changes):
式中A为光密度,t为时间单位为秒,λ1和λ2为固定的波长,Ⅰin为光的入射强度,Ⅰout为光的检测强度,α为消光系数(µM−1cm−1),c为以微摩尔为单位的吸收体浓度(μmol),l为光源与探测器光电器件之间的距离(厘米),d为差分路径长度因子(differential path-length factor)(6),η是由于散射造成的光的损失(这里假设由于连续波fNIRS中的衰减,它可以忽略不计[53])。光的入射强度是g.Nautilus Fnirs-8发出的光的初始强度,是该设备的属性。
接收器光电二极管位于C3和C4,每个发射器位于距离接收器30 mm处。发射器光电器件被放置在相同的头皮位置,并在每次实验中连接到相同的通道。
D.数据处理
在MATLAB 2017a (Mathworks, Natick, MA, USA)中使用EEGLAB[54]对EEG数据进行处理。在对原始脑电图进行目视检查后,对过度噪声(Excessive Noise)(±500µV最大值)或信号损失进行信道拒绝。利用EEGLAB内置的启发式自动确定滤波器长度的汉明窗有限脉冲响应(Finite Impulse Response,FIR)滤波器,实现了原始连续脑电信号在0.5-40 Hz范围内的带通滤波,所有信号采用共同平均参考(Common Average Referencing)[54]。基线去除,通过计算-500ms - 0s时间段内(图1(b))每个试次的平均值并从任务周期中减去该平均值。含有肌肉伪影的试次通过目视检查被拒绝掉。最后,使用informax算法对剩余的预处理过的通道进行独立分量分析(Independent Components Analysis,ICA)以去除伪影[55]。ICA成分通过视觉评估进行了检查,那些权重在前额区域有明显分布,表明为眼部伪迹的成分被移除了。每个实验阶段数据删除一到三个成分。脑电数据被转换回通道空间进行进一步分析。
在Fieldtrip中对fNIRS数据进行处理[56]。由于设置期间fNIRS信号质量差(S5-Session 1, S6-Session1 (Overt); S13-Session 1(Imagined))或实验期间的信号丢失(S2-Session 2, S3-Session 1(公开); S2 -Session 1(Imagined)),最初EEG研究[38]中报告的几个实验阶段在本文中未使用。由于接触不良而导致信号质量差的通道在目视检查后的进一步分析中被排除。信号从0.1 ~ 0.8Hz进行带通滤波,以减少生理信号(如心脏干扰(0.8Hz))的伪影。数据被划分为-500ms-3.5s的时间段(考虑到较慢的fNIRS时程,时间段长度设置的比EEG更长),并进行基线校正(Baseline Corrected)。通过目视检查含有运动伪影的试次被拒绝。
采用任务执行周期为2s(图1(a))进行分类。由于EEG和fNIRS的时间过程不同,在所有分类任务中对fNIRS应用时间偏移(Temporal Offset)。混合EEG-fNIRS研究使用了多种窗口从fNIRS中提取特征,包括对10 s试次的提示后4 s窗口[9]和对10 s任务的提示后2-7 s窗口[7]。最近的一项研究报道,在3.5 s的试验期间,当fNIRS滞后于EEG信号约1.7 s时刻,EEG与fNIRS信号出现峰值相关性[21]。由于任务执行周期相对较短(2s),我们对fNIRS数据应用了1.5 s的偏移量,即0 ~ 800 ms的分类窗口对应于提示开始后1.5 ~ 2.3 s的fNIRS数据。
训练一个双模态分类器需要来自不同模态的数据样本是完美的类对齐(Class-Aligned)。当我们独立地对EEG和fNIRS应用试验拒绝时,我们确保了双模态分类的试次通过对两种数据类型中所有独立拒绝的试次进行剔除,在训练前实现了对齐(As we applied trial-rejection to EEG and fNIRS independently, we ensured that trials for bimodal classification were aligned by rejecting all independently rejected trials from both data types prior to training.)。最后,根据实验设计将数据分为6个不同的4-类解码任务(4-class decoding tasks)。这些都是:动作-文本(Action-Text,AT),动作-图像(Action-Image,AI),动作-音频(Action-Audio,AA)、组合-文本(Combinations-Text,CT)、组合-图像(Combinations-Image,CI)和组合-音频(Combinations-Audio,CA)。
E.双模态DL架构
双模态体系结构(图3)由两个子网组成,每个子网都与特定的数据类型相关联,以及包含它们的更广泛的网络体系结构。这两个子网由一个初始卷积块组成,该块结合了时间和空间卷积[13]。第一层滤波器(滤波器数= 40;滤波器大小= 1×5)与输入数据沿时间维度进行卷积。然后,得到的权重会使用所有可能的电极对的权重进行空间滤波(过滤器的数量= 40;滤波器大小= N通道× 1)。批归一化(Batch Normalization)[57]增加了正则化,激活函数增加了非线性(第II.F节)。之后进行dropout处理(p = 0.1)。为了避免减少数据中的空间信息,没有使用池化(Pooling)操作。在超参数(Hyperparameter,HP)优化过程中,对该设计的扩展进行了评估,包括卷积、批归一化、激活函数和dropout层(图3(b))。每个子网的输出是一个FC层,包含500个隐藏单元。子网的输出馈送到网络的其余层,在一个称为“后期融合(Late Fusion)”的过程中,它们被组合在一起,其中特征被单独提取并在后面的层合并[39]。在这里,子网的输出被连接并传递到GRU层[58](250个隐藏层单位)。接下来是一个激活函数,一个dropout层(p = 0.2), FC层和最终激活函数。双模态网络的输出层是一个log softmax分类器(第II.E节)。
在网络的基本版和扩展版中,数据的维度在补充表I中报告,并附有说明特征图的维度如何随着层数的变化而变化的附加文本。由于加窗(windowing),输入张量维度(Input Tensor Dimensions)为32×64×200 EEG和32×16×200为fNIRS (batch×channels×samples)。GRU的输出是一个32×250张量,它输入到下一个FC层,输出形状为32×4,应用到log softmax分类器。网络使用PyTorch[59]和braindecode[13]软件包(https://github.com/braindecode/brainde code)构建。双模态网络可在:https://github.com/cfcooney/BiModNeuroCNN获取。
文章还对单模态DL架构、网络训练、超参数优化、评估指标及统计步骤的操作进行了详细描述,详见原文。
双模态网络在单模态网络的基础上提高了性能
双模态方法比两种单模态方法获得了更高的总体解码精度,除了显性言语EEG外,在统计上都有显著的改进(表1和表2)。显性言语的任务特定性评分(Task Specific Scores):AT = 49.61%,AI = 48.72%,AA = 45.02%,CT = 49.20%,CI= 46.76%,CA = 38.52%(表I;图4)。AT: 46.04%,AI: 46.66%,AA: 41.55%,CT: 46.90%,CI: 45.08%,CA: 36.72%(表I)的平均EEG解码精度下,双模态解码在所有显性语音任务中均优于单模EEG。在想象言语任务下,双模态的各项平均解码精度仍优于单模态EEG情况(表II;图4)。
双峰网络的解码性能
图4(a, b)是使用双模态网络对显性语音和想象语音进行精度可视化的分散箱线图。箱线图突出了两个结果:(1)双峰网络对显性语音和想象语音的分类准确率显著高于概率水平,但在分类任务之间存在显著差异。(2)两种语音类型之间存在明显的性能差距,显性语音解码准确率显著提高(F(1, 5) = 3.06, p<0.05; 2-way ANOVA)。
双峰网络的超参数优化
HP优化结果表明了脑电频带、分类窗口和CNN子网深度的重要性(图6)。
刺激和字型对解码的影响以及上述实验结果的详细解析详见原文。
作者总结了他们的研究结果并讨论了一些相关问题。首先,他们发现使用图像作为提示的想象言语试验表现出了比文本和音频更好的性能。这可能是因为图像提示需要参与言语产生模型中的词汇检索阶段,而不直接呈现要说的单词。然而,图像提示可能会引起比文本更高的脑电信号幅度,这可能会对解码产生影响。因此,在设计实验时,研究人员需要仔细考虑提示的呈现方式。
其次,作者讨论了他们研究的局限性。首先,他们的功能性近红外光谱(fNIRS)监测仪器的通道数可能对研究结果产生影响。更多的fNIRS通道可能会减轻脑电信号和fNIRS信号之间的不平衡。其次,fNIRS光电极的放置位置可能会影响解码结果。作者在运动区域放置了光电极以配合动作类单词的选择,但其他研究表明,放置在Broca区和Wernicke区的光电极也可以解码言语相关的信号。此外,作者还提到了实验中较短的试验时间和分类窗口的限制,这可能会影响解码性能。作者认为,延长试验时间可能会改善双模态方法的解码性能,但这也会损失脑电信号的高时间分辨率。最后,作者指出需要进一步研究不同波长的效果以及在线脑机接口实验中该方法的有效性。总的来说,作者通过提出一种双模态深度神经网络架构,成功地改进了单模态方法的解码性能。然而,作者也指出了该研究的局限性,并提出了一些需要进一步研究的问题,以便在未来的研究中改进和优化这种方法。
在本文中,我们提出了一种用于从两个数据流解码神经信号的双峰深度神经网络架构,并展示了它在单峰方法的基础上的改进。通过实例化使用公共损失函数(Common Loss Function)训练的两个卷积子网,该设计便于并发特征提取。然后将特定于数据的特征在融合层中进行组合,然后使用其他层来提取特征进行分类。为了测试该网络,我们利用参与者执行显性和想象语言任务时记录的EEG和fNIRS数据对其进行了训练。
这些任务也使研究刺激和语言特性对语音解码的影响成为可能。结果表明,在所有想象语音任务中,双峰网络在单峰解码的基础上显著改善。尽管没有针对不同的数据类型专门定制子网,fNIRS数据的持续时间也不是最优的,但大多数受试者的结果在双峰网络下得到了改善。这些都是未来需要进行研究和开发的领域。尽管显性语音和想象语音之间存在显著的性能差距,但总体准确性暗示了从非侵入性神经记录解码语音的潜力。
另外,结果表明,在所有想象语音任务中,双峰网络在单峰解码的基础上显著改善。尽管没有针对不同的数据类型专门定制子网,fNIRS数据的持续时间也不是最优的,但大多数受试者的结果在双峰网络下得到了改善。这些都是未来需要进行研究和开发的领域。尽管显性语音和想象语音之间存在显著的性能差距,但总体准确性暗示了从非侵入性神经记录解码语音的潜力。
详见原文。