Part.1
引言
情感作为一种主观感受,不能被定义为一个单一的概念。但在功能上离散的情绪(如快乐、悲伤、恐惧、平静等)进行限定、语境化和定义是可行的。情绪是一种心理状态,影响着人们的认知、行为,甚至是生理反应。因此,情绪在人际交往中起着重要作用。情绪识别在日常生活中应用领域广泛,如人机交互、教育、娱乐、临床诊断等。传统的情绪识别主要利用面部表情、语音语调等,但很容易误判。而生理信号可以客观的反映人的情绪状态。由于无创、用户友好,脑电图(EEG)、功能性近红外光谱(fNIRS)成为大脑神经活动相关的常用生理信号。
目前基于EEG/fNIRS的情绪识别研究,涉及特征提取方法和识别模型两个方面。具体如下表1所示。此外,提出的混合EEG-fNIRS可以进一步提高情绪识别的性能。为了全面检查混合EEG-fNIRS的效率,已经开发了各种深度学习算法来分析EEG和fNIRS数据的模式。本文提出了一种图卷积和胶囊注意力网络(GCN-CA-CapsNet)模型。首先,采用图卷积法融合EEG和fNIRS特征。然后,利用胶囊注意模块为胶囊网络分配不同的权值,有效地整合来自不同深度的EEG-fNIRS特征。
Part.2
材料和方法
Part2.1
EEG-fNIRS数据采集和预处理
50名大学生(25名男性)自愿参加了这项研究。所有被试视力均正常或矫正到正常,并签署了知青同意书。被试舒服的坐在电脑屏幕前椅子上,观看60个情绪视频片段,包括悲伤、快乐、平静和恐惧,每种情绪都有15个视频片段。每个视频持续1~2分钟,然后被试在30s内填写评估表。实验流程如下图1所示。
EEG和fNIRS传感器都放置被试头皮上。EEG以1000Hz采样率、64通道记录,fNIRS以11Hz采样率、18个通道记录。EEG和fNIRS通道排布如下图2所示。实验中,被试尽量减少头部运动,以避免信号伪迹。
使用MATLAB中的EEGLAB 工具箱对原始EEG数据进行预处理。首先,转换参考为双侧乳突,使用0.5-45Hz的带通滤波进行滤波处理。然后数据分段,基线2s进行基线校正。最后进行独立主成分分析,删除眼电伪迹。
fNIRS数据预处理与EEG类似,使用2s基线校正,以0.01-0.2Hz的带通滤波进行滤波操作。然后将光密度转换为血氧浓度数据。使用含氧血红蛋白(HbO)数据并将其分割多个样本。
Part2.2
特征提取
对EEG数据进行预处理后,在δ(0.5-4Hz)、θ(4-8Hz)、α(8-13Hz)、β(13-30Hz)和γ(30-45Hz)五个频段中提取每个样本的差分熵(DE)。DE可以测量信号的复杂度,表达式如下:
由于fNIRS信号主要反映时间序列中的血流动力学特征,因此,对于HbO数据,提取均值、方差、偏度、功率谱密度(PSD)和DE共5种特征。
Part2.3
GCN-CA-CapsNet模型
图卷积和胶囊注意力网络(GCN-CA-CapsNet)模型可以分为三个关键组件:GCN模块、胶囊注意力模块和基于动态路由的分类胶囊模块。如下图3所示。
Part2.4
GCN模块
图卷积网络(GCN)可以通过将卷积和图论相结合来处理图数据,这为探索多个EEG-fNIRS通道之间额空间关系提供了一种有效的方法。该模块种,对EEG和fNIRS特征数据进行两层GCN,生成高级的EEG-fNIRS代表。
Part2.5
胶囊注意力模块
通过胶囊注意力机制,将包含不同深度节点特征的初级胶囊体分配不同的权重,具体过程如下图4所示。
Part2.6
基于动态路由的分类胶囊模块
对于胶囊的输入和输出向量,较低级别的胶囊通过动态路由算法连接到较高级的胶囊。动态路由算法如下图5所示。
Part3.1
实验设置和评估
在GCN模块中,选择Pearson相关、PLV(锁相值)和GC(格兰杰因果关系)来探讨邻接矩阵对最终情绪识别表现的影响。结果如下图6所示。结果表明,与PLV和GC相比,Pearson作为邻接矩阵时,前10个被试获得了更好的表现。因此,本文选择Pearson相关作为邻接矩阵。
此外,我们探索了邻接矩阵中10%、20%等以及100%全连接的选择,并分析了不同百分比连接对情绪识别性能的影响。发现,选择40%的连接时获得最佳性能。具体如下图7图8所示。
Part3.2
模型简化测试
为了进一步验证GCN-CA-CapsNet框架中每个组件的有效性,进行了模型简化测试。将CapsNet视为基线框架,然后将GCN和CA依次叠加在基线框架上,旨在呈现它们对情绪识别的积极影响。结果如下图9所示,证明了GCN-CA-CapsNet模型每个组件的有效性。
Part3.3
单EEG和单fNIRS的性能比较
为了验证EEG-fNIRS特征融合的有效性,还使用了EEG或fNIRS特征的单一模式进行情绪识别。如下表2所示,GCN-CA-CapsNet方法联合EEG-fNIRS特征的平均识别精度优于单一特征的准确率。GCN-CA-CapsNet方法可以有效的融合EEG-fNIRS特征,从而提供全面的信息以提高情绪识别性能。
此外,我们分析了不同特征的情绪识别的混淆矩阵,如下图10所示。与单个EEG特征和单个fNIRS特征相比,使用EEG-fNIRS特征时,四种情绪的识别准确性增加。
Part3.4
不同方法的比较
使用EEG-fNIRS情绪数据集,将所提出GCN-CA-CapsNet方法与最近的深度学习方法的比较,如下表3所示。结果表明,GCN-CA-CapsNet方法在列出的方法中识别准确率最高,分别比其他四种方法高7.75%、11.07%、3.26%、3.90%。
Part4
结果
本文介绍了一种基于EEG-fNIRS的情绪识别框架,利用图卷积和胶囊注意力网络,即GCN-CA-CapsNet。此外,本文还提出了一种胶囊注意力机制,将不同的初级胶囊赋予不同的注意力权重,以进行特征融合。因此,在动态路由机制中选择质量较高的初级胶囊,生成更好的分类胶囊,提高了识别性能。识别结果表明,相较于其他先进的方法,GCN-CA-CapsNet方法有更好的性能,最佳准确率可达97.91%。
Part5
文献
Cortivision无线便携式近红外光学脑成像系统
公司简介