该论文发表于Neural Networks(中科院一区,IF=7.8),题目为《SFT-SGAT: A semi-supervised fine-tuning self-supervised graph attention network for emotion recognition and consciousness detection》。
华南师范大学人工智能学院邱丽娜副研究员为此文第一作者,华南师范大学人工智能学院潘家辉教授为通讯作者。
论文链接:
https://doi.org/10.1016/j.neunet.2024.106643
论文概要
本论文提出了一种基于半监督微调自监督图注意力网络(SFT-SGAT)的跨被试脑电(EEG)情感识别和意识检测方法,该方法通过构建动态捕捉EEG信号时空拓扑特征的图结构,并利用自监督图注意力神经网络促进模型训练,最终使用半监督方法对模型进行微调。这种方法有效解决了传统技术在跨被试情感识别中因EEG信号个体差异和情绪标签获取困难所导致的性能不佳问题,并成功应用于意识障碍(DOC)患者的意识水平评估。
研究背景
情绪是人类大脑的基本认知功能之一,在日常生活和辅助诊断各种情绪障碍方面具有重要作用,并且与意识水平密切相关。意识障碍患者意识水平的准确评估对其治疗至关重要,但现有基于行为量表和临床经验的评估方法误诊率较高。传统基于面部表情、语音和身体运动的情绪识别方法受文化背景影响较大,可靠性有限,且对残疾人的适用性较差。相比之下,基于脑电图的情绪识别方法更具客观性和准确性,因而受到广泛关注。基于脑电图的情绪识别方法可分为监督学习、半监督学习和无监督学习。监督学习依赖大量标记数据,但数据获取难度大、成本高;无监督学习虽然不依赖标记数据,但结果精度和可靠性较低,且难以解释;半监督学习结合了两者的优势,但在利用有限标记数据与大量未标记数据提升模型的跨被试情绪识别性能方面仍面临挑战。由于EEG信号的个体差异性,跨被试情绪识别模型的性能通常不如被试依赖模型。
研究方法
1. 算法模型
该论文提出了一种基于半监督微调-自监督图注意力网络(SFT-SGAT)的跨被试情绪识别方法。该方法主要由两个部分组成:改进的自监督图注意力网络和半监督训练策略。具体算法模型如图1所示。
改进的自监督图注意力网络。采用微分熵(Differential Entropy, DE)特征作为模型输入数据集。通过对原始EEG数据进行短时傅里叶变换计算DE特征,在5个频段上平均,每个通道的DE特征数据大小为(5×T)。将DE特征输入卷积池化层,该层为三层网络结构,每层含卷积层和池化层,ReLU为卷积核激活函数,为防止过拟合,卷积层后设置0.1的丢弃率。卷积池化层输出的特征转换为二维矩阵后输入图组织模块构建图网络。图结构G=(V, E),顶点集V基于EEG信号数据样本的通道数构建特征矩阵,边集E表示通道间的邻接关系,通过构建邻接矩阵计算EEG信号的邻接关系。计算邻接矩阵后,通过top - k操作选择每个节点与其他节点间的最大权重连接作为边集。为解决EEG信号固有噪声导致图结构中无关节点连接的问题,采用两个策略:一是用含自注意力机制的神经网络替代传统图网络;二是通过自监督学习自注意力系数来学习图结构中每条边的重要性。自注意力机制使网络在处理EEG信号时更关注与当前节点相关的邻节点,同时通过自监督任务预测节点间是否存在边,从而更好地理解每条边的重要性,减少学习过程中对噪声的敏感度。得到图表示后,将其输入图网络模块,计算注意力系数,并通过自监督任务进行细化,建立链接预测任务来自监督注意力系数的学习过程,最后将自监督图注意力网络的输出经过线性连接后输入全连接层,以交叉熵损失函数作为训练优化目标。
半监督训练策略。由于情感相关的EEG数据尤其是标记数据难以收集,模型训练采用半监督训练策略。训练过程分为两个阶段:第一阶段,类似监督训练方法,使用所有可用数据标签快速优化模型参数;第二阶段,采用半监督方法对第一阶段训练的网络模型进行微调。根据第一阶段训练模型的验证结果,将某些概率较高的样本视为未标记样本,将其预测值作为伪标签。如图1所示,其中(a)表示模型训练的第一阶段,在此阶段使用训练集中的所有数据标签对模型进行训练。(b)表示模型训练的第二阶段,在此阶段使用半监督学习方法对模型进行微调;对于置信水平大于0.8的数据,使用伪标签对模型进行训练。
图1 半监督微调-自监督图注意力网络(SFT - SGAT)的框架。
2. 实验设计
数据集:
使用SEED和SEED-IV两个公开的情感EEG数据集,以及一个自采的情感EEG数据集进行实验。SEED和SEED-IV数据集分别包含15名被试,自采数据集包含10名健康被试和8名意识障碍患者,自采数据集实验范式如图2所示。
图2 自采数据集的实验范式
实验设置:
使用差分熵特征作为模型的输入,采用留一被试法(LOSO)交叉验证策略评估模型。训练过程分为两个阶段:第一阶段使用所有可用数据标签进行优化,第二阶段使用半监督方法对网络模型进行微调。
实验结果与分析
如表1所示,在SEED和SEED-IV数据集上,SFT-SGAT模型的跨被试情绪识别准确率分别为92.04%和82.76%,优于多种现有方法,且标准偏差较低。如图3所示,SFT-SGAT在SEED和SEED-IV数据集上结果随训练轮次的变化。两数据集轮次分别约60和300。SEED数据集在验证集ACC达0.85、AUC达0.96时开始半监督微调,此时训练轮次约15,后续半监督训练中验证集和测试集的ACC和AUC上升。SEED-IV数据集在半监督微调阶段将验证集ACC阈值降至0.8,AUC不变,此阶段开始时训练轮次约100,半监督训练中验证集和测试集的ACC和AUC也上升。总体上,训练约三分之一轮次用于第一阶段,三分之二用于微调,微调时测试集准确率呈锯齿状上升。
表1 SFT - SGAT方法与其他方法在SEED和SEED - IV数据集上的跨被试识别准确率对比(单位:%)
图3 SFT - SGAT模型训练期间实验结果随轮次的变化。在每个图中,横轴表示轮次数量,纵轴表示准确率或曲线下面积(AUC)。15条不同颜色的线代表15个不同的受试者。
如图4和图5所示,在自采数据集上,对健康受试者的情绪识别准确率为79.81% - 95.84%,平均准确率为87.45%,对部分意识障碍患者也能实现较高的情绪识别准确率,且情绪识别准确率与患者的CRS-R分数呈正相关。
图4 SFT – SGAT模型在自采数据集中健康受试者的跨被试情绪识别准确率(单位:%)
图5 DOC患者的CRS-R评分与情绪识别准确率之间的相关性分析
最后,论文通过消融实验进一步验证了模型的有效性。实验设计了三种图网络结构与两种训练方法的组合,共得到六种不同配置。结果显示,自监督的图注意力网络在各结构中表现最佳,且在训练方法上,监督和半监督微调训练方法优于监督训练方法。提出的模型在SEED和SEED-IV数据集上的准确率最高,充分体现了其在图网络结构优化和训练方法改进上的合理性和有效性。
结论
该论文提出了一种新颖的半监督-跨被试情感识别方法SFT-SGAT,通过在SEED和SEED-IV数据集上实现最先进的跨被试性能,并展示了其在意识障碍患者评估中的潜力。未来的工作包括在更广泛的数据集上验证方法的可行性,增加意识障碍患者的被试数量,并优化模型各组件的参数以提高其在多类任务和复杂场景任务中的鲁棒性。
撰稿人:钟良泉
审稿人:邱丽娜
脑机接口与混合智能研究团队
团队主页
www.scholat.com/team/hbci