在沉浸式和非沉浸式虚拟现实中使用机器学习实现的多模态情感分类
译:泰和利康-单家旭
情感计算(Affective Computing,AC)是一种与情绪相关或影响情绪的计算,专注于理解人类识别情绪的心理生理机制(Bota et al. 2019)。传统的情感识别方法通常依赖于面部表情和语言。然而,这些方法在现场实验中缺乏可行性(Chanel et al. 2007)。
生理信号是评估情绪的另一种方法,使用各种可穿戴传感器,以一种不引人注目的方式进行实验(Bota et al. 2019)。
AC已被用于通过生理信号来识别情绪状态的相关研究,并已应用于认知障碍和抑郁症患,以改善其精神状态。
AC相关的研究大多是通过在二维环境中呈现情绪刺激来进行的。然而,虚拟现实(Virtual Reality,VR)在情感识别领域越来越受欢迎(Marín-Morales et al. 2020)。VR用于在模拟现实生活情境和环境的受控条件下研究人类情绪,提供高水平的存在感/沉浸感(Presence),这与置身于虚拟环境中的感觉有关(Rose et al. 2018)。先前的研究通过比较虚拟环境和真实环境的情绪反应,同时通过生理信号评估生理反应,证明了VR在引导受控环境中特定情绪状态方面的有效性(MarínMorales et al. 2020)。
因此,本研究的目标是利用机器学习(Machine Learning)和VR技术自动检测和识别情绪状态。为了实现这一目标,我们提出了以下目标:(1)评价情绪刺激呈现时沉浸度(Immersion)的影响;(2)使用用户依赖(User-Dependent Models)和用户独立(User-Independent Models)分类模型对自我报告评分和生理信号中的情绪刺激进行分类。因此,我们制定了以下研究问题:(1)情绪刺激的沉浸程度如何影响情绪反应?(2)利用机器学习从生理信号和自我报告的评分中对情绪刺激进行分类的准确性有多高?
将机器学习算法和模型应用于从生理信号中提取的特征,准确地对电影片段的情感类别进行分类。对主观评分和生理信号分别使用分类模型,使用用户依赖和用户独立模型检测相应电影片段的情感类别。
当前发展状况
·虚拟现实
虚拟现实(Virtual Reality,VR)已广泛应用于多个康复领域,从运动到认知康复。它是传统康复疗法的一种替代方案,但有潜在的局限性,例如无法转移到日常活动中。因此,虚拟现实可以成为提供个性化治疗的一种手段,因为它可以诱导特定的情绪,从而获得更好的预后(Stasieñko和Sarzyńska-Długosz 2016)。
在这项工作中,我们使用头戴式显示器作为展示方式,用户在头上佩戴特殊的眼镜或头盔(头戴式显示器(Head-Mounted Displays,HMD)) (Trojan et al. 2014)。Juvrud等人(2018)开发了虚拟实验室(Virtual Lab),这是一种结合了生理测量和VR的大规模家庭测试。Meehan等人(2002)研究了存在感(Presence)水平对压力(Stressful)环境下生理反应的影响。
VR的另一个重要概念是沉浸度(Degree of Immersion)。沉浸感(Immersion)是虚拟现实系统将感觉(Sensations)从现实世界投递(Delivers)到虚拟世界的程度(Rose et al. 2018)。先前的研究(Borrego et al. 2016;Goncalves et al. 2021)比较了HMD和2D信息的3D空间投影(CAVE系统)之间的沉浸感差异。他们得出的结论是,与CAVE相比,参与者在HMD系统中的沉浸程度更高。
因此,先前的研究支持使用VR来研究沉浸感对生理反应的影响,因为使用HMD报告的更高水平的沉浸感已被证明会引发更高的生理反应(Meehan et al. 2002)。此外,评估不同程度的沉浸感在情绪刺激的呈现方式,即屏幕的大小和角度,会如何影响参与者的情绪反应是很有趣的。
·情绪调节
情绪调节(Emotion Regulation)可以被定义为“调节情绪体验或反应的一个或多个方面的过程”(Rey et al. 2014)。个体使用情绪调节策略的方式不同,因为这种调节的缺陷会影响心理健康(Inwood and Ferrari 2018)。因此,维持社会关系和适应新的日常生活活动是一个重要因素(Rey et al. 2014)。
它是边缘型人格障碍(Borderline Personality Disorder,BPD)、抑郁症(Depression)、焦虑症(Anxiety Disorders)、饮食障碍(Eating Disorders)和躯体形式障碍(Somatoform Disorders)等心理健康障碍和心理治疗研究的主要研究课题(Berking和Wupperman 2012)。BPD患者的情绪意识和清晰度较低,并且倾向于将自残作为一种情绪调节策略。据报道,抑郁症患者在识别和接受负面情绪方面存在困难,而焦虑症患者对恐惧情境的反应更高(Berking和Wupperman 2012)。
研究通常在情绪调节的概念化(Conceptualization)和评估(Assessment)方面有不同的方法,从而限制了跨研究结果的比较(Berking and Wupperman 2012)。在情绪调节的基础上,正确地检测情绪是必要的。情感检测通常通过检测面部表情、语言、手势和生理状态来完成(Garcia-Garcia et al. 2017)。面部表情反映了一个人的情绪,通过检测人脸,识别脸上有关流露情绪的“点”的位置变化,并处理分析这些“点”来决定被检测到的是哪种情绪(Garcia-Garcia et al. 2017)。语音(Speech)是另一种检测情绪的方法,它从用户的声音中收集情绪信息,通过生成的信息到与副语言(Paralinguistic)信息相关的链接之中(Garcia-Garcia et al. 2017)。肢体动作也能揭示一个人的感受,尽管目前还不清楚如何创建检测肢体动作来识别情绪的系统。最后,可以通过监测生理状态和创建一个分类系统来预测我们身体对情绪的反应来检测情绪(Garcia-Garcia et al. 2017)。
这些方法中的大多数都有局限性,即可以控制面部表情、语音和手势来隐藏特定的情绪状态(Chen et al. 2020)。为了克服这一问题,有必要对不同的情绪维度进行分类和区分,使用标准化的自我报告量表和生理信号来识别不同的情绪状态。
·情感模型
AC是一个不断发展的领域,因为它通过识别和解释情绪在现实世界的应用中起到很重要的作用(Sharma和Mathew 2020)。多年来,许多情绪模型显露出对情绪状态进行了分类。这些可以根据两个维度来定义:一个离散维度和一个连续维度(Scherer et al. 2001)。在离散的情绪维度中,情绪被分类为特定的状态,如恐惧和愤怒(Cacioppo和Tassinary 1990)。Ekman(1992)认为情绪是普遍的,在不同的文化中是共享的。因此,人们可以很容易地识别来自不同文化背景的人的表达。从这些面部表情中,Ekman列举了以下基本情绪:快乐、悲伤、愤怒、厌恶、恐惧和惊讶。Plutchik(1982)创造了情绪轮(the wheel of emotions),将八种基本情绪分类为:喜悦、信任、恐惧、惊讶、悲伤、期待、愤怒和厌恶。这个轮盘是由在轮子外缘的低强度的情感(low-intensity emotions)组成的。然后当你向中心移动时,主要情绪(Primary Emotions)出现,直到到达轮子的中心,保持一个人能体验到的最强烈的情绪。在这个模型中,每一种情绪都有其相反的情绪(例如,悲伤vs快乐,愤怒vs恐惧,等等)。另一方面,对于连续的情感维度,Russell(1980)发展了情感的环形模型(circumplex model of emotion)(图1),一个二维的圆形空间,纵轴代表唤醒(Arousal),横轴代表效价(Valence)。在这个模型中,情绪状态可以用任何水平的效价和唤醒度来表示。最后是Mehrabian和Russell(1974)增加了第三维度——支配地位(Dominance)。增加了支配性量表来描述对一个人情绪的控制和支配。
·情绪监测
在过去的几年中,已经对使用生理信号进行情绪检测和识别的主题进行了几项研究。这些工作大多集中在用户依赖的方法来识别情绪,这高度依赖于每个被试者。最近更多的研究是基于用户独立的方法,使用来自不同用户的未知数据作为测试数据,以获得模型的准确性(Jerritta et al. 2011)。
这些研究在使用情绪激发刺激以及获得识别情绪状态的生理信号方面也各不相同。因此,在本节中,将从用户依赖和用户独立的角度对以前的工作进行回顾。
Kim和André(2008)在没有任何实验室设置的情况下,使用扩展线性判别分析(pLDA)基于获得的四种生理信号(肌电图、心电图、EDA和RESP)来对音乐情绪(积极/高唤醒、消极/高唤醒、消极/低唤醒和积极/低唤醒)进行分类。用户依赖分类(user-dependent classification)的识别准确率为95%,用户独立分类(user-independent classification)的识别准确率为70%。Liu et al.(2005)通过测量心电图和肌电图对以下情绪状态进行分类:焦虑(Anxiety)、无聊(Boredom)、投入(Engagement)、沮丧(Frustration)和愤怒(Anger)。这些情绪状态是通过基于计算机的认知任务激发出来的,比如字谜游戏和乒乓游戏。所有参与者(用户依赖)和所有情感状态的平均正确分类在k近邻算法(K-Nearest Neighbor)中为75.12%,在回归树(Regression Trees)中为83.5%,在贝叶斯网络(Bayesian Networks)中为74.03%。
有几项研究使用了IAPS数据库来引出情绪状态。Rigas et al.(2007)使用肌电图、心电图、EDA和RESP对快乐、厌恶和恐惧进行分类。对于独立用户的模型,k近邻模型的准确率为62.70%,随机森林模型(Random Forest)的准确率为62.41%。Haag等人(2004)使用多种生理传感器的组合来测量效价和觉醒。使用神经网络分类器,在用户依赖模型下,效价分类准确率为89.7%,唤醒分类准确率为63.76%。Maaoui和Pruski(2010)使用血容量脉冲(Blood Volume Pulse,BVP)、EMG、SKT、EDA和RESP传感器对娱乐、满足、厌恶、恐惧、悲伤和中性进行分类。他们使用支持向量机(Support Vector Machine)获得了90%的准确率,使用fisher线性判别分析(fisher linear discriminant analysis)获得了92%的准确率,两者都来自用户依赖模型。最后,Gu et al.(2010)基于ECG、BVP、EDA、EMG和RESP使用k近邻分类器对几个离散的情绪进行分类。用户独立模型的准确率为50%,用户依赖模型的准确率为90.7%。
另一方面,电影片段最近被用来激发情感,而不是图片。Li和Chen(2006)通过对恐惧、快乐和中性的情绪状态分别使用一个电影片段来引出这些情绪状态,同时获得ECG、SKT、EDA和RESP。然后,进行典型相关分析(Canonical
Correlation Analysis),从用户依赖的角度来看,获得85.3%的准确性。Nasoz et al.(2004)也利用电影片段结合EDA和心率来引出几种离散的情绪。使用k近邻分析获得的准确率为71%,使用判别函数分析(Discriminant Function Analysis)获得的准确率为74%,使用Marquardt反向传播(Marquardt Back Propagation)获得的准确率为83%,所有这些都为用户依赖型。Ramzan等人(2016)也使用音视频电影片段对唤醒和效价进行分类。结合ECG和EEG信号对效价和觉醒进行分类,平均准确率分别为71.6%和54.0%。
从这些研究中,我们可以得出结论,生理信号的组合导致更高的情绪状态分类准确性。此外,从用户依赖模型和用户独立模型的精度比较来看,基于用户依赖的角度出发,我们可以获得更高的精度。
·样本
参与者是从志愿者主体的便利抽样中招募的,他们都是精通英语的大学生和工人。14名健康成人自愿参加本研究,其中女性9名,男性5名,平均年龄31±7.53岁,年龄在21 ~ 50岁之间。所有志愿者都被认为是健康的,因为没有人报告患有任何心理障碍或定期服用药物。在收集任何类型的数据之前提供书面知情同意。这项研究和所有的伦理程序都得到了马德拉大学伦理委员会的批准。
·实验材料
硬件
本研究使用的硬件包括:1台HTC Vive HMD,1台式机,1台笔记本电脑,1台头戴式EEG采集设备和可穿戴设备。
HTC Vive是主流的头戴式显示器之一,每眼像素分辨率为1080x1200,视野(FOV)为110°。它通过两个基站的激光跟踪系统提供头部方向和位置跟踪。
Vive与一台安装了Windows 10、英特尔i7-6700 3.40 GHz处理器、16 GB内存和NVIDIA Quadro P6000显卡的电脑相连。
笔记本电脑用于采集EEG和可穿戴设备的所有生理信号。这是一台安装了Windows 10、英特尔i7-1165G7 2.80 GHz处理器、16 GB内存和英特尔Iris Xe显卡的笔记本电脑。
该可穿戴设备是PLUX (PLUX Wireless Biosignals, S.A.)开发的biosignalsplux 8通道设备。该设备是为研究目的而开发的,允许无线和高质量的信号采集。它可以同时采集和记录8个生理信号,采样率高达4000 Hz。在本研究中,以1000 Hz的采样率获得了以下信号:ECG、EDA、RESP、SKT和fNIRS。fNIRS以24位分辨率采集,其余信号以16位分辨率采集。
最后,使用的EEG头戴采集设备是g.Nautilus可穿戴EEG采集系统(g.tec medical engineering, GmbH Austria)。这款头戴采集系统是为科研应用而设计的,配有灵活的电极线缆,可以使用带有32个EEG通道的凝胶主动(Active)电极来任意配置电极的位置。
g.Nautilus可穿戴EEG采集系统(g.tec medical engineering, GmbH Austria)
软件
情绪刺激实验和情绪自我报告量表采用PsychoPy2软件设计(Peirce et al. 2019)。PsychoPy是一个免费的交叉平台,允许创建和运行行为科学实验,如神经科学和心理学。
使用Virtual Desktop软件,将实验的桌面虚拟投递到HMD上。它允许使用不同的个性化选项来复制桌面,比如屏幕大小、屏幕距离和屏幕曲度。在沉浸式设置中,本软件设置以下值:屏幕尺寸= 230°,屏幕距离= 1.50 m,Screen Curve= 100%,而在非沉浸式设置中,使用的值为:屏幕尺寸= 70°,屏幕距离= 1.50 m,Screen Curve= 0%。
情感数据库
本研究使用的情感数据库是EMDB电影片段数据库,该数据库在葡萄牙受试者中得到了验证,我们的目标人群(Carvalho et al. 2012)。EMDB数据库包括以下情感类别:色情(Erotic),恐怖(Horror),社会积极(Social Positive),社会消极(Social Negative),风景(Scenery)和物体(Objects)。在本实验中,情感类别“物体(Objects)”被移除,因为在这个类别中只有两个电影片段,它们在效价和唤醒方面都是中性的视频。相比之下,每个类别中有10个电影片段,因此本实验使用了50个电影片段,每个片段的持续时间约为40秒。
·情绪自我报告量表
自我评定量表
自我评定量表(Self-Assessment Manikin,SAM;Bradley and Lang 1994)使用PsychoPy软件实现,以提供原始量表的数字版本(见图2、3和4)。对每一个放映的电影片段进行主观评分,获得唤起、效价和主导性的分数。所有量表均采用9-point Likert Scale量表,唤醒量表从1 =平静到9 =兴奋(图2),效价量表从1 =不愉快到9 =愉快(图3),支配量表从1 =控制到9 =控制(图4)。
临时评价量表(Ad-Hoc Appraisal Scale)
临时自我报告评估量表(Ad-Hoc Self-Reported Appraisal Scale)旨在研究进一步的情绪维度,这些维度可能会增加情绪的唤醒、效价和支配性维度。
与情绪反应相关的生理信号是通过评估过程赋予情境的个人意义组织起来的(Scherer et al. 2001)。来自ANS的生理信号的反应和评估之间的关联已经被反复证明。因此,可以研究相反的想法,即生理信号可以是特定评价的指标。
在本次实验中,我们采用7-point Likert scale量表(1 =完全不同意,7 =完全同意)对以下评估项目进行评估:预期努力(Anticipatory Effort)、感知障碍(Perceived Obstacles)、新奇(Novelty)、意外(Unexpectedness)、内在目标(Intrinsic Goal)、感知控制(Perceived Control)和控制(Control)/压力(Stress)。
预期努力是指对客观放松或需要的努力的情况的评估。因此,用力越高,皱眉肌的EMG的活动就越活跃(Smith 1989)。感知障碍评估与人与目标之间是否存在阻力有关,从而导致更高的心率(ECG) (Smith and Ellsworth 1985)。新奇性和非预期性内容(意外感)与事件对使用者的新奇性和非预期性有关,会增加皮肤电导率水平(EDA),降低心率(ECG)和暂停呼吸节律(Reisenzein et al. 2019)。内在目标是评价刺激的目标一致性或不一致性(刺激与用户的相关性)。它会影响皮肤电导、前额和手指温度(SKT) (Aue et al. 2007)。最后,感知的控制和控制/压力是一个人感觉事件发生的力量程度,我们可以将情况评估为“挑战(Challenges)”,这会导致心率增加和皮肤电导水平下降(Denson et al. 2009)。所有提供给用户的评估量表项目如图5和图6所示。
本实验分为连续两天的两个实验会话阶段,以两种沉浸度(沉浸式和非沉浸式)呈现EMDB数据库,每个实验会话阶段设置一个沉浸度。因此,EMDB数据库被分成两半,25个电影片段(每个类别5个),每个会话和参与者的情绪类别的顺序是随机的。每个类别中的影片剪辑顺序也是随机的;例如,如果第一个选择的类别是“恐怖片”,用户将会看到5个连续的、随机排列的恐怖片片段,然后再显示下一个类别。每次会话大约持续1小时30分钟。参与者被随机分配到数据库分裂导致的两组实验中,并被随机分配到Virtual Desktop软件上的沉浸式和非沉浸式设置集。
在每次实验中,参与者被要求在放置生理传感器时坐在椅子上休息。心脏信号是通过在参与者的胸部放置三个凝胶电极来获得的,电极呈艾因托芬三角形系统的V2结构(V2 confguration of Einthoven’s triangle system)。两个凝胶电极被放置在参与者的非惯用手的第二个和第三个手指的中间指骨上来测量EDA。RESP信号是使用压电传感器获得的,该传感器测量呼吸周期中腹部或胸部体积变化引起的位移变化。可穿戴的胸带传感器被放置在使用者的胸部。SKT通过放置在非惯用手无名指远端指骨上的传感器来测量外周体温。在10-20 EEG系统中,fNIRS传感器被放置在AF7-AF9区域附近,以测量大脑前额皮质的活动(图7中的蓝色标记)。脑电组态图如图7中红圈所示。首先,使用g.NEEDaccess软件(g.tec medical engineering, GmbH Austria)检查所有32根电极的阻抗。然后,在不移动EEG帽的情况下,在所有电极放置完毕后,将HTC Vive耳机带置于EEG帽上(图8)。最后,对EEG信号进行目测检查,以评估其质量。
然后,参与者盯着屏幕中央的固定十字光标看3分钟,以记录基线生理信号。在此之后,进行了一次训练试次,以提供完成主观评定量表的指导。最后,真正的实验从视觉化情感电影片段开始。然后,参与者必须在每个电影片段结束后回答SAM和临时评估量表,并且在每个情感测试之间额外间隔10秒。虽然每个电影片段之间的最小间隔为10秒,但这个间隔和参与者回答SAM和评估量表的时间足以让情绪反应在呈现以下情绪刺激之前完全消散。这是对每个电影片段进行的,无论情感类别如何,在连续的情感类别之间没有停顿。图9显示了该过程的示意图。
·信号处理
EEG
采集EEG信号,采样频率为250 Hz。对于每个参与者,使用g.NEEDaccess软件检查每个电极的阻抗水平,以减少输入信号中的噪声。
ECG
获取的心电信号(图10),也用于获取用户心率(Heart Rate,HR)和心率变异性(Heart Rate Variability,HRV)信息。然后,采用Pan and Tompkins算法检测心电信号QRS复合波群中的R峰(Pan and Tompkins 1985)。该算法首先用5-15Hz二阶巴特沃斯滤波器对原始信号进行带通滤波。然后计算滤波后的心电信号的导数(Derivative),然后在80ms的时间窗内对信号进行平方和积分。最后,使用自适应阈值检测R峰值。在获得R峰后,可以计算峰-峰的间隔序列,称为RR-间隔时间序列,它给出了参与者的心率(HR = 60∕ΔRR)。然后,从RR-interval时间序列中,我们在时域、频域和非线性特征上总共计算了23个超短期HRV指标(ultra-short-term HRV metrics)。根据欧洲心脏病学会和北美起搏电生理学会(European Society of Cardiology and North American Society of Electrophysiology, task force of the European Society of Cardiology 1996)的建议,获得可靠的HRV频谱成分所需的最短时间窗为2 ~ 5 min,而本研究中使用的时间窗为40 s。然而,根据最近的研究,在移动环境中计算超短期HRV测量值是可能的(Salahuddin et al. 2007;Schaaf和Adam 2013)。然而,根据最近的研究,在可移动环境中计算超短期HRV(ultra-short-term HRV)测量值是可能的(Salahuddin et al. 2007;Schaaf和Adam 2013)。Salahuddin等人(2007)发现基线和Stroop测试在50秒窗口内的HRV测量有显著差异。类似地,Schaaf和Adam(2013)使用30秒的频域时间窗和15秒的时域特征窗来测量情绪唤醒。因此,虽然从临床角度来看可能不可靠,但超短期短期HRV指标可能仍然包含有价值的信息,因为研究证明了它们在情绪背景下进行分类分类中的价值。表1列出了为ECG计算的所有23个特征。
RESP
RESP信号(图10)使用neurokit2工具包(Makowski et al. 2021)进行处理,并进行时域分析(见表1)。
fNIRS
fNIRS(图10)数据用二阶0.05 ~ 0.4 Hz巴特沃斯带通滤波对数据进行处理。然后,根据Varandas等人(2022)提出的算法,使用修正的比尔-朗伯定律(modifed Beer-Lambert law)处理数据,将辐射强度转换为氧浓度的变化(HBO和HBR)。共提取12个特征(见表1)。
EDA
获取EDA信号(图11)以获得有关皮肤电导水平的信息,以测量参与者的唤醒。计算出HRV各频段对应的频率分量;共提取了26个特征(见表1)。
SKT
使用二阶巴特沃斯低通滤波器在0.1 Hz下对SKT信号(图11)进行滤波,然后计算4个时域特征(见表1)。
·机器学习
在本研究中,只使用了监督式机器学习方法,因此,重点将放在这些方法上。监督学习是一种从先前标记的数据中学习以预测从未见过的数据的技术。它允许模型比无监督学习算法更快地将输入数据正确分类到目标标签中。因此,我们考虑了以下监督分类器:k近邻(K-Nearest Neighbor,kNN) (Pedregosa et al. 2011),支持向量机(Support Vector Machines,SVM) (Vapnik 1998),随机森林(Random Forest,RF) (Donges 2018)和人工神经网络(Neural Network,NN) (Jain et al. 1996)。这些分类模型在之前关于情绪识别的研究中经常使用,正如我们在2.6节中列举的那样,因此,可以将我们的结果与其他研究的结果进行比较。
机器学习方法通常在计算大量特征时成本很高,而且数据总与高噪声水平相关联。为了克服这一问题,有必要对分类模型的输入数据执行特征选择算法,以选择更小的特征子集,从而最大化与目标输出的相关性,最小化冗余,从而提高分类模型的学习性能(Chen et al. 2020)。递归特征消除(Recursive Feature Elimination,RFE)是特征选择方法的一个例子,在这种方法中,通过递归地考虑较小的特征集并在每次迭代中消除信息量最小的特征来选择最终的特征集(Guyon et al. 2002)。
训练机器学习模型是一个系统的过程,最大限度地利用可用数据来训练模型,以获得最佳的性能模型。在开始训练阶段之前,通常要对输入数据进行规范化。这种归一化是通过标准化(Shanker et al. 1996)来实现的,标准化从每个值中减去统计平均值,然后将结果除以标准差。公式1表示了这种归一化,其中X为数据值的原始样本,为数据值的统计平均值,STD(X)为X的标准差,X'为标准化的新值样本。
将原始数据集分成训练集和测试集是开始训练阶段的必要条件。当模型被引入以前从未见过的新数据时,这种分离对于准确估计模型的性能至关重要。将原始数据分割成训练数据和测试数据最常用的方法是使用交叉验证方法,例如K折交叉验证(K-fold)和留一法交叉验证(Leave One Out Cross-Validation)(Refaeilzadeh et al. 2016; Wong 2015)。
使用机器学习分类算法的常用指标评估模型的性能:准确性(Accuracy)、精密度(Precision)、召回率(Recall)和f1分数(F1-score)(公式2-5),其中TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性(Mohammad and Nasir 2015)。
接受者工作特征曲线下的面积(the Area Under the Receiver Operating Characteristic Curve,AUC-ROC)也是分类算法的性能指标。它衡量一个模型能在多大程度上区分不同的类别。因此,AUC值越高,说明模型区分不同类别的能力越强(Hanley and McNeil 1982)。
在本实验中,我们以两种不同的沉浸度(沉浸式和非沉浸式)呈现情感电影片段,以比较沉浸在HMD上显示的电影片段对SAM量表主观评分的影响,从而使用非参数统计检验,如果它对报告的唤醒、效价和优势水平有任何影响。然后,我们利用生理信号特征和自我报告评分建立了从EMDB中预测电影片段情感类别的分类模型。
·沉浸感
对于两种沉浸度(沉浸式和非沉浸式),我们从自我报告的唤醒、效价和支配水平中获得数据,并测试两种沉浸度之间这些报告水平是否存在差异。由于SAM量表中的数据是通过9-point Likert量表获得的,因此数据是有序的。因此,需要使用非参数统计检验。如第3.5节所述,EMDB数据库被分成两部分。结果分为两组:A组为每个组别的前五部短片,B组为每个组别余下的五部短片。然后,参与者被随机分配观看一种沉浸程度的A组电影片段和另一种沉浸程度的B组电影片段,反之亦然。因此,一些参与者在沉浸式设置的第一阶段观看了A组的电影片段,在非沉浸式设置的第二阶段观看了B组的电影片段。其余的参与者在非沉浸式设置中观看了A组的电影片段,在沉浸式设置中观看了B组的电影片段。因此,对于每一组,关于唤醒、效价和支配的数据使用Mann-Whitney U统计检验进行评估,以比较各自的平均排名。
两组中位数的Mann-Whitney U检验结果见表2。从这些结果中,我们只发现A组和B组在“恐怖”类别中的“支配”存在显著差异(U =8.00;p值= 0.043;r = 0.55;Power = 0.15)和B组“社会负性”(U= 8.00, p值= 0.043;R = 0.55;功率= 0.15)。两组的唤醒和效价水平无显著差异。
·分类
分类模型被训练来从SAM(唤醒、效价和优势)、临时特定评估量表(预期努力、感知障碍、新颖性、意外性、内在目标、感知控制、控制/压力),并根据EMDB数据库的相应标签,将生理信号提取的特征划分为EMDB的5个目标情感类别(情色、恐怖、社会积极、社会消极和风景)。由于在上一节(第4.1节)中,两组的唤醒和效价水平没有发现显著差异,所以所有的电影片段将被用作分类模型的输入数据,而不管它们呈现给参与者的沉浸程度如何。结果将从独立于用户和依赖于用户的角度进行报告。
主观评分
从用户独立的角度来看,使用以下分类器来评估哪一个分类器具有更好的性能:使用五个最近邻(k = 5)的k近邻,支持向量机(C = 1,径向基函数(RBF)核和42个随机种子),具有100个决策树的随机森林分类器(基尼标准和42个随机种子),以及具有42个随机种子的多层感知器分类器。
使用scikit-learn (Pedregosa et al. 2011)的交叉验证方法将数据分为训练集和测试集,留下一个主题(LOSO)。因此,来自一个用户的样本被用作测试样本,因为这个过程会对每个可用的用户重复。这将产生14个不同的数据子集。最终的准确率分数是所有用户的平均准确率。
然后,采用递归特征消除(RFE)算法作为特征选择方法,减少提供给分类模型的输入特征数量;该特征选择仅应用于训练集,以避免数据泄漏和过度拟合模型性能,使用RF分类器作为特征重要性的估计器,在每次算法迭代中去除最不重要的特征并减轻包装器偏差(Samala et al. 2020)。用于评估模型性能的最终输入特征数量减少到一半(5个特征)。
独立用户分类器得到的结果如表3所示。使用的指标是精度,精度,F1-Score和ROC-AUC与加权平均参数。ROC-AUC是使用one-vsrest配置计算的,该配置计算每个类相对于其余类的AUC。
所有的结果都以百分比表示。使用主观评分对情感类别进行分类时,表现最好的分类器是SVM,平均准确率为54.0±17.2%。
从用户依赖的角度来看,具有最佳性能的分类器是具有100个决策树的RF分类器(基尼标准,随机种子为42)。该分类器用于每个个体对情绪类别进行分类。
使用scikit-learn (Pedregosa et al. 2011)的分层k - fold方法(k=10)将每个用户的数据分成训练集和测试集,保留每个折叠上每个目标类的样本百分比。这将产生来自该特定用户的10个不同的数据子集。对于每个用户,模型的精度是来自该用户的10个数据子集之间的平均精度。
然后,将RFE算法作为特征选择方法应用于训练集,使用相同的分类器(随机森林)作为估计器,减轻包装器偏差(Samala et al. 2020)。这个过程需要我们样本的140个数据子集(14 x 10),对每个用户选择不同的特征作为最重要的。表4显示了针对每个用户获得的结果。
所有用户的平均准确率为69.3±11.4%,最小和最大准确率分别为56%和90%。
生理信号
在生理信号方面,从以下传感器提取了216个特征:EEG、ECG、EDA、RESP、fNIRS和SKT。
从用户独立的角度来看,在4.2.1节中执行的相同过程应用于这些特征,但使用0的随机种子,而不是42的随机种子。完成RFE特征选择算法后,108个特征作为分类模型的输入特征。
结果如表5所示。利用生理特征对情绪类别进行分类时,表现最好的分类器是RF分类器,平均准确率为24.9±4.0%。
从用户依赖的角度来看,表现最好的分类器也是具有100个决策树的RF分类器(基尼标准,随机种子为0)。该分类器用于每个个体对情感类别进行分类。
使用与第4.2.1节相同的程序将数据分成训练集和测试集。然后,采用RFE算法作为特征选择方法,将输入特征数量减少到一半(108个)。对每个用户获得的结果如表6所示。
所有用户的平均准确率为71.0±8.0%,最小和最大准确率分别为58%和86%。
这项工作的主要目标是研究和验证机器学习管道(数据收集、数据预处理、特征提取和特征选择),以便在参与者受到验证的情绪刺激时,从生理信号的组合中预测情绪状态。然后,这个管道将被转移到一个实时预测系统,实时预测情绪状态。因此,选择合适的情绪刺激数据库和这些刺激的呈现格式是诱发需要通过生理信号测量的情绪反应的必要条件。
关于情绪刺激的沉浸程度,在分析沉浸的影响时,我们只发现“支配”在“恐怖”和“社会消极”类别中有显著差异,因为参与者报告说,与非沉浸设置相比,在沉浸设置中被刺激控制的控制水平较低。然而,之前的研究表明,在几项研究中,支配地位并没有提供一致的结果,唤醒和效价被认为是衡量基本情绪的最重要指标(Betella和Verschure 2016)。因此,我们假设沉浸式和非沉浸式设置之间的沉浸程度没有差异,因为所有的电影片段都被用作分类模型的输入数据。
在本研究中,我们比较了用户独立和用户依赖两种分类模型对主观评分和生理信号的表现,对EMDB数据库的五种情绪类别进行了分类。以往在情绪识别方面的大部分工作都表明情绪是高度主观的,因此情绪分类的广义模型仍然是一个挑战。因此,分类模型应该从用户依赖的模型中开发出来,而不是针对所有主题的广义模型(Varandas et al. 2022)。
因此,在这项工作中,我们没有关注特征和模型的实用性。由于我们的程序将应用于实时实验,因此需要持续监测参与者的情绪状态。因此,我们必须考虑计算HRV、EDA和RESP信号的超短频率特征。尽管没有明确的指导方针,哪些特征与标准的5分钟记录具有可比性和可靠性(Pecchia等人,2018),但有几项研究应用了超短特征。
例如,关于HRV光谱特征,Salahuddin等人(2007)表明,可以使用可穿戴传感器监测精神压力,使用30秒窗口。同样,Schaaff和Adam(2013)也使用30秒窗口计算HRV频率特征,以对情绪唤醒进行分类。Bernardes et al.(2022)也发现,在40秒窗口计算的低频和高频波段与2分钟窗口相比,相关性高于50%,表明存在中到强的正相关性。
对于EDA的频率分析,我们基于Posada-Quintero等人(2016)提出的方法,基于HRV的频谱分析和频带来评估自主神经系统的动力学。虽然皮肤电导水平(SCL)是一个缓慢变化的信号,可能无法在40秒窗口内捕获,但皮肤电导反应(SCR)作为对刺激的交感反应发生,在刺激出现后约1-5秒(Posada-Quintero and Chon 2020),应该是可测量的。事实上,Posada等人发现,在0.08-0.24 Hz的频率范围内,几种应激源的EDA信号的频谱功率有所增加。因此,我们认为EDA信号的频谱分析是交感-副交感平衡的一个指标(Posada-Quintero and Chon 2020),因此我们将这些特征纳入我们的研究流程中。
认识到使用这些超短特征的挑战,我们分析了为分类模型计算的光谱特征的出现次数。这些结果如表7和表8所示。从这些表中可以得出结论,HRV和EDA的VLF功率频带从未被选择用于用户依赖或用户独立的管道。此外,关于HRV和EDA的LF和HF波段,我们可以看到EDA的这些特征有很高的选择率,这表明EDA在这个频率范围内的特征是可靠的,并且与交感神经张力的激活有关。对于HRV,与EDA频率特征相比,这些特征的选择率较低。这两个结果与Finseth et al.(2023)的结果相似,表明我们的特征选择过程只选择了可靠的特征。
关于使用电影片段进行情感识别的相关工作,使用用户依赖模型的分类准确率在71.0到85.3%之间(Jerritta et al. 2011)。因此,这些精度值是比较我们模型性能的参考值。
在4.2.1节中,使用SAM的主观评分和特设评估量表来预测EMDB的情绪类别。使用用户独立分类模型(表3),我们使用SVM分类器获得了54.0±17.2%的准确率。另一方面,对每个参与者使用用户依赖的分类器(表4),平均准确率为69.3±11.4%,使用随机森林分类器的准确率范围为56%到90%。得到的平均ROC-AUC为91.1±5.2%,表明我们的模型具有较高的分类区分能力。
在4.2.2节中,从生理信号中提取的特征被用于同样的目标——从EMDB数据库中预测情绪类别。同样,与用户相关的分类相比,用户独立分类的准确率更低。随机森林分类器的用户独立性准确率为24.9±4.0%(表5)。另一方面,用户依赖分类的平均准确率为71.0±8.0%,从58%到86%(表6)。平均ROC-AUC为91.0±3.9%。这表明我们的模型有很高的区分类别的能力。
与之前在非沉浸式环境中使用电影数据库的研究相比,我们注意到与用户独立模型相关的结果获得了较低的准确性分数,而用户依赖的结果相似。这指出了一种假设,即沉浸式环境会导致情绪反应的更高可变性,从而强化了跨对象的概括任务。
关于分类情绪的数量,同样清楚的是,目标类别的数量越多,准确性得分结果越低。即Li and Chen(2006)对2种情绪的分类准确率为85.3%,Nasoz et al.(2004)对6种目标情绪的分类准确率为71%。因此,我们对5个不同目标类别进行分类的工作取得的结果类似于使用用户依赖模型对文献中大量情绪进行分类的结果。
另一方面,我们发现不同的刺激会导致不同的情绪检测结果。例如,之前使用图片数据库IAPS的作品,在用户依赖场景下的结果高达92%,高于我们的工作和所有使用基于电影的数据库的作品。尽管效果更好,但由于图片不如电影真实,它们的使用可能不太适合现实世界的应用。
主观评分和生理信号的结果支持了对情绪的识别对每个人来说都是主观的假设。如3.7节所料,与用户依赖的分类模型相比,用户独立的分类模型的主观评分和生理信号的准确性得分较低。具体而言,使用生理信号的用户独立模型的ROC-AUC表明,该模型无法将数据区分和分离为不同的情绪类别,而用户依赖模型可以清晰地区分不同情绪类别的数据。因此,个体对相同的情绪刺激的反应是不同的。
此外,由于使用生理信号的用户独立模型(54.0±17.2%)和用户依赖模型(69.3±11.4%)之间的准确率差异大大低于这些模型之间的差异,因此可以得出结论,主观评分反应在每个参与者之间可以更加一般化。这可以用参与者意识到呈现给他们的情感内容这一事实来解释。因此,对每个情感电影片段的主观尺度的反应是相似的,而对这些刺激的生理反应是不同的,因为每个参与者对所呈现的情感刺激的反应方式不同。
这项工作旨在开发机器学习分类模型,通过可穿戴设备使用生理传感器的组合来检测和识别情绪状态,从视频开始。
该方法通过在沉浸式和非沉浸式虚拟环境中呈现EMDB数据集中的情感电影片段,有效地引出目标情绪状态。
结果表明,情绪刺激的沉浸程度不相关,因为每种情绪类别的唤醒和效价水平没有显著差异。在分类模型方面,很明显,情绪反应是高度主观的,它取决于每个用户。因此,与用户独立模型相比,我们使用用户依赖模型获得了更高的精度。使用主观评分和生理信号,用户依赖模型的准确率分别为69.3±11.4%和71.0±8.0%。
详见原文。