自然(Nature)科学数据子刊:用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

文摘   2024-09-23 08:00   美国  

情感识别技术在现代人机交互中扮演着越来越重要的角色。随着人工智能和机器学习技术的快速发展,理解和识别人类情感已成为实现更自然、更人性化互动的关键。情感识别不仅能够提升用户体验,还能在心理健康监测、智能客服、教育和娱乐等多个领域发挥重要作用。在对话情境中,准确识别情感尤为重要,因为情感状态直接影响交流的效果和质量。通过捕捉和分析对话中的情感信号,机器可以更好地理解用户需求,提供更个性化和贴心的服务。

9 月 19 日来自于纳扎尔巴耶夫大学和高丽大学的跨过研究团队为了推动情感识别技术的发展,引入了EaV(EEG-audio-Video)数据集,这是首个在对话情境中结合脑电图(EEG)、音频和视频三种主要模态的公开情感数据集。EaV数据集的独特之处在于其多模态数据的同步记录,涵盖了42名参与者在提示对话场景中的情感反应。每位参与者在实验中表现出五种情感:中性、愤怒、快乐、悲伤和平静。通过对这些数据的分析,研究人员能够更全面地理解人类情感的表现形式,为开发更先进的情感识别模型提供了宝贵的资源。他们的技术论文《EaV: EEG-audio-Video Dataset for Emotion Recognition in Conversational Contexts》发表于自然(Nature)Scientific Data子刊。

EaV数据集的开发由纳扎尔巴耶夫大学计算机科学系和高丽大学人工智能系的专家共同完成。纳扎尔巴耶夫大学的研究团队包括Min-Ho Lee、Adai Shomanov、Balgyn Begim、Zhuldyz Kabidenova、Aruna Nyssanbay和Adnan Yazici,他们在计算机科学和情感识别领域具有丰富的研究经验。高丽大学的Seong-Whan Lee教授则在脑电图(EEG)和人工智能领域享有盛誉。这个跨国研究团队结合了两所大学的技术优势和研究资源,致力于推动情感识别技术的发展,为实现更自然的人机交互奠定了坚实的基础。

数据集介绍

EaV(EEG-audio-Video)数据集是一个多模态情感数据集,专为对话情境中的情感识别而设计。该数据集包含42名参与者的30通道脑电图(EEG)、音频和视频记录。每位参与者在基于提示的对话场景中表现出五种情感:中性、愤怒、快乐、悲伤和平静。每位参与者进行了200次互动,总计8,400次互动。EaV数据集的独特之处在于其多模态数据的同步记录,涵盖了参与者在对话中的情感反应,为情感识别研究提供了丰富的数据资源。

参与者来自纳扎尔巴耶夫大学,包括学生和普通人群,年龄在20到30岁之间,均为英语熟练者。每位参与者在实验中扮演重要角色,通过选择与目标情感相关的脚本,并在对话系统中表达这些情感。参与者的多样性和主动参与确保了数据集的广泛适用性和代表性。

实验在受控环境中进行,以确保数据的高质量和一致性。参与者佩戴EEG帽子进行脑电图记录,同时同步记录音频和视频数据。具体设备和方法如下:

EEG数据:使用BrainAmp系统记录脑电活动,通过30个Ag/AgCl电极采集EEG数据,采样率为500 Hz。数据初始记录在BrainVision Core Data Format中,后转换为Matlab (.mat)格式。

音频数据:使用高质量麦克风准确捕捉参与者的口头反应,音频数据记录并存储为WAV格式。

视频数据:在显示器上安装网络摄像头,专注于参与者的面部,视频数据初始记录为AVI格式,后转换为MPEG-4 (.MP4)格式以减小文件大小。

实验使用基于Python编程语言的PsychoPy软件进行,包括视频和脚本的呈现、记录管理、确保精确的时间控制以及各模态的通信。通过这些精细的实验设计和数据收集方法,EaV数据集为情感识别研究提供了坚实的基础和丰富的数据资源。

实验设计

实验环境及其控制条件

图1:实验装置示意图。(a) 参与者戴上帽子进行脑电图记录,并同步记录多模式数据,(b)听力条件:向参与者显示预先录制的视频,提示他们的互动,(c)口语条件:在监视器的中心提供脚本。鼓励参与者在给定脚本的范围之外自由表达自己。此图中描绘的个人提供了知情同意书,以公开其图像。

为了确保数据的高质量和一致性,实验在一个受控环境中进行。参与者舒适地坐在电脑显示器前,显示器为27英寸,刷新率为60 Hz,用于显示对话和其他视觉刺激。实验室环境经过精心设计,以减少外部干扰和视觉分散。

照明和背景:在参与者背后放置白色屏幕,并使用灯光设备均匀照亮参与者的面部,确保面部表情的清晰记录。

EEG设备:使用BrainAmp系统记录脑电活动,通过30个Ag/AgCl电极采集EEG数据,采样率为500 Hz。电极放置在特定的头皮位置,确保数据的准确性和一致性。

音频设备:使用高质量麦克风准确捕捉参与者的口头反应,确保音频数据的清晰度和准确性。

视频设备:在显示器上安装网络摄像头,专注于参与者的面部,确保面部表情和情感反应的完整记录。

提示对话的设计及其对情感诱发的影响

图2:情绪对效价和唤醒水平的主观自我评估。

实验设计了基于提示的对话场景,以诱发参与者的特定情感。参与者在实验中选择与目标情感相关的脚本,并在对话系统中表达这些情感。每次对话包括听和说的互动,确保参与者在不同情境下的情感反应被全面捕捉。对话脚本由OpenAI的ChatGPT生成,并由研究人员审查和编辑,确保情感的清晰和适当。通过这种设计,研究团队能够在控制条件下诱发参与者的真实情感反应,为情感识别研究提供可靠的数据基础。

数据的分段及存储格式

为了便于数据分析和处理,实验数据被分段并存储在标准化格式中。

视频数据:视频片段被分为每段20秒,存储为MP4格式。每个参与者文件夹包含200个视频片段,涵盖五种情感类别和两种任务(听和说)。

音频数据:音频文件仅关注说话任务,存储为WAV格式。每个参与者文件夹包含100个音频文件。

EEG数据:EEG数据最初以[时间 × 通道]的维度连续记录,经过高通滤波和带通滤波处理后,数据按事件标记分段,结构为[实例 × 时间 × 通道]。处理后的EEG数据结构为:[200个实例 × 10,000个时间点(20秒 × 500 Hz) × 30个通道]。

这些精细的实验设计和数据收集方法,使得EaV数据集为情感识别研究提供了坚实的基础和丰富的数据资源。

数据处理与分析

在数据处理阶段,研究团队对EEG、音频和视频数据进行了详细的预处理,以确保数据的质量和一致性。

EEG数据:EEG数据最初以500 Hz的采样率连续记录。为了减少数据量并去除噪声,研究团队将数据下采样至100 Hz,并在0.5-50 Hz的频率范围内进行带通滤波。经过这些预处理步骤,EEG数据被格式化为[实例 × 时间 × 通道]的结构,具体为[400个实例 × 10,000个时间点(20秒 × 500 Hz) × 30个通道]。

音频数据:音频数据使用Librosa库进行预处理,提取了Mel频率倒谱系数(MFCCs)、Chroma特征和Mel频谱图等关键特征。这些特征被连接在一起,形成用于进一步处理的输入数据。

视频数据:视频片段被分为每段5秒,包含150帧。研究团队从每段视频中提取每第6帧,最终得到10,000帧(包括训练和测试数据)。这些帧被用于训练和测试情感识别模型。

为了实现情感识别,研究团队选择了几种不同的模型,包括传统的卷积神经网络(CNN)和最新的Transformer架构。

CNN模型:研究团队设计了适用于每种模态的CNN模型。对于EEG数据,使用了EEGNet架构,该架构包括2D卷积层、深度卷积层和可分离卷积层。对于视频数据,使用了DeepFace模型,该模型由一系列卷积层、池化层和全连接层组成。音频数据则使用了一维卷积神经网络(SCNN)架构,包含四个1D卷积层和ReLU激活函数。

Transformer模型:Transformer模型因其处理依赖关系的能力而被选用。研究团队使用了EEGformer、AST和ViViT等特定的Transformer架构,分别验证了EEG、音频和视频数据的性能。

图3:参与者和实验者情绪评分的比较分析:一项关于四种情绪状态(快乐、悲伤、平静和愤怒)的唤醒和情绪水平的研究。N-所有参与者的评分数据点总数。

研究团队对模型在不同模态下的性能进行了详细评估,主要使用平均准确率和F1得分作为衡量指标。

EEG数据:使用EEGNet模型,EEG数据的平均准确率为60.0%,F1得分为0.58。这表明EEG数据在情感识别中具有一定的准确性,但仍有改进空间。

音频数据:音频数据的平均准确率为61.9%,F1得分为0.61。音频数据在识别高唤醒状态(如愤怒和快乐)方面表现尤为出色。

视频数据:视频数据的平均准确率为71.4%,F1得分为0.70。视频数据在情感识别中表现最佳,特别是在识别高唤醒情感方面。

图4:情绪分类的多模态输入数据及其相应的处理管道。单次试验持续时间为5秒。对音频数据进行预处理以创建输入图像,同时将原始视频/EEG数据馈送到每个CNN模型。这些CNN模型的输出结果为五种情绪状态提供了softmax预测:中性(N)、幸福(H)、平静(C)、愤怒(A)和悲伤(S)。此图中描绘的个人提供了知情同意书,以公开其图像。

技术验证

在技术验证阶段,研究团队采用了一系列严格的方法来评估情感识别模型的性能。首先,数据集被分为训练集和测试集,确保模型在不同数据集上的表现具有一致性和可靠性。具体步骤如下:

数据分割:将数据集按70%训练集和30%测试集的比例进行分割。对于每个参与者,音频数据被分为400个5秒的样本,其中280个用于训练,120个用于测试。

模型训练:使用简单的端到端CNN模型和最新的Transformer架构进行训练。训练过程中不使用验证集,直接在固定的训练轮数内进行训练。

性能评估:通过计算平均准确率和F1得分来评估模型的多分类性能。这些指标能够全面反映模型在不同情感类别上的表现。

技术验证的目的是确保模型在不同模态下的性能具有可比性和一致性,同时识别出各模态在情感识别中的优势和不足。

研究团队对不同模态下的情感识别性能进行了详细分析,结果如下。

EEG数据:使用EEGNet模型,EEG数据的平均准确率为60.0%,F1得分为0.58。这表明EEG数据在情感识别中具有一定的准确性,但仍有改进空间。

音频数据:音频数据的平均准确率为61.9%,F1得分为0.61。音频数据在识别高唤醒状态(如愤怒和快乐)方面表现尤为出色。

视频数据:视频数据的平均准确率为71.4%,F1得分为0.70。视频数据在情感识别中表现最佳,特别是在识别高唤醒情感方面。

此外,研究团队还使用预训练的Transformer模型对音频和视频数据进行了验证,结果显示这些模型在这两种模态下的分类性能有所提升,分别达到62.7%和74.5%的平均准确率。然而,EEGTransformer模型的表现较差,准确率为53.5%,F1得分为0.52。

混淆矩阵提供了不同情感类别之间的分类准确性和误判情况。以下是各模态下的混淆矩阵分析。

EEG模态:在分类快乐和中性情感方面表现出色,但在低唤醒情感(如悲伤和平静)上存在显著误判。

音频模态:在辨别高唤醒状态(如愤怒和快乐)方面表现优异,但在低唤醒情感上也存在误判。

视频模态:视频数据在分类高唤醒情感(如愤怒和快乐)方面表现最佳,但在低唤醒情感上存在显著误判,常将低唤醒情感误判为高唤醒情感。

图5:使用EEG、音频和视频数据对所有参与者的五个情绪类别进行分类的累积混淆矩阵。矩阵代表每种情绪:中性(N)、悲伤(S)、愤怒(A)、幸福(H)和平静(C)。所有参与者每班的总测试试验为1008(24个口语任务×42名参与者)。

使用说明

EaV数据集已在Zenodo通用开放存储库上发布,研究人员和开发者可以通过遵守数据使用协议(DUA)来访问和使用该数据集。具体步骤如下:

访问存储库:前往Zenodo存储库,搜索EaV数据集。

申请访问:填写并提交数据使用协议(DUA)申请表。申请表中需要提供申请人的全名、所属机构、职位/职称以及数据集的预期使用描述。

协议批准:一旦申请获得批准,申请人将获得数据访问权限。数据集的使用需严格遵守DUA中的条款和条件,确保数据的合法和合规使用。

数据集的结构标准化,便于导航和使用。根文件夹EVA包含参与者文件夹,每个文件夹内有三个子文件夹:视频、音频和EEG。视频文件以MP4格式存储,音频文件以WAV格式存储,EEG数据以MAT格式存储。

为了有效分析EaV数据集,研究团队推荐了以下工具和库。

EEG数据分析

BBCI工具箱:提供广泛的信号处理功能,包括伪影去除、频谱/空间滤波、重采样和重新参考。适用于Matlab环境。

OpenBMI:类似于BBCI工具箱,提供丰富的EEG信号处理功能。

MNE工具箱:适用于Python环境,提供信号处理和可视化方法。

视听数据分析

DeepFace:用于视频分析的深度神经网络模型库,包含一系列卷积层、池化层和全连接层。

1D-Speech-Emotion-Recognition:用于音频分析的库,包含一维卷积神经网络模型,适用于情感识别任务。

图6:数据存储库的结构便于直观导航。在初级级别下,文件夹名为“subject{idx}”,其中“idx”表示参与者标识符。每个特定于参与者的目录都包含三个子目录:“视频”、“音频”和“EEG”。相应地,这些子目录中的数据文件遵循其特定的格式:视频文件保存为*。MP4,音频记录在*中。WAV格式和EEG数据存储为*。MAT文件。

局限性与未来展望

尽管EaV数据集在情感识别领域具有重要贡献,但其实验设计和数据集本身也存在一些局限性。

实验使用了提示和摆拍的对话场景,虽然这种设计有助于标准化对话并确保类别标签的平衡,但可能无法完全捕捉真实对话中的自发情感表达。参与者的情感反应可能因提示对话而被夸大或淡化,导致情感试验不匹配。

由于EEG帽子的设置可能限制参与者的面部表情,特别是覆盖了前额区域,这可能影响面部表情的自然性和准确性。参与者年龄限制在20到30岁之间,且均为非英语母语者,这可能导致结果的偏差,特别是在应用语言模型或使用预训练模型时。

预定义的五种情感类别(中性、愤怒、快乐、悲伤、平静)可能无法涵盖人类情感的全部范围,限制了数据集的代表性。

为了保持基线结果的一致性,研究团队在EEG数据处理中未使用伪影去除、空间滤波和归一化等清理方法,这可能影响数据的质量和分析结果。

基于EaV数据集,未来的研究可以在以下几个方面进行改进和扩展。

增强对话场景的自然性:未来的研究可以设计更自然的对话场景,减少提示和摆拍的成分,捕捉参与者在真实对话中的自发情感反应。这将有助于提高情感识别模型的实际应用效果。

多样化参与者背景:扩大参与者的年龄范围,并包括不同语言背景的参与者,以提高数据集的多样性和代表性。这将有助于开发更通用的情感识别模型。

扩展情感类别:增加更多的情感类别,如惊讶、恐惧、厌恶等,以更全面地覆盖人类情感的多样性。这将有助于提高情感识别模型的精度和适用性。

改进数据清理方法:在EEG数据处理中引入伪影去除、空间滤波和归一化等清理方法,以提高数据质量和分析结果的可靠性。

多模态融合技术:探索更先进的多模态数据融合技术,结合EEG、音频和视频数据,以提高情感识别的准确性和鲁棒性。可以尝试使用最新的深度学习模型,如Transformer架构,进一步提升性能。

实时情感识别:开发实时情感识别系统,应用于智能客服、心理健康监测等实际场景中,验证模型的实用性和有效性。

通过这些改进和扩展,EaV数据集将能够更好地支持情感识别研究,推动这一领域的发展,为实现更自然、更人性化的人机交互奠定坚实基础。(END)

参考资料:https://www.nature.com/articles/s41597-024-03838-4

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

大噬元兽
噬元兽FlerkenS 是一个去中心化的AI数字价值容器,捕捉数字时代新型资产,用数据飞轮把你的数据和内容转化成为你的财富,带你走进下一个智能互联网。
 最新文章