自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

文摘 2024-09-23 08:00 美国

情感识别技术在现代人机交互中扮演着越来越重要的角色。随着人工智能和机器学习技术的快速发展，理解和识别人类情感已成为实现更自然、更人性化互动的关键。情感识别不仅能够提升用户体验，还能在心理健康监测、智能客服、教育和娱乐等多个领域发挥重要作用。在对话情境中，准确识别情感尤为重要，因为情感状态直接影响交流的效果和质量。通过捕捉和分析对话中的情感信号，机器可以更好地理解用户需求，提供更个性化和贴心的服务。

9 月 19 日来自于纳扎尔巴耶夫大学和高丽大学的跨过研究团队为了推动情感识别技术的发展，引入了EaV（EEG-audio-Video）数据集，这是首个在对话情境中结合脑电图（EEG）、音频和视频三种主要模态的公开情感数据集。EaV数据集的独特之处在于其多模态数据的同步记录，涵盖了42名参与者在提示对话场景中的情感反应。每位参与者在实验中表现出五种情感：中性、愤怒、快乐、悲伤和平静。通过对这些数据的分析，研究人员能够更全面地理解人类情感的表现形式，为开发更先进的情感识别模型提供了宝贵的资源。他们的技术论文《EaV: EEG-audio-Video Dataset for Emotion Recognition in Conversational Contexts》发表于自然（Nature）Scientific Data子刊。

EaV数据集的开发由纳扎尔巴耶夫大学计算机科学系和高丽大学人工智能系的专家共同完成。纳扎尔巴耶夫大学的研究团队包括Min-Ho Lee、Adai Shomanov、Balgyn Begim、Zhuldyz Kabidenova、Aruna Nyssanbay和Adnan Yazici，他们在计算机科学和情感识别领域具有丰富的研究经验。高丽大学的Seong-Whan Lee教授则在脑电图（EEG）和人工智能领域享有盛誉。这个跨国研究团队结合了两所大学的技术优势和研究资源，致力于推动情感识别技术的发展，为实现更自然的人机交互奠定了坚实的基础。

数据集介绍

EaV（EEG-audio-Video）数据集是一个多模态情感数据集，专为对话情境中的情感识别而设计。该数据集包含42名参与者的30通道脑电图（EEG）、音频和视频记录。每位参与者在基于提示的对话场景中表现出五种情感：中性、愤怒、快乐、悲伤和平静。每位参与者进行了200次互动，总计8,400次互动。EaV数据集的独特之处在于其多模态数据的同步记录，涵盖了参与者在对话中的情感反应，为情感识别研究提供了丰富的数据资源。

参与者来自纳扎尔巴耶夫大学，包括学生和普通人群，年龄在20到30岁之间，均为英语熟练者。每位参与者在实验中扮演重要角色，通过选择与目标情感相关的脚本，并在对话系统中表达这些情感。参与者的多样性和主动参与确保了数据集的广泛适用性和代表性。

实验在受控环境中进行，以确保数据的高质量和一致性。参与者佩戴EEG帽子进行脑电图记录，同时同步记录音频和视频数据。具体设备和方法如下：

EEG数据：使用BrainAmp系统记录脑电活动，通过30个Ag/AgCl电极采集EEG数据，采样率为500 Hz。数据初始记录在BrainVision Core Data Format中，后转换为Matlab (.mat)格式。

音频数据：使用高质量麦克风准确捕捉参与者的口头反应，音频数据记录并存储为WAV格式。

视频数据：在显示器上安装网络摄像头，专注于参与者的面部，视频数据初始记录为AVI格式，后转换为MPEG-4 (.MP4)格式以减小文件大小。

实验使用基于Python编程语言的PsychoPy软件进行，包括视频和脚本的呈现、记录管理、确保精确的时间控制以及各模态的通信。通过这些精细的实验设计和数据收集方法，EaV数据集为情感识别研究提供了坚实的基础和丰富的数据资源。

实验设计

实验环境及其控制条件

图1：实验装置示意图。（a）参与者戴上帽子进行脑电图记录，并同步记录多模式数据，（b）听力条件：向参与者显示预先录制的视频，提示他们的互动，（c）口语条件：在监视器的中心提供脚本。鼓励参与者在给定脚本的范围之外自由表达自己。此图中描绘的个人提供了知情同意书，以公开其图像。

为了确保数据的高质量和一致性，实验在一个受控环境中进行。参与者舒适地坐在电脑显示器前，显示器为27英寸，刷新率为60 Hz，用于显示对话和其他视觉刺激。实验室环境经过精心设计，以减少外部干扰和视觉分散。

照明和背景：在参与者背后放置白色屏幕，并使用灯光设备均匀照亮参与者的面部，确保面部表情的清晰记录。

EEG设备：使用BrainAmp系统记录脑电活动，通过30个Ag/AgCl电极采集EEG数据，采样率为500 Hz。电极放置在特定的头皮位置，确保数据的准确性和一致性。

音频设备：使用高质量麦克风准确捕捉参与者的口头反应，确保音频数据的清晰度和准确性。

视频设备：在显示器上安装网络摄像头，专注于参与者的面部，确保面部表情和情感反应的完整记录。

提示对话的设计及其对情感诱发的影响

图2：情绪对效价和唤醒水平的主观自我评估。

实验设计了基于提示的对话场景，以诱发参与者的特定情感。参与者在实验中选择与目标情感相关的脚本，并在对话系统中表达这些情感。每次对话包括听和说的互动，确保参与者在不同情境下的情感反应被全面捕捉。对话脚本由OpenAI的ChatGPT生成，并由研究人员审查和编辑，确保情感的清晰和适当。通过这种设计，研究团队能够在控制条件下诱发参与者的真实情感反应，为情感识别研究提供可靠的数据基础。

数据的分段及存储格式

为了便于数据分析和处理，实验数据被分段并存储在标准化格式中。

视频数据：视频片段被分为每段20秒，存储为MP4格式。每个参与者文件夹包含200个视频片段，涵盖五种情感类别和两种任务（听和说）。

音频数据：音频文件仅关注说话任务，存储为WAV格式。每个参与者文件夹包含100个音频文件。

EEG数据：EEG数据最初以[时间 × 通道]的维度连续记录，经过高通滤波和带通滤波处理后，数据按事件标记分段，结构为[实例 × 时间 × 通道]。处理后的EEG数据结构为：[200个实例 × 10,000个时间点（20秒 × 500 Hz） × 30个通道]。

这些精细的实验设计和数据收集方法，使得EaV数据集为情感识别研究提供了坚实的基础和丰富的数据资源。

数据处理与分析

在数据处理阶段，研究团队对EEG、音频和视频数据进行了详细的预处理，以确保数据的质量和一致性。

EEG数据：EEG数据最初以500 Hz的采样率连续记录。为了减少数据量并去除噪声，研究团队将数据下采样至100 Hz，并在0.5-50 Hz的频率范围内进行带通滤波。经过这些预处理步骤，EEG数据被格式化为[实例 × 时间 × 通道]的结构，具体为[400个实例 × 10,000个时间点（20秒 × 500 Hz） × 30个通道]。

音频数据：音频数据使用Librosa库进行预处理，提取了Mel频率倒谱系数（MFCCs）、Chroma特征和Mel频谱图等关键特征。这些特征被连接在一起，形成用于进一步处理的输入数据。

视频数据：视频片段被分为每段5秒，包含150帧。研究团队从每段视频中提取每第6帧，最终得到10,000帧（包括训练和测试数据）。这些帧被用于训练和测试情感识别模型。

为了实现情感识别，研究团队选择了几种不同的模型，包括传统的卷积神经网络（CNN）和最新的Transformer架构。

CNN模型：研究团队设计了适用于每种模态的CNN模型。对于EEG数据，使用了EEGNet架构，该架构包括2D卷积层、深度卷积层和可分离卷积层。对于视频数据，使用了DeepFace模型，该模型由一系列卷积层、池化层和全连接层组成。音频数据则使用了一维卷积神经网络（SCNN）架构，包含四个1D卷积层和ReLU激活函数。

Transformer模型：Transformer模型因其处理依赖关系的能力而被选用。研究团队使用了EEGformer、AST和ViViT等特定的Transformer架构，分别验证了EEG、音频和视频数据的性能。

图3：参与者和实验者情绪评分的比较分析：一项关于四种情绪状态（快乐、悲伤、平静和愤怒）的唤醒和情绪水平的研究。N-所有参与者的评分数据点总数。

研究团队对模型在不同模态下的性能进行了详细评估，主要使用平均准确率和F1得分作为衡量指标。

EEG数据：使用EEGNet模型，EEG数据的平均准确率为60.0%，F1得分为0.58。这表明EEG数据在情感识别中具有一定的准确性，但仍有改进空间。

音频数据：音频数据的平均准确率为61.9%，F1得分为0.61。音频数据在识别高唤醒状态（如愤怒和快乐）方面表现尤为出色。

视频数据：视频数据的平均准确率为71.4%，F1得分为0.70。视频数据在情感识别中表现最佳，特别是在识别高唤醒情感方面。

图4：情绪分类的多模态输入数据及其相应的处理管道。单次试验持续时间为5秒。对音频数据进行预处理以创建输入图像，同时将原始视频/EEG数据馈送到每个CNN模型。这些CNN模型的输出结果为五种情绪状态提供了softmax预测：中性（N）、幸福（H）、平静（C）、愤怒（A）和悲伤（S）。此图中描绘的个人提供了知情同意书，以公开其图像。

技术验证

在技术验证阶段，研究团队采用了一系列严格的方法来评估情感识别模型的性能。首先，数据集被分为训练集和测试集，确保模型在不同数据集上的表现具有一致性和可靠性。具体步骤如下：

数据分割：将数据集按70%训练集和30%测试集的比例进行分割。对于每个参与者，音频数据被分为400个5秒的样本，其中280个用于训练，120个用于测试。

模型训练：使用简单的端到端CNN模型和最新的Transformer架构进行训练。训练过程中不使用验证集，直接在固定的训练轮数内进行训练。

性能评估：通过计算平均准确率和F1得分来评估模型的多分类性能。这些指标能够全面反映模型在不同情感类别上的表现。

技术验证的目的是确保模型在不同模态下的性能具有可比性和一致性，同时识别出各模态在情感识别中的优势和不足。

研究团队对不同模态下的情感识别性能进行了详细分析，结果如下。

EEG数据：使用EEGNet模型，EEG数据的平均准确率为60.0%，F1得分为0.58。这表明EEG数据在情感识别中具有一定的准确性，但仍有改进空间。

音频数据：音频数据的平均准确率为61.9%，F1得分为0.61。音频数据在识别高唤醒状态（如愤怒和快乐）方面表现尤为出色。

视频数据：视频数据的平均准确率为71.4%，F1得分为0.70。视频数据在情感识别中表现最佳，特别是在识别高唤醒情感方面。

此外，研究团队还使用预训练的Transformer模型对音频和视频数据进行了验证，结果显示这些模型在这两种模态下的分类性能有所提升，分别达到62.7%和74.5%的平均准确率。然而，EEGTransformer模型的表现较差，准确率为53.5%，F1得分为0.52。

混淆矩阵提供了不同情感类别之间的分类准确性和误判情况。以下是各模态下的混淆矩阵分析。

EEG模态：在分类快乐和中性情感方面表现出色，但在低唤醒情感（如悲伤和平静）上存在显著误判。

音频模态：在辨别高唤醒状态（如愤怒和快乐）方面表现优异，但在低唤醒情感上也存在误判。

视频模态：视频数据在分类高唤醒情感（如愤怒和快乐）方面表现最佳，但在低唤醒情感上存在显著误判，常将低唤醒情感误判为高唤醒情感。

图5：使用EEG、音频和视频数据对所有参与者的五个情绪类别进行分类的累积混淆矩阵。矩阵代表每种情绪：中性（N）、悲伤（S）、愤怒（A）、幸福（H）和平静（C）。所有参与者每班的总测试试验为1008（24个口语任务×42名参与者）。

使用说明

EaV数据集已在Zenodo通用开放存储库上发布，研究人员和开发者可以通过遵守数据使用协议（DUA）来访问和使用该数据集。具体步骤如下：

访问存储库：前往Zenodo存储库，搜索EaV数据集。

申请访问：填写并提交数据使用协议（DUA）申请表。申请表中需要提供申请人的全名、所属机构、职位/职称以及数据集的预期使用描述。

协议批准：一旦申请获得批准，申请人将获得数据访问权限。数据集的使用需严格遵守DUA中的条款和条件，确保数据的合法和合规使用。

数据集的结构标准化，便于导航和使用。根文件夹EVA包含参与者文件夹，每个文件夹内有三个子文件夹：视频、音频和EEG。视频文件以MP4格式存储，音频文件以WAV格式存储，EEG数据以MAT格式存储。

为了有效分析EaV数据集，研究团队推荐了以下工具和库。

EEG数据分析

BBCI工具箱：提供广泛的信号处理功能，包括伪影去除、频谱/空间滤波、重采样和重新参考。适用于Matlab环境。

OpenBMI：类似于BBCI工具箱，提供丰富的EEG信号处理功能。

MNE工具箱：适用于Python环境，提供信号处理和可视化方法。

视听数据分析

DeepFace：用于视频分析的深度神经网络模型库，包含一系列卷积层、池化层和全连接层。

1D-Speech-Emotion-Recognition：用于音频分析的库，包含一维卷积神经网络模型，适用于情感识别任务。

图6：数据存储库的结构便于直观导航。在初级级别下，文件夹名为“subject{idx}”，其中“idx”表示参与者标识符。每个特定于参与者的目录都包含三个子目录：“视频”、“音频”和“EEG”。相应地，这些子目录中的数据文件遵循其特定的格式：视频文件保存为*。MP4，音频记录在*中。WAV格式和EEG数据存储为*。MAT文件。

局限性与未来展望

尽管EaV数据集在情感识别领域具有重要贡献，但其实验设计和数据集本身也存在一些局限性。

实验使用了提示和摆拍的对话场景，虽然这种设计有助于标准化对话并确保类别标签的平衡，但可能无法完全捕捉真实对话中的自发情感表达。参与者的情感反应可能因提示对话而被夸大或淡化，导致情感试验不匹配。

由于EEG帽子的设置可能限制参与者的面部表情，特别是覆盖了前额区域，这可能影响面部表情的自然性和准确性。参与者年龄限制在20到30岁之间，且均为非英语母语者，这可能导致结果的偏差，特别是在应用语言模型或使用预训练模型时。

预定义的五种情感类别（中性、愤怒、快乐、悲伤、平静）可能无法涵盖人类情感的全部范围，限制了数据集的代表性。

为了保持基线结果的一致性，研究团队在EEG数据处理中未使用伪影去除、空间滤波和归一化等清理方法，这可能影响数据的质量和分析结果。

基于EaV数据集，未来的研究可以在以下几个方面进行改进和扩展。

增强对话场景的自然性：未来的研究可以设计更自然的对话场景，减少提示和摆拍的成分，捕捉参与者在真实对话中的自发情感反应。这将有助于提高情感识别模型的实际应用效果。

多样化参与者背景：扩大参与者的年龄范围，并包括不同语言背景的参与者，以提高数据集的多样性和代表性。这将有助于开发更通用的情感识别模型。

扩展情感类别：增加更多的情感类别，如惊讶、恐惧、厌恶等，以更全面地覆盖人类情感的多样性。这将有助于提高情感识别模型的精度和适用性。

改进数据清理方法：在EEG数据处理中引入伪影去除、空间滤波和归一化等清理方法，以提高数据质量和分析结果的可靠性。

多模态融合技术：探索更先进的多模态数据融合技术，结合EEG、音频和视频数据，以提高情感识别的准确性和鲁棒性。可以尝试使用最新的深度学习模型，如Transformer架构，进一步提升性能。

实时情感识别：开发实时情感识别系统，应用于智能客服、心理健康监测等实际场景中，验证模型的实用性和有效性。

通过这些改进和扩展，EaV数据集将能够更好地支持情感识别研究，推动这一领域的发展，为实现更自然、更人性化的人机交互奠定坚实基础。（END）

参考资料：https://www.nature.com/articles/s41597-024-03838-4

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486546&idx=1&sn=24bc05e41902b5a6dcdc5aa35b43bc72

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉