在当今社会,随着脑科学和自然语言处理等技术的不断进步,我们对于大脑与语言之间关系的探索也日益深入。近日在Biorxiv上预印的论文“ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding”详细介绍了一个基于中文语料刺激构建的脑电(EEG)数据集。通过使用包含丰富语义的大量中文刺激并对被试进行长时间的高通道脑电记录(每个被试约12小时),该数据集提供了中文语言刺激下的EEG数据,帮助研究者深入探讨中文刺激下大脑对语义信息的处理、编码以及解码。同时,通过提供多模态,多版本的预处理及衍生数据,该数据集将促进神经科学、自然语言处理(NLP)、语言学等领域的研究方法的结合,为跨学科交叉领域的研究提供宝贵的数据资源。该项目中的材料与代码,也将为其他同行进一步扩充本数据集提供了完整的方案。
在实验设计方面,该研究设计了一套中文语料阅读任务的实验方案,旨在通过系统地采集被试在阅读过程中的脑电和眼动数据,为后续的脑电解码模型训练和验证提供数据资源。在实验中,被试被要求佩戴128导的EGI脑电设备和眼动追踪设备,通过屏幕阅读特定的中文文本材料。同时,为引导被试的阅读进程和注意力,该实验设计了一个字符高亮显示的机制(如图1所示)。屏幕上的字符(除标点符号外)会按照阅读顺序依次高亮显示,并在每个字符处停留相同的时间,被试需按照高亮滚动字幕的提示,移动视线并将注意力集中在高亮显示的文字上。该研究通过在每行刺激文本的起点和终点进行精确标注,实现了特定文本与其对应EEG片段在时域中的精准对齐。这种方法不仅允许后续分析阶段将每行文本与相应的EEG数据段紧密关联,还进一步实现了单个汉字与其对应EEG数据的时间对齐。以上实验protocol均提供代码,以方便大家继续采集数据,扩展数据容量。
图1 实验设备,实验范式和原始数据
在中文语料选择上,该研究使用了两本著名的儿童文学作品《小王子》和《狼王梦》,两本小说均采用其中文版本。小说通常篇幅较长,确保了语言的多样性和丰富性,涵盖了大部分常用的汉字和日常表达。其次,儿童文学作品能够营造引人入胜的环境,使参与者更加专注地投入于实验中。为了方便中文与神经信号的语义对齐研究,我们用预训练的NLP模型,BERT-base-chinese model,提取中文语料的text embedding,一并在数据集中提供。
最终,通过多个实验试次的采集,该数据集采集了总计10名被试的EEG数据,并同步采集了被试的眼动追踪数据,以确保被试的注视点随屏幕上的高亮而变化。每名被试累积贡献了约12个小时的高质量数据。图1d显示了该数据集的模态信息。除了原始EEG和眼动数据,该数据集还提供了多个不同带通滤波得到的EEG数据,以及这些不同滤波数据经过后续预处理(包括坏导插值,独立成分分析等)得到的数据,以便研究者根据不同需求进行灵活选择。图2展示了详细的预处理流程。同时,该数据集还提供了使用预训练语言大模型对刺激语料提取得到的文本嵌入特征向量,为神经信号和语义表征进行对齐等一系列工作提供便利。数据集以EEG-BIDS标准格式进行存储,其结构显示在图3中。详细的格式和相关文件说明可见论文中的Data Record部分。
图2 数据预处理流程图
图3 数据结构示意图
该数据集可用于被用于多种层级的数据分析和多种不同任务的研究中。为验证数据集的有效性,该研究对数据进行了时频分析,源定位等一系列常见的分析。
在时频分析中,该研究将目标锁定在07号被试在《小王子》中“给我画一只绵羊”这句话相对应的片段上,并重点分析了C3电极(位于颞叶上方)不同频段的神经振荡,以研究与语言处理相关的区域的神经活动。快速傅立叶变换(FFT)算法被用于将时域信号转换为频域信号,从而揭示出神经元信号中存在的频谱。通过这一步骤,研究者可以对每个频段内的振荡幅度进行定量分析。图4显示了C3这一电极在不同频段的神经振荡曲线。
图4 不同频段下的脑电图时程和神经振荡
图5 脑电信号源定位分析
该研究提供了一个全新的中文脑电数据集。该数据集可以加深对大脑的语言理解,处理机制,大脑中的语义表征模式等一系列科学问题的理解。同时,该数据集还为相关应用,如脑机接口(BCI)技术提供了新的可能性。通过深入分析EEG数据和语义嵌入之间的关系,研究人员可以更好地理解语言如何在大脑中被编码和解码,进而设计出更加精确和高效的BCI系统以实现语言解码等任务。
随着这一数据集的发布,诚邀全球研究者、开发者和语言学爱好者加入我们的行列,共同推进中文EEG数据的研究。我们鼓励后续各项合作项目,希望通过社区的力量,在多个站点用同样的方式进行数据收集,以进一步拓展和丰富这一数据集。如果您有兴趣进行数据的收集与共享,请联系:伍海燕(澳门大学,haiyanwu@um.edu.mo)。
图6 汉脑交响社区标志
文章作者包括牟新语(共一)、何翠琳(共一)、谭力维(共一)、余俊杰、梁华东、张简聿、田言、杨毓芳、徐婷、王庆、曹淼、陈子娇、胡传鹏、王鑫迪、刘泉影(通讯作者)、伍海燕(通讯作者)。本研究得到了天桥脑科学研究院(TCCI)MindD数据支持计划、澳门FDCT等项目的支持,在此表示衷心的感谢!
文章信息:
数据集link:
Openneuro (https://openneuro.org/datasets/ds004952)
Science Data Bank (https://doi.org/10.57760/sciencedb.CHNNeuro.00007)
公开github的link:
https://github.com/ncclabsustech/Chinese_reading_task_eeg_processing
排版:周诚皓
审核:胡传鹏