ChineseEEG：一个用于中文语义对齐和神经解码的脑电数据集和Protocol

文摘 2024-02-21 19:15 中国澳门

在当今社会，随着脑科学和自然语言处理等技术的不断进步，我们对于大脑与语言之间关系的探索也日益深入。近日在Biorxiv上预印的论文“ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding”详细介绍了一个基于中文语料刺激构建的脑电（EEG）数据集。通过使用包含丰富语义的大量中文刺激并对被试进行长时间的高通道脑电记录（每个被试约12小时），该数据集提供了中文语言刺激下的EEG数据，帮助研究者深入探讨中文刺激下大脑对语义信息的处理、编码以及解码。同时，通过提供多模态，多版本的预处理及衍生数据，该数据集将促进神经科学、自然语言处理（NLP）、语言学等领域的研究方法的结合，为跨学科交叉领域的研究提供宝贵的数据资源。该项目中的材料与代码，也将为其他同行进一步扩充本数据集提供了完整的方案。

在实验设计方面，该研究设计了一套中文语料阅读任务的实验方案，旨在通过系统地采集被试在阅读过程中的脑电和眼动数据，为后续的脑电解码模型训练和验证提供数据资源。在实验中，被试被要求佩戴128导的EGI脑电设备和眼动追踪设备，通过屏幕阅读特定的中文文本材料。同时，为引导被试的阅读进程和注意力，该实验设计了一个字符高亮显示的机制（如图1所示）。屏幕上的字符（除标点符号外）会按照阅读顺序依次高亮显示，并在每个字符处停留相同的时间，被试需按照高亮滚动字幕的提示，移动视线并将注意力集中在高亮显示的文字上。该研究通过在每行刺激文本的起点和终点进行精确标注，实现了特定文本与其对应EEG片段在时域中的精准对齐。这种方法不仅允许后续分析阶段将每行文本与相应的EEG数据段紧密关联，还进一步实现了单个汉字与其对应EEG数据的时间对齐。以上实验protocol均提供代码，以方便大家继续采集数据，扩展数据容量。

图1 实验设备，实验范式和原始数据

在中文语料选择上，该研究使用了两本著名的儿童文学作品《小王子》和《狼王梦》，两本小说均采用其中文版本。小说通常篇幅较长，确保了语言的多样性和丰富性，涵盖了大部分常用的汉字和日常表达。其次，儿童文学作品能够营造引人入胜的环境，使参与者更加专注地投入于实验中。为了方便中文与神经信号的语义对齐研究，我们用预训练的NLP模型，BERT-base-chinese model，提取中文语料的text embedding，一并在数据集中提供。

最终，通过多个实验试次的采集，该数据集采集了总计10名被试的EEG数据，并同步采集了被试的眼动追踪数据，以确保被试的注视点随屏幕上的高亮而变化。每名被试累积贡献了约12个小时的高质量数据。图1d显示了该数据集的模态信息。除了原始EEG和眼动数据，该数据集还提供了多个不同带通滤波得到的EEG数据，以及这些不同滤波数据经过后续预处理（包括坏导插值，独立成分分析等）得到的数据，以便研究者根据不同需求进行灵活选择。图2展示了详细的预处理流程。同时，该数据集还提供了使用预训练语言大模型对刺激语料提取得到的文本嵌入特征向量，为神经信号和语义表征进行对齐等一系列工作提供便利。数据集以EEG-BIDS标准格式进行存储，其结构显示在图3中。详细的格式和相关文件说明可见论文中的Data Record部分。

图2 数据预处理流程图

图3 数据结构示意图

该数据集可用于被用于多种层级的数据分析和多种不同任务的研究中。为验证数据集的有效性，该研究对数据进行了时频分析，源定位等一系列常见的分析。

在时频分析中，该研究将目标锁定在07号被试在《小王子》中“给我画一只绵羊”这句话相对应的片段上，并重点分析了C3电极（位于颞叶上方）不同频段的神经振荡，以研究与语言处理相关的区域的神经活动。快速傅立叶变换(FFT)算法被用于将时域信号转换为频域信号，从而揭示出神经元信号中存在的频谱。通过这一步骤，研究者可以对每个频段内的振荡幅度进行定量分析。图4显示了C3这一电极在不同频段的神经振荡曲线。

图4 不同频段下的脑电图时程和神经振荡

研究者可对高通道EEG进行脑电源定位分析。这里选取了三段经过预处理的脑电数据（带通滤波版本为0.5-80 Hz），图5a显示了三段数据对应的文字片段。利用dSPM算法求解逆问题，随后将源分析后大脑激活情况进行可视化，结果如图5b。三个片段的定位结果显示激活区域主要分布在前颞叶，颞顶叶等区域，这些区域均与语言理解和处理相关。图5c展示了语言处理相关脑区的源活动随时间的变化。为了节省空间，我们没有提供每条脑电溯源后的数据，但是我们提供了off-the-shelf脑电溯源代码，可以直接运行，得到全脑溯源的结果。

图5 脑电信号源定位分析

该研究提供了一个全新的中文脑电数据集。该数据集可以加深对大脑的语言理解，处理机制，大脑中的语义表征模式等一系列科学问题的理解。同时，该数据集还为相关应用，如脑机接口（BCI）技术提供了新的可能性。通过深入分析EEG数据和语义嵌入之间的关系，研究人员可以更好地理解语言如何在大脑中被编码和解码，进而设计出更加精确和高效的BCI系统以实现语言解码等任务。

随着这一数据集的发布，诚邀全球研究者、开发者和语言学爱好者加入我们的行列，共同推进中文EEG数据的研究。我们鼓励后续各项合作项目，希望通过社区的力量，在多个站点用同样的方式进行数据收集，以进一步拓展和丰富这一数据集。如果您有兴趣进行数据的收集与共享，请联系：伍海燕（澳门大学，haiyanwu@um.edu.mo）。

目前该数据集已经发布在Openneuro (url：https://openneuro.org/datasets/ds004952)和Science Data Bank 的汉脑交响社区（ChineseNeuro Symphony community）（https://doi.org/10.57760/sciencedb.CHNNeuro.00007）

图6 汉脑交响社区标志

文章作者包括牟新语（共一）、何翠琳（共一）、谭力维（共一）、余俊杰、梁华东、张简聿、田言、杨毓芳、徐婷、王庆、曹淼、陈子娇、胡传鹏、王鑫迪、刘泉影（通讯作者）、伍海燕（通讯作者）。本研究得到了天桥脑科学研究院（TCCI）MindD数据支持计划、澳门FDCT等项目的支持，在此表示衷心的感谢！

文章信息：

Mou. X., He. C., Tan. L.,Yu. J., Liang. H., Zhang. J., Tian. Y., Yang. Y., Xu. T., Wang. Q., Cao. M., Chen Z., Hu C., Wang. X., Liu. Q., & Wu. H. (2024). ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding. Biorxiv. https://doi.org/10.1101/2024.02.08.579481

数据集link：

Openneuro (https://openneuro.org/datasets/ds004952)

Science Data Bank (https://doi.org/10.57760/sciencedb.CHNNeuro.00007）

公开github的link：

https://github.com/ncclabsustech/Chinese_reading_task_eeg_processing

▼

更多精彩推荐，请关注我们

▼

排版：周诚皓

审核：胡传鹏

好奇帮

本账号是心理学，神经科学和计算科学的结合。

最新文章

研究进展 | 结合IAT和鼠标追踪技术检测记忆的方法

Journal Club| 个体在奖励各异情况下仍能灵活地整合社会信息

文献推荐｜自然主义的强化学习

文献推荐｜通过游戏探索人类心智

研究进展|虚拟现实中焦虑情绪的神经生理表征与社交互动中的情绪反应的关联

ANDLab暑期workshop：PPT画图在学术中的应用

ANDLab暑期FSL培训精华回顾

Journal club|前瞻决策中抽象价值空间的内嗅网格表征

ChineseEEG：一个用于中文语义对齐和神经解码的脑电数据集和Protocol

人类决策背后的策略

2024的开篇|无知的快乐还是清醒的痛苦？

Journal Club | 海马空间预测认知地图自适应引导奖赏泛化

JC｜统一工作记忆和规划的神经计算几何学

研究进展|催产素对个体的功能连接和行为之间关联的影响

如何进行科研项目管理？从资料归档入手

Journal Club|替代奖赏和直接奖赏在同一神经回路中的耦合频率分离

Journal Club | 几何模型揭示将经验转变为记忆的行为和神经特征

RA招聘 | 华东师范大学罗艺研究员课题组招聘研究助理

Journal Club| 自我-他人边界的形成

招聘｜澳门大学脑中心伍海燕实验室长期招聘博士生/科研助理

研究进展 & 文献荐读 | 伍海燕课题组揭示大脑结构、功能和心智化能力间的三位一体关系

ChatGPT不靠谱？Step by step 写文献综述

研究进展|社会从众的个体差异与其神经变异性有关

Journal Club | 包括符号性选项的决策中经验价值的权重较低

2022-2023年终小结-新年愿景

Journal Club | 将社会知识结构纳入社会学习计算模型

Journal Club | 对自我和他人信心的神经计算机制

Journal Club｜当自我进入心智游移时：自发性思维中自我生成概念的大脑表征和动态

Journal Club | 心智化脑区和前扣带皮层在教学过程中对学习者信念的表征

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉