项目管理
从资料归档入手
做科研总绕不开有关数据的问题:刚收完数据,如何整理、备份数据?完成项目、发表论文时,如何公开数据?在项目结束后,如何保存数据?
万一某个步骤出了纰漏,会发生什么呢?
不妨试想一下,你在很多年前发表了一篇论文,却在很多年后收到了一封邮件,希望你能提供当年用到的原始数据。然而,你看了看自己的硬盘——可用空间只剩下了一小部分,储存了几年来不知道多少个实验、多少个项目的数据与文档。光要从这堆文件中找到当年的论文资料,就得花上不小的力气,更别提万一数据已经删除,前面找半天都是白忙活一场。
——早知如此,当初就应该做好项目管理了。
PART 01
什么是项目管理?
那么,科研项目管理会涉及到哪些内容呢?它既涵盖了从课题申请立项、组织实验,到最后产出成果、发表论文等学术科研的基本流程,也包括数据整理、资料归档、材料公开等看似细枝末节,实则至关重要的工作。
优秀的科研项目管理不仅能推动课题如期进行,而且能帮助科研人员减少不必要的麻烦,比如更换设备或保存不当带来的数据丢失,还能方便其他研究人员寻找本项目的相关资料,或进行可重复性研究。
在这方面,周先庚*先生为我们树立了良好的榜样:
*周先庚(1903.08.10-1996.02.04),心理学家,汉字心理学和中国实验及应用心理学的奠基人,中国工业心理学和中国军事心理学的先驱。图经准许转载,来自中科院心理所卫垌圻老师的分享。
这是一份跨越了70多年的珍贵实验档案,是周先庚先生于1949年亲笔写下的实验记录,详细记录了实验的时间地点、主试被试、材料方法、实验结果。尽管历史悠久,但当我们阅读这份手迹,其内容清晰可见、一目了然,还能为后来者参阅。
而如今,资料归档远比周先生的时代容易太多太多,与此同时,作为科研项目管理的重要部分,各大高校、科研院所也越来越强调项目中的资料汇总、存档与公开等工作。
中国科学院关于学术论文数据提交汇总的通知
PART 02
数字化时代的资料归档
那么,在数字化时代,我们该怎么做?
数字化时代的资料归档不应当仅局限于保存实验资料,更重要的是以更简易、更清晰的组织层次,以网络为载体,让研究变得更公开、更透明,让其他研究人员也能轻松找到我们的实验资料,明白我们的资料组成,真正践行Open Science。
接下来将为大家介绍两种资料归档的方案—— TIER与BIDS。
1. TIER
TIER,全称为 Teaching Integrity in Empirical Research。
Project TIER旨在给定标准化的项目资料的分类归档方案,进而提高研究的透明度、可重复性。
在最新推出的TIER Protocol 4.0中,一个项目文件夹需要包括五个主要部分:
(1)The Read Me File
Read Me File是整个项目文档的用户指南。当他人想查看项目文件夹时,他们需要先阅读Read Me File。它必须具备3个部分:实验使用的软件与平台信息,项目文档大纲,如何复现该研究。
(2)研究报告/论文
(3)数据
数据文件夹中必须包含原始数据(Input Data)、预处理后的数据(Analysis Data);另外可以根据项目负责人的需要,添加中间数据(Intermediate Data)。
(4)脚本
脚本文件夹需要包括四类内容:
a)预处理脚本:在正式分析前,对数据进行预处理时所使用的命令。
b)数据附录脚本:数据附录中呈现的图表、描述性统计数据所使用的命令。
c)分析脚本:实验论文、报告中呈现的图表和其他计算输出所使用的命令。
d)主脚本:按照完整的数据处理与分析的顺序,运行以上脚本时所使用的命令。
(5)输出
输出文件夹需要包括:结果、数据附录。二者分别存放相应的图形、表格或将在报告中呈现的其他结果。
根据TIER Protocol 4.0,最后得到的完整项目存档目录如下:
此外,TIER还可以搭配Open Science Framework(OSF)一起使用。
OSF是一个免费、开放的平台,它的功能包括:
(1)提供一个受到认可的预注册平台,并进行项目公开;
(2)提供免费的数据存储空间,可以直接按照TIER对项目进行管理和归档;
(3)可以进行多人远程协作;
(4)与其他开源的平台无缝结合,比如github。
2. BIDS
TIER给理工、社科类项目提供了清晰的资料归档方案。然而,在心理学、认知神经科学等领域,研究者们常常会收集神经影像及行为数据,这类数据包含多种多样的数据类型,既不能完美契合TIER的归档方案,长久以来又没有像TIER一样广泛认可的归档方案。于是,BIDS应运而生。
BIDS,全称为 Brain Imaging Data Structure,是针对是神经影像及行为数据而提出的资料命名与归档方案,目前最新版本为v1.8.0。
在BIDS中,通用的文件夹层次结构有四个主要级别(左图),它们是:
Project-Subject-Session-Datatype
除了顶级project文件夹外,所有子文件夹的名称都具有特定的结构。右图是此层次结构的示例:
BIDS需要为数据添加注释,注释是指与数据直接关联的元数据,包含以下几个方面:
(1)数据集来源
(dataset_description.json)
dataset_description.json是一个顶级文件,提供有关数据集来源、资金和引文信息的详细信息。
(2)数据集描述(README)
README文件是一个顶级文本文件,提供数据集的实际概述。对于数据的用户来说,全面的分析README至关重要。
(3)Subject注释(participants.tsv和participants.json)
participants.tsv文件是顶级制表符分隔值文件,提供主题信息,例如年龄、性别和惯用手。数据集中的每个主题都应在中具有一行participants.tsv。
participants.json是一个顶级文件,每种类型的元数据都在participants.tsv的列中提供,participants.json提供有关列数据的性质。
(4)Session注释
在Session级别,可选的sessions.tsv和sessions.json文件可用于添加适用于整个会话的注释。
(5)Scans/run注释
在扫描或运行级别,可选的scans.tsv和scans.json文件可用于添加适用于整个运行的注释。
标准的BIDS数据归档目录如下:
由于神经影像的技术多样,包括EEG、fMRI等,它们的数据内容存在差异。为此,BIDS为不同的脑成像数据制定了不同的数据归档方案,具体可查阅文末的“BIDS入门说明”链接。
与BIDS配套使用的数据公开平台为OpenNEURO。
与OSF的功能类似,OpenNEURO是一个在线的神经影像数据共享平台,研究人员可以在这里分享、查找和分析神经影像数据集。这个网站也提供了一些教程和工具,帮助研究人员处理和分析神经影像数据。
以下是OpenNEURO的基础使用方式:
进入OpenNEURO官网后,可以点击上方的SEARCH版块查看已上传的数据集,并可以通过左侧的筛选栏,筛选出自己需要的数据集。
关于下载数据集,OpenNEURO主要提供了两种下载方式:
一种是下载完整的数据集。它可以选择由浏览器下载,也可以根据数据集的情况,选择S3、Node.js、DataLad、shell script等方式下载。
在下载完整的数据集时,由于数据集通常比较大,一定要保证自己拥有足够的存储空间。
另一种是根据自己的需要,下载数据集的部分内容:
如果需要上传自己的神经影像数据,则可以点击UPLOAD版块,选择要上传的数据集目录。
系统会按照BIDS自动检查文档目录,如果上传的数据集不符合BIDS的要求,则会指出其中不符合要求的部分:
选择符合BIDS要求的数据集后,填写元数据信息,同意OpenNEURO平台条款,即可上传自己的数据集。
PART 03
Tips
这篇文章简要介绍了两种常用的资料归档方案,大家如果对它们感兴趣,可以点击文末的网站链接了解更多有关科研项目管理的内容。
以上内容,希望能帮助大家更系统、更高效地完成资料归档与科研项目管理。
从资料归档入手,跟杂乱的数据文件夹说拜拜吧!
相关网站链接:
TIER:
https://www.projecttier.org/
OSF:
https://osf.io/
BIDS官网:
https://bids.neuroimaging.io/index.html
BIDS入门说明:
https://bids-standard.github.io/bids-starter-kit/folders_and_files/folders.html
OpenNEURO:
https://openneuro.org/
【End】
文字:Yilei 排版:Iris 审核:Iris,Haiyan | |
关注我们吧-- 好奇帮 |