实操!测序数据存到GSA,而非NCBI!

学术   2024-10-10 00:06   上海  
发表文章时,我们需要将测序原始数据上传到公共数据库。以前,我们只能上传到国外的NCBI或EBI等,现在需要上传到我们自己的国家基因组科学数据中心(NGDC)。该网站涵盖多个核心数据库资源,包括BioCode,BioProject,BioSample,BIT,GEN,GSA,GWH,GVM,MethBank和OMIX等。拿了纳税人的钱,就该这样办!

网址:https://ngdc.cncb.ac.cn/

组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,已获得国际认可。因此,我们不用担心上传数据到GSA不被期刊认可,也不用舍近求远上传到国外。首先,①准备要上传的原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式;②获取MD5码。MD5码是用来校验递交的数据在网络传输过程中是否损坏或丢包,是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。或者通过以下方式进行计算MD5码:
Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)Mac 用户使用$ md5 命令计算Windows 用户使用第三方工具进行计算,例如 winmd5free
然后,进入NGDC主页:https://ngdc.cncb.ac.cn/,登录。第一次使用需要注册。

接下来,填写数据信息。GSA数据上传主要分两步:①提前申请Bioproject和Biosample登录号,一个Bioproject对应多个Biosample;②原始数据上传至GSA数据库。简单说是①创建BioProject ②上传元文件 ③上传测序数据,创建GSA。填写*的必填部分即可。
BioProject 创建

元文件上传

上传测序数据,创建GSA

FTP 客户端方式上传数据

这些操作当中,元文件整理涉及很多细节,这个就在具体上传中逐步解决吧!

参考资料:
  1. https://mp.weixin.qq.com/s/e3CDGIgQXleVf6mgxr_qWA

  2. https://www.jianshu.com/p/555e42062233

芒果师兄聊生信
1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路,读书,音乐和娱乐。
 最新文章