现在很多文章发表要求一定要上传原始测序数据,今天手把手教学下如何将自己的测序数据上传到NCBI。
注册NCBI账号
注册网站https://www.ncbi.nlm.nih.gov/account/
准备上传的原始数据
原始数据以gz或者其它形式压缩,所有数据放到同一个目录下,不要套多层目录
填写数据信息并上传文件
创建新的submission
进入NCBI首页(https://www.ncbi.nlm.nih.gov/),操作如下:
①选择SRA
②点击Search
③点击Submit to SRA
④点击New submission
填写提交者信息(Submitter)
按照要求填写,*为必填选项。填写完成后点击Continue。
填写一般信息(General Information)
如果是第一次提交BioProject和BioSample都选择No,Release data(释放数据的时间)建议选择比较晚的日期,避免数据过早发布,选择早了也没关系提交以后可以修改。填写完成后点击Continue。
填写项目信息(Project Info)
需要填写项目标题、项目描述、项目是否登记过,如果是第一次提交选择No,*为必填选项,其它部分选填(可以不填)。填写完成后点击Continue。
填写样本类型(Sample Type)
根据实际情况选择,比如小鼠样本就选择Model organism or animal,人源样本就选择Human。填写完成后点击Continue。
填写样本属性(Attributes)
可以选择使用内置表格编辑器,或下载Excel和TSV模版填写后上传,推荐后者。
下载的示例表格如下:
绿色为必填项,蓝色为选填项(至少选填一个),黄色为可选项(可以空着)。如果研究中不涉及选项相关的信息,可以填写'not collected'、'not applicable'或者'missing'。样本名称要保持唯一。
填写完成以后点击Choose file上传,然后点击Continue。如果填写的信息不符合要求会出现一些错误信息提示,根据提示信息修改表格对应位置的信息,Delete原来上传的文件,再重新上传更新后的文件,点击Continue(此过程可以反复修改,直到进入到下一步)。
填写SRA文件的汇总信息(SRA Metadata)
同样可以选择使用内置表格编辑器,或者下载Excel模版填写后上传,推荐后者。
下载的示例表格如下:
蓝色为必填项,绿色为可选项,黄色背景部分的列有下拉菜单,可以从下拉菜单中进行选择,每一个选项的填写要求如下:
sample_name:样本名称,应该与前一个表格(Attributes)中的 sample_name 项名称相同。
library_ID:文库ID,必须是唯一的,不能重复。
title:数据集的简短描述,格式为 {methodology} of {organism}: isample info,例如RNA-seq of mus musculus:sample1。
library_strategy:文库策略,如 RNA-Seq。
library_source:文库来源,如 TRANSCRIPTOMIC SINGLE CELL。
library_selection:文库选择,如 cDNA。
library_layout:文库设计,single 或 paired。
platform:测序平台,如 ILLUMINA。
instrument_model:仪器型号,如 Illumina HiSeq 4000。
design_description:设计说明,用于创建测序文库的方法的自由格式描述,简短的"材料和方法"部分。
filetype:文件类型,如 fastq。
filename:文件名,如 sample1_R1_001.fastq.gz(这里需要注意,最终上传的测序文件要与这里是一致的)。
filename2:文件名2,如双端测序的第二个文件 sample1_R2_001.fastq.gz。
assembly:组装,仅当您提交针对 NCBI 组装的 BAM 文件时需要,请提供 NCBI 名称或注册号(例如GRCH37)。
fasta_file:fasta 文件,仅当您提交针对 NCBI 组装的 BAM 文件时需要,提供比对过程中使用的自定义组装 fasta 文件的名称(例如 Mouse.fasta)。
填写完成以后点击Choose file上传,然后点击Continue。
上传文件(Files)
三种上传方式,一般测序的原始文件比较大,建议FTP或者Aspera上传。
由于原始数据通常很大,一般存储在Linux服务器中,因此我这里使用Aspera命令行上传。
官网下载对应的压缩包https://www.ibm.com/products/aspera/downloads
mkdir Aspera
cd Aspera
# 解压下载的压缩包
tar xvf ibm-aspera-connect_4.2.12.780_linux_x86_64.tar.gz
# bash环境下安装
bash ibm-aspera-connect_4.2.12.780_linux_x86_64.sh
# 添加环境变量
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc
source ~/.bashrc
# 测试是否设置成功
ascp
NCBI页面会提供每个SRA提交对应的key file,点击链接下载。
命令行如下:
ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/xxxxx_ImC0bf5y
其中
<path/to/key_file>
为下载的key file路径,要使用绝对路径
<path/to/folder/containing files>
为上传的测序数据文件夹,要使用绝对路径,文件夹里面包含SRA Metadata中的所有filename,文件夹下面直接包含所有文件,不要套目录
subasp .ncbi.nlm.nih.gov:uploads/xxxxx_ImC0bf5y
为上传的路径,页面有提供,直接复制黏贴即可,每个提交都不一样
检查并提交(REVIEW & SUBMIT)
检查前面填写的内容,如果没有问题点击Submit提交,有问题的话可以联系NCBI进行修改。
好啦,这就是数据上传到NCBI的全部流程啦~
生信人最近举行了两场直播活动,小伙伴们在直播间热情高涨,应大家的呼声:
生信人第三场直播又双叒来了!如果你想发高分,还想少走些弯路,一定要来看嗷,向阳老师直播间在线经验分享!
扫码预约,精彩不错过!咱们圣诞节直播间见
概普生物 让科研丰富