● ● ● ●
转录组原始数据上传SRA
保姆级上传手册
SRA(Sequence Read Archive)作为NCBI用于保存大规模测序原始数据的数据库,也是绝大多数转录组文章上传原始数据的较优选择。这里我们整理了转录组原始数据上传SRA的超简单方法,5分钟让你成为平(fei)平(chang)无(li)奇(hai)的数据上传小天才!
一、准备工作
上传之前,首先需要准备两样必备品:原始数据与NCBI的账号。
在小派这里做转录组的家银们,在您拿到的转录组结果中,有一个rawdata的文件夹,这里存放的就是可以直接上传的原始数据啦。
Fastq是需要上传的原始数据。由于是双端测序,因此每个样本需要上传R1、R2两份fastq文件,md5文件是老师用于进行数据一致性验证,在SRA上传过程中我们是不需要上传该文件的。
注意!这里fastq文件直接上传压缩包即可,不需要老师做解压处理。
准备好原始数据后,就要登录NCBI进行我们的上传操作啦:
如果您没有NCBI的账号,可以进行申请,或者使用其他登录方式:
登录完成后依次点击submit,如下:
创建new submission
二、信息填写
接下来就是信息填写了,只要根据网站提示填写相应内容即可。首先是个人信息,*为必填选项,包括名字,邮箱(这里尽量不要使用qq邮箱,以避免无法正常接收邮件),以及学校信息等,填写完成后点击继续。
接下来填写General Information,这里主要填写是否已经注册BioProject和BioSample的信息,没有申请直接选择NO即可。另外可以根据您的需要,选择数据是上传后立即公布,还是指定日期公布,填写完成后点击继续。
之后填写项目信息,*为必填项,填写项目标题及项目信息,根据老师的项目情况及实验处理进行填写即可。非必填内容可以直接跳过,点击continue继续。
选择样本类型,如植物、动物、人、细菌等,这里我们以植物plant 为例,选好后点击continue继续。
接下来需要提交BioSample attributes,这里有在线填写和下载表格填写两种方式。这里我们推荐下载表格填写。
所有的信息根据提示及项目情况进行填写即可。绿色字段为必填项,如缺少相关信息,如任何必填项没有资料,可以填写'not collected', 'not applicable' 或 'missing';蓝色字段为至少一个必填项,可参考绿色字段填写方法;黄色字段则为非必填项。注意,除样本名外,需要可以有信息将每个样本区分开,可以通过添加description信息,或者另外增加replication的信息来进行区分(注意,这里信息如果填写不符合规范,上传后会报错,只需根据提示的信息对表格内容进行相应修改后重新上传即可)。
上传填写好的表格后,点击continue继续。
下一步输入SRA Metadata信息,还是可以选择线上填写或下载表格填写,这里还是以表格填写为例。参照示例填写相关信息后,点击continue继续。
三、数据上传
终于到了最后一步上传数据啦!老师根据自己的数据情况,选择适合的上传方式即可。如果数据较少,可以选择直接网页上传:
如果数据比较多,这里推荐Aspera方法上传数据:
首先下载安装Aspera:https://www.ibm.com/aspera/connect/
安装完成后,找到IBM Aspera Connect的图标,点击属性,打开文件所在位置:
在打开的文件夹里新建data文件夹,将需要上传的fastq文件拷贝到data中。下载NCBI配置文件,配置文件下载见下图,同样放在上一步打开的文件夹中,并复制生成的命令:
在文件夹的空白处,按住shift键 同时鼠标右击,打开命令窗口。在打开的窗口里输入命令:
.\ascp.exe -i aspera.openssh -QT -l100m -k1 -d data subasp@upload.ncbi.nlm.nih.gov:uploads/personal_163.com_bdksRkE3
标黄信息来自于刚刚复制的命令,按enter键进行上传,显示100%时表明上传完毕。
数据上传成功后,最后一步检查一下上传信息是否有误,确定没问题的话点击submit,我们的上传工作就完成啦,接下来就静静的等待NCBI发送邮件给我们了。
如果数据上传中出现了无法修改的错误,或迟迟没有审核完成的情况,大家都可以发邮件给NCBI进行咨询。
本期转录组原始数据上传小帮手就到这里,你学会了吗?
本文仅供学习交流使用。
1
END
1