【干货】转录组原始数据上传SRA,保姆级超详细上传手册!一看就会!

健康   科学   2024-11-08 17:05   江苏  

● ● ● ●


转录组原始数据上传SRA

保姆级上传手册


SRA(Sequence Read Archive)作为NCBI用于保存大规模测序原始数据的数据库,也是绝大多数转录组文章上传原始数据的较优选择。这里我们整理了转录组原始数据上传SRA的超简单方法,5分钟让你成为平(fei)平(chang)无(li)奇(hai)的数据上传小天才!




一、准备工作


上传之前,首先需要准备两样必备品:原始数据与NCBI的账号。

在小派这里做转录组的家银们,在您拿到的转录组结果中,有一个rawdata的文件夹,这里存放的就是可以直接上传的原始数据啦。

Fastq是需要上传的原始数据。由于是双端测序,因此每个样本需要上传R1、R2两份fastq文件,md5文件是老师用于进行数据一致性验证,在SRA上传过程中我们是不需要上传该文件的。

注意!这里fastq文件直接上传压缩包即可,不需要老师做解压处理。

准备好原始数据后,就要登录NCBI进行我们的上传操作啦:

如果您没有NCBI的账号,可以进行申请,或者使用其他登录方式:

登录完成后依次点击submit,如下:

创建new submission


二、信息填写


接下来就是信息填写了,只要根据网站提示填写相应内容即可。首先是个人信息,*为必填选项,包括名字,邮箱(这里尽量不要使用qq邮箱,以避免无法正常接收邮件),以及学校信息等,填写完成后点击继续。

接下来填写General Information,这里主要填写是否已经注册BioProject和BioSample的信息,没有申请直接选择NO即可。另外可以根据您的需要,选择数据是上传后立即公布,还是指定日期公布,填写完成后点击继续。

之后填写项目信息,*为必填项,填写项目标题及项目信息,根据老师的项目情况及实验处理进行填写即可。非必填内容可以直接跳过,点击continue继续。

选择样本类型,如植物、动物、人、细菌等,这里我们以植物plant 为例,选好后点击continue继续。

接下来需要提交BioSample attributes,这里有在线填写和下载表格填写两种方式。这里我们推荐下载表格填写。

所有的信息根据提示及项目情况进行填写即可。绿色字段为必填项,如缺少相关信息,如任何必填项没有资料,可以填写'not collected',  'not applicable' 或 'missing';蓝色字段为至少一个必填项,可参考绿色字段填写方法;黄色字段则为非必填项。注意,除样本名外,需要可以有信息将每个样本区分开,可以通过添加description信息,或者另外增加replication的信息来进行区分(注意,这里信息如果填写不符合规范,上传后会报错,只需根据提示的信息对表格内容进行相应修改后重新上传即可)。

上传填写好的表格后,点击continue继续。

下一步输入SRA Metadata信息,还是可以选择线上填写或下载表格填写,这里还是以表格填写为例。参照示例填写相关信息后,点击continue继续。


三、数据上传


终于到了最后一步上传数据啦!老师根据自己的数据情况,选择适合的上传方式即可。如果数据较少,可以选择直接网页上传:

如果数据比较多,这里推荐Aspera方法上传数据:

首先下载安装Aspera:https://www.ibm.com/aspera/connect/

安装完成后,找到IBM Aspera Connect的图标,点击属性,打开文件所在位置:

在打开的文件夹里新建data文件夹,将需要上传的fastq文件拷贝到data中。下载NCBI配置文件,配置文件下载见下图,同样放在上一步打开的文件夹中,并复制生成的命令:

在文件夹的空白处,按住shift键 同时鼠标右击,打开命令窗口。在打开的窗口里输入命令:

.\ascp.exe -i aspera.openssh -QT -l100m -k1 -d data subasp@upload.ncbi.nlm.nih.gov:uploads/personal_163.com_bdksRkE3

标黄信息来自于刚刚复制的命令,按enter键进行上传,显示100%时表明上传完毕。

数据上传成功后,最后一步检查一下上传信息是否有误,确定没问题的话点击submit,我们的上传工作就完成啦,接下来就静静的等待NCBI发送邮件给我们了。

如果数据上传中出现了无法修改的错误,或迟迟没有审核完成的情况,大家都可以发邮件给NCBI进行咨询。



本期转录组原始数据上传小帮手就到这里,你学会了吗?



本文仅供学习交流使用。





1

END

1



上海派森诺生物科技股份有限公司 成立于2011年4月,是一家致力于为健康医学、生命科学等领域提供微生物组、基因组、转录组及蛋白代谢等多组学分子生物学技术服务及大数据挖掘与分析服务的高新技术企业,是国家级专精特新“小巨人”企业、国家知识产权优势企业。公司总部位于上海,设有多家全资子公司,并建立了完善的基因测序平台和大数据云计算平台,具有完全自主研发的创新技术和成果,派森诺生物及所属子公司已取得授权及受理专利、软件著作权250余项;合作项目论文多次发表在Nature、Lancet等生物科学、医学权威期刊。公司业务覆盖全国,远涉澳洲、欧洲和美洲,并在国内28个省市设立了办事处,与全球800多所高校、300多家医院及200多家科研机构建立了紧密合作关系。

派森诺生物作为基因检测、蛋白代谢检测及大数据分析、体外诊断试剂开发的服务商,始终秉承“解析基因序列,诠释生命密码,改善人类生活”的企业使命,致力于为广大生命科学、医学工作者提供包括高通量基因测序、临床医学基因检测、蛋白及代谢组检测分析、生物信息学服务、生物云计算、分子生物学实验等科研及临床应用解决方案。

派森诺生物
生命科学研究最新进展,尽在一手掌握!
 最新文章