NCBI公共数据库中的数据该怎么下载,一条命令自动并行下载,公共数据深度挖掘

文摘   2024-12-16 07:00   北京  

不设置🌟有时会收不到公众号内容,code一段时间后会失效,下载数据的工具我已经帮大家下好了,在文末


之前跟大家介绍了,我们开启了数据分析项目,目前主要针对上游分析(没有服务器,单细胞数据搞不定?我们目前做好了这些pipeline,可以帮你做)。

目前工数据非常丰度,其中一个比较关键的点就是怎么下载数据,今天给大家实战介绍下,怎么获取一篇文章测序的原始数据,又怎么一行命令下载它。

咱们以实际应用场景为例,就下这篇文章的数据。

这是一篇单细胞数据,我想挖掘他的公共数据

下面是文章阐述的数据存放的位置 Data availability,其实大部分文章都是在这个位置专门说明的

第一步,打开网址,然后检索

https://ncbi.nlm.nih.gov/bioproject

第二,点那个SRA Experiments

第三,点那个Send results to Run selector

第四,点那个下载临床信息和 SRR list都很重要

刚刚下载的Metadata张这样

下载的 SRR list

现在开始装SRA ToolKit 这个软件,这个最好用,就是直接用上面的这个 SRR编号,让他自动下载。不会下载的,可以用我给大家下的。

后苔↩️:241216

##解压我提供的文件,自己提前找好解压的文件夹路径

tar -zxvf sratoolkit.3.1.1-ubuntu64.tar.gz

刚刚解压的文件夹下其实有一个 bin文件夹

export PATH=替换成自己的 bin的路径/bin:$PATH

prefetch

测试一下,基本上能用了,只不过目前还是临时路径,

(base) qian@zs1:~$ export PATH=/mnt/data/singlecell/Qian/mydata/software/NCBI_download/sra_tools/sratoolkit_311/bin:$PATH(base) qian@zs1:~$ prefetchUsage:  prefetch [options] <SRA accession> [...]  Download SRA files and their dependencies
prefetch [options] --perm <JWT cart file> <SRA accession> [...] Download SRA files and their dependencies from JWT cart
prefetch [options] --cart <kart file> Download cart file
prefetch [options] <URL> --output-file <FILE> Download URL to FILE
prefetch [options] <URL> [...] --output-directory <DIRECTORY> Download URL or URL-s to DIRECTORY
prefetch [options] <SRA file> [...] Check SRA file for missed dependencies and download them (base) qian@zs1:~$ prefetch --version
prefetch : 3.1.1


我还想并行下载,所以确保有这个软件

(base) qian@zs1:~$ parallel --versionGNU parallel 20210822Copyright (C) 2007-2021 Ole Tange, http://ole.tange.dk and Free SoftwareFoundation, Inc.License GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>This is free software: you are free to change and redistribute it.GNU parallel comes with no warranty.
Web site: https://www.gnu.org/software/parallel
When using programs that use GNU Parallel to process data for publicationplease cite as described in the manpage.

没有的话就装一下,👇

sudo apt install parallel

下载好后,来到你想存储的位置,cd /mnt/data/singlecell/Qian/mydata/software/NCBI_download/PRJNA1096305/

###准备好刚刚的那个文件,设置好路径,就可以直接下载就行,我看速度还可以,我设置了 10 个并行,并行数修改下面的数字就行(上面的所有操作都在为这一行命令做准备的)

cat ../SRR_Acc_List.txt | parallel --jobs 10 "fastq-dump --split-files --origfmt --gzip {}"

ll -h #查看下下载情况,直接自动下载乘.gz了,非常方便

不会下的我己经帮大家下好了,后苔回复↩️数字即可:241216

生信钱同学
北京大学在读博士生,记录自己的学习日常🌞分享生信知识:如单细胞和空间测序、多组学分析、宏基因组、病理组学、影像组学等生物信息学、机器学习和深度学习内容🌬
 最新文章