不设置🌟有时会收不到公众号内容,code一段时间后会失效,下载数据的工具我已经帮大家下好了,在文末
之前跟大家介绍了,我们开启了数据分析项目,目前主要针对上游分析(没有服务器,单细胞数据搞不定?我们目前做好了这些pipeline,可以帮你做)。
目前工数据非常丰度,其中一个比较关键的点就是怎么下载数据,今天给大家实战介绍下,怎么获取一篇文章测序的原始数据,又怎么一行命令下载它。
咱们以实际应用场景为例,就下这篇文章的数据。
这是一篇单细胞数据,我想挖掘他的公共数据
下面是文章阐述的数据存放的位置 Data availability,其实大部分文章都是在这个位置专门说明的
第一步,打开网址,然后检索
https://ncbi.nlm.nih.gov/bioproject
第二步,点那个SRA Experiments
第三步,点那个Send results to Run selector
第四步,点那个下载临床信息和 SRR list都很重要
刚刚下载的Metadata张这样
下载的 SRR list
现在开始装SRA ToolKit 这个软件,这个最好用,就是直接用上面的这个 SRR编号,让他自动下载。不会下载的,可以用我给大家下的。
后苔↩️:241216
##解压我提供的文件,自己提前找好解压的文件夹路径
tar -zxvf sratoolkit.3.1.1-ubuntu64.tar.gz
刚刚解压的文件夹下其实有一个 bin文件夹
export PATH=替换成自己的 bin的路径/bin:$PATH
prefetch
测试一下,基本上能用了,只不过目前还是临时路径,
(base) qian@zs1:~$ export PATH=/mnt/data/singlecell/Qian/mydata/software/NCBI_download/sra_tools/sratoolkit_311/bin:$PATH
(base) qian@zs1:~$ prefetch
Usage:
prefetch [options] <SRA accession> [...]
Download SRA files and their dependencies
prefetch [options] --perm <JWT cart file> <SRA accession> [...]
Download SRA files and their dependencies from JWT cart
prefetch [options] --cart <kart file>
Download cart file
prefetch [options] <URL> --output-file <FILE>
Download URL to FILE
prefetch [options] <URL> [...] --output-directory <DIRECTORY>
Download URL or URL-s to DIRECTORY
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
(base) qian@zs1:~$ prefetch --version
prefetch : 3.1.1
我还想并行下载,所以确保有这个软件
(base) qian@zs1:~$ parallel --version
GNU parallel 20210822
Copyright (C) 2007-2021 Ole Tange, http://ole.tange.dk and Free Software
Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
GNU parallel comes with no warranty.
Web site: https://www.gnu.org/software/parallel
When using programs that use GNU Parallel to process data for publication
please cite as described in the manpage.
没有的话就装一下,👇
sudo apt install parallel
下载好后,来到你想存储的位置,cd /mnt/data/singlecell/Qian/mydata/software/NCBI_download/PRJNA1096305/
###准备好刚刚的那个文件,设置好路径,就可以直接下载就行,我看速度还可以,我设置了 10 个并行,并行数修改下面的数字就行(上面的所有操作都在为这一行命令做准备的)
cat ../SRR_Acc_List.txt | parallel --jobs 10 "fastq-dump --split-files --origfmt --gzip {}"
ll -h #查看下下载情况,直接自动下载乘.gz了,非常方便
不会下的我己经帮大家下好了,后苔回复↩️数字即可:241216