SRA-Tools (Sequence Read Archive Tools) 是一组用于处理美国国家生物技术信息中心 (NCBI) 的序列读取档案(Sequence Read Archive, SRA)数据的命令行工具。它包括了一系列实用程序,主要用于下载、转换和处理基因组测序数据。以下是一些常用的工具和功能:
fastq-dump:将SRA格式的文件转换为常见的FASTQ格式,用于基因组序列的进一步分析。 prefetch:用于从SRA数据库下载数据。 fasterq-dump:是 fastq-dump 的改进版本,速度更快,通常用于高效地将SRA文件转换为FASTQ文件。 vdb-validate:用于验证下载的SRA数据是否完整、无损。因此工欲善其事必先利其器,再次学习一下。
conda的安装可以参考上一期推文:CNCB(国家生物信息中心)数据下载流程学习(Anaconda/Aspera/Edge turbo)
安装流程
关于conda的镜像问题,选择其一设置即可
#删除conda 镜像文件 (如果第一次配置则不需要)
rm ~/.condarc
# 添加北京外国语大学的镜像源
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes
# 添加阿里云的镜像源
conda config --add channels https://mirrors.aliyun.com/anaconda/cloud/msys2
conda config --add channels https://mirrors.aliyun.com/anaconda/cloud/bioconda
conda config --add channels https://mirrors.aliyun.com/anaconda/pkgs/main
conda config --add channels https://mirrors.aliyun.com/anaconda/pkgs/r
conda config --set show_channel_urls yes
# 添加北京大学的镜像源
conda config --add channels https://mirrors.pku.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.pku.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.pku.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
# 添加清华大学的镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
# 添加南方科技大学的镜像源
conda config --add channels https://mirrors.sustech.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.sustech.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.sustech.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
# 清理一下缓存
conda clean -i
1.代码安装sra-stool工具
如果能顺利安装就是好事,估计大部分的时候可能安装不上~
# 安装前建议先创建环境哈!!
conda install -y sra-tools
2.网页安装sra-tools工具
复制这个Ubuntu linux 64 bit architecture的下载链接下载软件
# 一般会创建一个软件管理文件夹
# 然后cd过去
cd ./biosoft/
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.1.1/sratoolkit.3.1.1-ubuntu64.tar.gz
解压缩软件
tar -zxvf sratoolkit.3.1.1-ubuntu64.tar.gz
加载到环境
echo "export PATH=/home/data/t200558/biosoft/sratoolkit.3.1.1-ubuntu64/bin:\$PATH" >> ~/.bashrc
source ~/.bashrc
# check一下
which fastq-dump
check一下fastq-dump是否存在hhh
参考资料:
sra-tools: https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump