China National Center for Bioinformation (CNCB)(中国国家生物信息中心)是我们国家层面设立的生物信息学研究与数据资源中心。它是生命科学和生物医学领域的重要基础设施,专注于生物信息数据的存储、分析和共享,为生物医学研究提供强大的数据支持和计算资源。目前越来越多的数据存储在该平台上面了,因此也有必要学习一下如何下载该平台中的数据~
分析流程
HRA003340鼻咽癌数据如果还没有安装Anaconda需要先安装一下
# 自行去官网查看一下最新版本
wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh
# 设置执行权限
chmod +x Anaconda3-2024.10-1-Linux-x86_64.sh
# 安装脚本
./Anaconda3-2024.10-1-Linux-x86_64.sh
# 添加环境变量
source ~/.bashrc
# 设置国内的镜像源(北师大/清华/西湖 自选)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
1.使用Aspera下载
需要在下载页面中把秘钥文件下载下来,之后需要把秘钥文件的路径输入进命令中值得一提的是,不同数据库中使用的秘钥是不一样的,有可能会需要本地的秘钥路径。
同时我们也需要下载安装一下aspera,如果命令行下载失败的话就需要去官网下载
# 可以尝试直接安装
conda install -y -c hcc aspera-cli
# 如果不行那就直接去官网下载,之后本地安装(版本替换成下载的)
tar xvf ibm-aspera-connect_4.2.12.780_linux_x86_64.tar.gz
# 安装aspera
sh ibm-aspera-connect_4.2.12.780_linux_x86_64.sh
# 找到秘钥
/home/data/t200558/NPCdata/HRA003340/aspera01.openssh
# 手动设置PATH
export PATH=$PATH:/home/data/t200558/.aspera/connect/bin
# 找到ascp的保存路径
which ascp
/home/data/t200558/.aspera/connect/bin/ascp
[path/to/ascp]:替换为ascp可执行文件的完整路径;
[path/to/key/file]:替换为用于身份验证的私钥文件的路径;
[/your/local/path]:文件保存路径
# 官网示例代码
[path/to/ascp] -P33001 -i [path/to/key/file] -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa-human/HRA003340 /your/local/path
正式开始下载
nohup /home/data/t200558/.aspera/connect/bin/ascp -P33001 -i /home/data/t200558/NPCdata/HRA003340/aspera01.openssh -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa-human/HRA003340 /home/data/t200558/NPCdata/HRA003340/ > download.log 2>&1 &
# check一下
tail -f download.log
2.使用Edge turbo下载数据
目前对于该平台中的数据,专门有一个软件进行下载,这个软件是Edge turbo。软件准备:开发者建议用户在home目录中进行解压。解压后会在当前目录下增加 edgeturbo client
# 下载
wget https://ngdc.cncb.ac.cn/ettrans/download/edgeturbo-client.linux.latest.cncb.tar.gz
# 解压缩
tar -zxvf edgeturbo-client.linux.latest.cncb.tar.gz
# 添加环境
source ~/.bashrc
笔者最终还是把文件复制到了home目录下
关键参数
# 启动客户端
edgeturbo start
# 重新启动客户端
edgeturbo restart
# 停止客户端
edgeturbo stop
# 下载
edgeturbo download/dl <remote_path> [Llocal_path]
# 删除任务——按d或者D键
# 暂停任务——按p或者P键
# 任务续传——按r或者R键
# 删除传输任务
edgeturbo rm 74d64a0244d9
# 删除所有任务
edgeturbo rm
# 查看任务状态
edgeturbo ps
edgeturbo
# 设置本地下载目录
edgeturbo set /home/lnjoying/mydownload
# 查看帮助
edgeturbo help
开始下载
突然发现这个鼻咽癌的数据集没有EdgeTurbo下载入口,只能更换一个数据尝试一下了hhh(这就尴尬了,看来还是aspera更便利)。
# 启动
edgeturbo start
# 下载
edgeturbo download/gsa/CRA007099/CRR511439
参考资料:
Edge turbo客户端(网上直接搜索即可)。 生信技能树:https://mp.weixin.qq.com/s/dbP5t_vXK4q917UEKrSwIw
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟
- END -