技术一直都在拉开差距,造成马太效应。AI工具并不能让零基础学生物信息变得简单,相反,是让已经会生物信息的工作起来更高效。这次内容我们拿几个具体的案例测试一下Marscode AI的生物信息能力,看一下AI如何提高工作效率。
利用AI下载生物数据
直接得到下面代码,这个代码是正确的。
# 定义Ensembl的FTP地址和文件名
ENSEMBL_FTP="ftp://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/"
FILENAME="Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz"
# 创建一个目录来存储下载的文件
mkdir -p human_genome
# 使用wget下载文件
wget -P human_genome $ENSEMBL_FTP$FILENAME
# 解压缩下载的文件
gunzip human_genome/$FILENAME
继续提要求,我要下载103的版本。很容易就切掉换到103的版本。
# 直接在一行中执行所有命令
mkdir -p human_genome && wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz && gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
接下来继续,提要求下载gtf和gff格式文件。
# 创建一个目录来存储下载的文件
mkdir -p human_genome
# 下载基因序列文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 解压缩基因序列文件
gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 下载GTF文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz
# 解压缩GTF文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz
# 下载基因集文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz
# 解压缩基因集文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz
继续提要求,按照不同染色体下载,这样就可以将染色体信息拆分开。
# 创建一个目录来存储下载的文件
mkdir -p human_genome
# 下载基因序列文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 解压缩基因序列文件
gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 下载GTF文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz
# 解压缩GTF文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz
# 下载基因集文件
wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz
# 解压缩基因集文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz
我嫌wget下载速度太慢了,于是想切换到aria2下载,继续提要求,使用aria2进行下载。由于AI要使用上下文,默认它下载是上一步骤中的按染色体下载的代码。这里在给他新增一个要求“不按染色体下载”,AI很聪明的将aria2用于前面不按染色体拆分的地方进行处理。
# 创建一个目录来存储下载的文件
mkdir -p human_genome
# 下载基因序列文件
aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 解压缩基因序列文件
gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 下载GTF文件
aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz
# 解压缩GTF文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz
# 下载基因集文件
aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz
# 解压缩基因集文件
gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz
代码看不懂也不用担心,其实每一条代码下面都是有详细解释的,包括一些重要选项参数,只不过内容太多,没有截图。