你只管提要求,剩下的交给AI

文摘   其他   2025-01-21 08:13   辽宁  
技术一直都在拉开差距,造成马太效应。AI工具并不能让零基础学生物信息变得简单,相反,是让已经会生物信息的工作起来更高效。这次内容我们拿几个具体的案例测试一下Marscode AI的生物信息能力,看一下AI如何提高工作效率。


利用AI下载生物数据

MarsCode AI可以根据我们的要求自动生成代码,还能生成代码注释,也可以作为聊天工具,通过问答式的方法生成代码和答案。这里面最重要的工作是如何将问题描述清楚,准确的给AI正确的提示,这个也称为“提示工程”。接下来我们就使用AI来下载生物数据,看如何进行提示工程。
输入要求:ensembl下载人基因组。

直接得到下面代码,这个代码是正确的。

#!/bin/bash
# 定义Ensembl的FTP地址和文件名ENSEMBL_FTP="ftp://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/"FILENAME="Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz"
# 创建一个目录来存储下载的文件mkdir -p human_genome# 使用wget下载文件wget -P human_genome $ENSEMBL_FTP$FILENAME# 解压缩下载的文件gunzip human_genome/$FILENAME
但是写到一个脚本中,我们可以继续对话。
提示二:不使用变量。然后输出新的结果。
这次直接得到一行bash命令。

继续提要求,我要下载103的版本。很容易就切掉换到103的版本。

#!/bin/bash
# 直接在一行中执行所有命令mkdir -p human_genome && wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz && gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

接下来继续,提要求下载gtf和gff格式文件。

#!/bin/bash
# 创建一个目录来存储下载的文件mkdir -p human_genome# 下载基因序列文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 解压缩基因序列文件gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 下载GTF文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz# 解压缩GTF文件gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz# 下载基因集文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz# 解压缩基因集文件gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz

继续提要求,按照不同染色体下载,这样就可以将染色体信息拆分开。

#!/bin/bash
# 创建一个目录来存储下载的文件mkdir -p human_genome# 下载基因序列文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 解压缩基因序列文件gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 下载GTF文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz# 解压缩GTF文件gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz# 下载基因集文件wget -P human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz# 解压缩基因集文件gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz

我嫌wget下载速度太慢了,于是想切换到aria2下载,继续提要求,使用aria2进行下载。由于AI要使用上下文,默认它下载是上一步骤中的按染色体下载的代码。这里在给他新增一个要求“不按染色体下载”,AI很聪明的将aria2用于前面不按染色体拆分的地方进行处理。

#!/bin/bash
# 创建一个目录来存储下载的文件mkdir -p human_genome# 下载基因序列文件aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 解压缩基因序列文件gunzip human_genome/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz# 下载GTF文件aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/Homo_sapiens.GRCh38.103.gtf.gz# 解压缩GTF文件gunzip human_genome/Homo_sapiens.GRCh38.103.gtf.gz# 下载基因集文件aria2c -x 16 -s 16 -d human_genome ftp://ftp.ensembl.org/pub/release-103/gff3/homo_sapiens/Homo_sapiens.GRCh38.103.gff3.gz# 解压缩基因集文件gunzip human_genome/Homo_sapiens.GRCh38.103.gff3.gz

代码看不懂也不用担心,其实每一条代码下面都是有详细解释的,包括一些重要选项参数,只不过内容太多,没有截图。

基因学苑
生物云计算专家
 最新文章