功能基因预测/注释通用工具

文摘   2024-09-25 09:00   浙江  

Introduction

自己整理一些常用的功能基因预测/注释通用工具,因为数量较多,不会写的很仔细,对于每个单独的工具可以进一步找相关教程学习。

基因结构鉴定工具

Prodigal

参考教程:一文读懂Prodigal教程[1]

介绍: Prodigal(Prokaryotic Dynamic Programming Gene-finding Algorithm)是一款用于原核生物基因预测的高效工具,广泛应用于基因组和宏基因组数据分析。

安装

# 下载并解压源代码包:
wget https://github.com/hyattpd/Prodigal/releases/download/v2.6.3/prodigal.linux
chmod +x prodigal.linux
sudo mv prodigal.linux /usr/local/bin/prodigal

# 或者直接用 conda 安装:
conda install prodigal

简单使用

  1. 1. 基因组序列文件中预测基因:

    prodigal -i input.fasta -o genes.gbk -a proteins.faa

GeneMark

参考教程:

  • • GeneMark-ES[2]

  • • GeneMarkS[3]

介绍: GeneMark是一款通用的基因预测工具,适用于原核和真核生物,能够识别复杂的基因结构。

安装

  1. 1. 前往GeneMark官网(http://exon.gatech.edu/GeneMark/)下载相应的版本。

  2. 2. 解压并配置环境变量:

    tar -xzvf genemark.tar.gz
    export PATH=$PATH:/path/to/genemark

简单使用

  1. 1. 对基因组序列文件进行基因预测:

    gmhmmp -m MetaGeneMark_v1.mod -o genes.gff input.fasta

Prokka

参考教程:基因注释Prokka[4]

介绍: Prokka 是一个快速的基因组功能注释工具,能够对细菌、古菌和病毒基因组进行注释。它集成了多个工具,用于基因预测和功能注释,输出标准化的注释结果。

安装

conda install prokka

简单使用

  1. 1. 对基因组序列进行注释:

    prokka input.fasta --outdir annotation_output --prefix sample

RNA鉴定工具

tRNAscan-SE

参考教程:tRNAscan-SE安装使用教程[5]

介绍: tRNAscan-SE 是一款广泛应用的tRNA基因预测工具,能够高效、准确地识别基因组中的tRNA基因。该工具结合了多个算法,以提高预测准确性。

安装: 安装有点麻烦,需要仔细:

  1. 1. 下载并解压源代码包:

    # 自己找一下最新版看看
    wget http://trna.ucsc.edu/tRNAscan-SE.tar.gz
    tar -xzvf tRNAscan-SE.tar.gz
    cd tRNAscan-SE
    ./configure  --prefix=$(pwd)
    make && make install

    #需要调用infernal
    wget -c http://eddylab.org/infernal/infernal-1.1.2-linux-intel-gcc.tar.gz
    tar xzvf infernal-1.1.2-linux-intel-gcc.tar.gz
    cd infernal-1.1.2-linux-intel-gcc/
    ./configure  --prefix=$(pwd)
    make && make install
    cp binaries/*  bin

    # 添加bashrc
    echo "export PATH=$PATH:/path/to/tRNAscan-SE/bin" >> ~/.bashrc
    echo "export PERL5LIB=/path/to/tRNAscan-SE/lib:$PERL5LIB" >> ~/.bashrc
    source ~/.bashrc

    # 需要编辑/path/to/tRNAscan-SE/tRNAscan-SE.conf文件,下面这几行需要修改
    bin_dir: /path/to/tRNAscan-SE/bin
    lib_dir: /path/to/tRNAscan-SE/lib
    infernal_dir: /path/to/infernal-1.1.2-linux-intel-gcc/bin

简单使用

  1. 1. 对基因组序列进行tRNA基因预测:

    tRNAscan-SE -o output.txt input.fasta

ARAGORN

介绍: ARAGORN是一款用于快速和高效识别基因组序列中tRNA和tmRNA基因的工具。它的设计目的是在大规模基因组分析中提供精确的tRNA/tmRNA基因定位。

安装

  • • Conda安装

    conda install -c bioconda aragorn

简单使用

  1. 1. 识别tRNA和tmRNA基因:

    aragorn -i input.fasta -o output.txt

Barrnap

参考教程:Barrnap预测rRNA基因[6]

介绍: Barrnap是一款快速、小巧的rRNA基因预测工具,专为16S、23S和5S rRNA基因的检测而设计,适用于细菌和古菌。

安装

wget https://github.com/tseemann/barrnap/archive/v0.9.tar.gz
tar -xzvf v0.9.tar.gz
cd barrnap-0.9
sudo cp bin/barrnap /usr/local/bin/

#或者conda安装:
conda install -c bioconda -c conda-forge barrnap

简单使用

  1. 1. 对基因组序列进行rRNA基因预测:

    barrnap input.fasta > output.gff

比对软件

我们要对鉴定到的基因进行功能注释,有一些功能数据库具有配套的比对软件,但更多的数据库是只提供序列的,我们需要自己使用一些软件建库比对。

BLAST

参考教程:BLAST教程[7]

介绍: BLAST(Basic Local Alignment Search Tool)是一个广泛使用的基因和蛋白质序列比对工具,能够快速地在数据库中查找与查询序列相似的序列。

安装

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-*.tar.gz
tar -xzvf ncbi-blast-*.tar.gz
cd ncbi-blast-*
# 配置环境变量:
export PATH=$PATH:/path/to/ncbi-blast-*/bin

# 或者conda安装:
conda install -c bioconda blast

简单使用

  1. 1. 创建本地数据库:

    makeblastdb -in database.fasta -dbtype nucl -out mydb
  2. 2. 进行序列比对:

    blastn -query query.fasta -db mydb -out results.txt

DIAMOND

参考教程:DIAMOND: 超快的蛋白序列比对软件[8]

介绍: DIAMOND是一个快速的蛋白质序列比对工具,设计用于比对大规模数据集,速度比BLAST快几个数量级。

安装

wget https://github.com/bbuchfink/diamond/releases/download/v2.0.14/diamond-linux64.tar.gz
tar -xzvf diamond-linux64.tar.gz

# 或者conda安装
conda install -c bioconda diamond

简单使用

  1. 1. 创建本地数据库:

    diamond makedb --in database.fasta -d mydb
  2. 2. 进行序列比对:

    diamond blastp -d mydb -q query.fasta -o results.m8

MMseqs2

参考教程:MMseqs2蛋白质序列快速高效比对工具[9]

介绍: MMseqs2(Many-against-Many sequence searching)是一个快速高效的序列搜索和聚类工具,适用于大规模数据集,这个可以好好学习一下使用,因为速度算是非常快的。

安装

wget https://mmseqs.com/latest/mmseqs-linux.tar.gz
tar -xzvf mmseqs-linux.tar.gz
# 或者conda安装
conda install -c conda-forge -c bioconda mmseqs2

简单使用

  1. 1. 创建本地数据库:

    mmseqs createdb input.fasta mydb
  2. 2. 进行序列比对:

    mmseqs search mydb query.fasta result tmp
    mmseqs convertalis mydb query.fasta result results.m8

在基因组和宏基因组研究中,除了BLAST、DIAMOND和MMseqs2等常用比对软件外,还有一些基于隐马尔可夫模型(HMM)的比对工具,这些工具能够提供更敏感和准确的比对,特别是对于蛋白质家族和结构域的检测。

在基因组和宏基因组研究中,基因和功能注释的比对工具是不可或缺的。以下是一些常用的工具,包括HMM(隐马尔可夫模型)相关的比对软件:

HMMER

参考教程:hmmer 简明教程[10]

介绍: HMMER是一款基于HMM的工具,适用于检测蛋白质家族和结构域。

安装

  • • Conda安装

    conda install -c bioconda hmmer

简单使用

  1. 1. 创建HMM模型:

    hmmbuild mymodel.hmm myalignment.sto
  2. 2. 进行HMM比对:

    hmmsearch --tblout results.tbl mymodel.hmm query.fasta

功能数据库

KEGG

  • • 官网KEGG[11]

  • • 介绍: KEGG (Kyoto Encyclopedia of Genes and Genomes) 是一个综合数据库,提供有关基因组、化学物质和系统功能的信息。它包含了代谢通路、药物、疾病、代谢物等多种数据。KEGG 用于基因和代谢途径的注释,帮助研究人员理解生物体的复杂功能和相互作用。

eggNOG

  • • 官网eggNOG[12]

  • • 介绍: eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups) 是一个用于功能注释和进化学分类的数据库。它通过无监督的方式构建直系同源基因组群,提供高质量的功能预测和注释,广泛应用于基因功能研究和比较基因组学。

Pfam

  • • 官网Pfam[13]

  • • 介绍: Pfam 是一个蛋白质家族数据库,提供已知蛋白质结构域和功能位点的详细信息。每个结构域在数据库中都以隐马尔可夫模型(HMMs)的形式存储,Pfam 用于注释蛋白质序列,帮助研究人员理解蛋白质的结构和功能。

COG

  • • 官网COG[14]

  • • 介绍: COG (Clusters of Orthologous Groups) 数据库针对细菌和古菌,组织和分类了直系同源基因群。COG 提供了跨物种的基因和蛋白质功能注释,帮助研究者识别基因的保守性和功能演化。

InterPro

  • • 官网InterPro[15]

  • • 介绍: InterPro 是一个综合数据库,整合了多个蛋白质家族、结构域和功能位点的资源。它通过统一的注释标准,帮助研究人员分析和理解蛋白质序列的功能。

UniProt

  • • 官网UniProt[16]

  • • 介绍: UniProt 是一个全面的蛋白质序列和功能数据库。它提供了丰富的蛋白质信息,包括序列、功能注释、相互作用、结构等,广泛应用于生物信息学和系统生物学研究。

CAZy

  • • 官网CAZy[17]

  • • 介绍: CAZy (Carbohydrate-Active enZymes) 数据库专注于碳水化合物活性酶,包括糖苷水解酶、糖苷转移酶、多糖裂解酶等。CAZy 用于注释和分类这些酶,帮助研究人员理解碳水化合物代谢和功能。

MEROPS

  • • 官网MEROPS[18]

  • • 介绍: MEROPS 是一个肽酶和肽酶抑制剂的数据库。它分类和注释了各种肽酶及其抑制剂,提供了序列、功能和结构信息,帮助研究人员研究蛋白质降解和调控机制。

TIGRFAMs

  • • 官网TIGRFAMs[19]

  • • 介绍: TIGRFAMs 是一个用于功能和进化注释的蛋白质家族模型数据库。它基于 HMMs,为每个蛋白质家族提供详细的功能注释,广泛用于基因组和代谢途径的研究。

CARD

  • • 官网CARD[20]

  • • 介绍: CARD(The Comprehensive Antibiotic Resistance Database) 是经过严格筛选的、经过同行评审的耐药性决定因素和相关抗生素的集合,由抗生素耐药性本体论 (ARO) 和 AMR 基因检测模型组织而成。

mobileOG-db

  • • 官网mobileOG-db[21]

  • • 介绍: mobileOG-db 是一个用于注释移动基因组的数据库。它基于 HMMs,为每个移动基因组提供详细的功能注释,广泛用于基因组和代谢途径的研究。

元素循环

碳循环

碳循环是指碳在生物圈、大气圈、水圈和岩石圈中的循环过程。它通过光合作用、呼吸作用、分解和燃烧等途径,维持着地球上的碳平衡。碳循环的重要性在于它对气候变化和生态系统健康的影响。

相关信息可以在KEGG找到大部分,甲烷循环部分具有数据库MCycDB[22]

NCycDB

  • • 官网NCycDB[23]

  • • 介绍: NCycDB 是一个专注于氮循环的基因和酶的数据库,包含与氮循环相关的功能基因信息。它有助于研究氮在生态系统中的转化过程,理解氮循环的分子机制。

PCycDB

  • • 官网PCycDB[24]

  • • 介绍: PCycDB 是一个关于磷循环的数据库,提供了磷循环相关基因和酶的信息。该数据库有助于研究磷的生物地球化学循环,了解磷在环境中的迁移和转化过程。

SCycDB

  • • 官网SCycDB[25]

  • • 介绍: SCycDB 专注于硫循环,包含硫循环相关的基因和酶信息。它帮助研究者理解硫在生态系统中的循环过程,分析硫的生物地球化学作用。

AsgeneDB

  • • 官网AsgeneDB[26]

  • • 介绍: AsgeneDB 是一个关于氨基酸循环的数据库,包含氨基酸循环相关的基因和酶信息。它有助于研究氨基酸在生态系统中的循环过程,理解氨基酸的生物地球化学作用。

FeGenie

  • • 官网FeGenie[27]

  • • 介绍: FeGenie 是一个关于铁循环的数据库,包含铁循环相关的基因和酶信息。它有助于研究铁在生态系统中的循环过程,理解铁的生物地球化学作用。

PlasticDB

  • • 官网PlasticDB[28]

  • • 介绍: PlasticDB 是一个关于塑料循环的数据库,包含塑料循环相关的基因和酶信息。它有助于研究塑料在生态系统中的循环过程,理解塑料的生物地球化学作用。

关注公众号,获取最新推送

关注公众号 'bio llbug',获取最新推送。点击阅读原文,阅读体验更佳。

引用链接

[1] 一文读懂Prodigal教程: https://blog.csdn.net/zd200572/article/details/135991053
[2] GeneMark-ES: https://cloud.tencent.com/developer/article/1625152
[3] GeneMarkS: https://cloud.tencent.com/developer/article/2075645
[4] 基因注释Prokka: https://blog.csdn.net/woodcorpse/article/details/106552667
[5] tRNAscan-SE安装使用教程: https://www.jianshu.com/p/92489a720134
[6] Barrnap预测rRNA基因: https://www.jianshu.com/p/8f4061c38508
[7] BLAST教程: https://www.jianshu.com/p/de28be1a3bea
[8] DIAMOND: 超快的蛋白序列比对软件: https://blog.csdn.net/u012110870/article/details/102804629
[9] MMseqs2蛋白质序列快速高效比对工具: https://blog.csdn.net/zrc_xiaoguo/article/details/134747183
[10] hmmer 简明教程: https://www.jianshu.com/p/da21884850ad
[11] KEGG: https://www.kegg.jp/
[12] eggNOG: http://eggnogdb.embl.de/
[13] Pfam: http://pfam.xfam.org/
[14] COG: https://www.ncbi.nlm.nih.gov/research/cog/
[15] InterPro: https://www.ebi.ac.uk/interpro/
[16] UniProt: https://www.uniprot.org/
[17] CAZy: http://www.cazy.org/
[18] MEROPS: https://www.ebi.ac.uk/merops/
[19] TIGRFAMs: https://tigrfams.jcvi.org/cgi-bin/index.cgi
[20] CARD: https://card.mcmaster.ca/
[21] mobileOG-db: https://github.com/clb21565/mobileOG-db
[22] MCycDB: https://github.com/qichao1984/MCycDB
[23] NCycDB: https://github.com/Tu-Lab/NCyc
[24] PCycDB: https://github.com/ZengJiaxiong/Phosphorus-cycling-database
[25] SCycDB: https://github.com/Tu-Lab/SCycDB
[26] AsgeneDB: https://github.com/Asgene/AsgeneDB
[27] FeGenie: https://github.com/Arkadiy-Garber/FeGenie
[28] PlasticDB: https://plasticdb.org


bio llbug
博士生一枚,主攻生物信息学,微生物组,暴露组。分享自己科研道路上的经验方法。
 最新文章