基因组组分分析与注释软件汇总

文摘   科学   2024-03-15 21:54   新加坡  

原核生物基因组重复序列预测:RepeatMaskerv
https://www.repeatmasker.org/
预测基因组中的tRNA:tRNAscan-SE
安装方法:https://www.yisu.com/zixun/579865.html
预测基因组中的rRNA以及除了tRNA和rRNA之外的其它ncRNA:Infernal基于 Rfam 数据库
使用时通过perl运行,安装教程:https://zhuanlan.zhihu.com/p/383837357?utm_id=0
假基因(pseudogene):GenBlastA & GeneWisewise
利用已预测得到的蛋白序列与Swiss-Prot数据库中收录的蛋白序列,通过软件GenBlastA比对,在基因组上寻找同源的基因序列(可能的基因),然后利用软件GeneWisewise寻找基因序列中的不成熟的终止密码子及移码突变,得到假基因。
GenblastA  http://genome.sfu.ca/genblast/download.htmlGeneWisewise 安装方法:https://www.bilibili.com/read/cv16394882/
CRISPR序列预测:CRISPR Recognition Tool (CRT)
长度约30bp的"spacerDNA"。在原核生物中,CRISPR起到免疫系统的作用,对外来的质粒和噬菌体序列具有抵抗作用。CRISPR能识别并使入侵的功能元件沉默。
CRISPR Recognition Tool (CRT)下载和使用方法: https://blog.csdn.net/weixin_51910597/article/details/13644142
基因岛: IslandPath-DIMOB
与多种生物功能相关,如共生关系和发病机理,生物体的适应性等。基因岛基于其功能的不同可以划分为不同的子类,如病原性基因岛(pathogenicityisland(PAIs))与发病机理相关,抗生素抗性岛包含许多抗生素抗性基因。相同的基因岛能在近缘物种上发生各种的水平基因转移。可通过比较分析来识别, 例如系统发育分析。
在细菌中,很多三型分泌系统和四型分泌系统都位于基因岛区域中。这些基因岛通常都在10kb大小以上,与tRNA编码基因相关,GC含量也与基因组其它序列有所差异。
IslandPath-DIMOB 安装使用教程:https://www.liaochenlanruo.fun/post/5324.html
前噬菌体预测:PhiSpy
整合在宿主基因组上的温和噬菌体的核酸称之为前噬菌体(prophage)。基因组上带有前噬菌体的菌称为溶源菌,它们具有无需由外部感染而可产生噬菌体的遗传能力,并且这种能力可传递给后代。
前噬菌体序列的存在可能也会允许一些细菌获取抗生素抗性,增强对环境的适应性,提高粘附力或使细菌成为致病菌。
 PhiSpy下载:https://github.com/linsalrob/PhiSp 使用教程:https://zhuanlan.zhihu.com/p/669659453

基因组功能注释
利用预测得到的基因序列与COG、KEGG、Swiss-Prot、TrEMBL、Nr等功能数据库做BLAST比对,得到基因功能注释结果。
UniProt数据库
整合了SwissProt,TrEMBL,Pir三家数据库的资源构建了通用蛋白质数据库。
基于Nr数据库比对结果,应用软件Blast2GO进行GO数据库的功能注释。利用软件hmmer基于 Pfam数据库进行 Pfam 功能注释。
NR库下载ftp下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/COG库:ftp://ncbi.nlm.nih.gov/pub/COGSWISS-PROT:http://www.ebi.ac.uk/swissprot/KEGG:http://www.genome.ad.jp/kegg/Blast2GO:https:/hmmer:http://www.hmmer.org/

Nr数据库的全称是Non-RedundantProtein Database,是一个非冗余的蛋白质数据库,该数据库含有全面的蛋白序列和注释信息。该数据库中部分蛋白序列和注释信息未经过验证,可靠性有待提高。
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各 种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。
SwissProt 数据库是一个人工注释的非冗余高质量蛋白序列数据库,其特点是注释结果有相应实验验证,可靠性较高。
Pfam 数据库是一种包含注释信息和多序列比对信息的蛋白家族数据库,其中的多序列比对信息是由隐马尔科夫模型产生。该数据库提供了较为完整和精确的蛋白家族和功能域的分类信息。


专有数据库注释
利用预测得到的基因的蛋白序列与转运蛋白分类数据库(TCDB)、病原体-宿主互作因子数据库(PHI)、 抗生素抗性基因数据库(ARDB)、毒力因子数据库(VFDB)等功能数据库做BLAST比对,得到相应的注释结果。另外,利用软件hmmer基于碳水化合物相关酶数据库(CAZyme)进行碳水化合物酶类基因的功能注释
CAZy 数据库注释
http://www.cazy.org/。
该数据库主要包含与糖苷键降解、修饰及生成相关的酶类家族。主要包含 5 大分类:糖苷水解酶(Glycoside Hydrolases,GHs)、糖基转移酶(Glycosyl Transferases,GTs)、多糖裂解酶 (Polysaccharide Lyases,PLs)、碳水化合物酯酶(Carbohydrate Esterases,CEs)、辅助活性酶(Auxiliary Activities,AAs)。
此外,该数据库还包含与碳水化合物结合相关的酶(Carbohydrate-BindingModules,CBMs)。
TCDB 数据库注释
http://www.tcdb.org/
TCDB 是对膜转运蛋白进行分类的数据库, 类似于对酶进行分类的EC系统。TC 分类系统包含5个层级,因此, TCNumber 包含5个数字或者字母, 每个数字或字母实际代表某一个层级的分类。
PHI 数据库注释
http://www.phi-base.org/index.jsp教程:https://zhuanlan.zhihu.com/p/651812854
PHI(病原宿主互作数据库),收录了经过实验验证或文献报道的能够感染动植物、真菌和昆虫的细菌、真菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,还收录了抗真菌化合物及其靶基因。
ARDB 数据库注释
https://ardb.cbcb.umd.edu/
Antibiotic Resistance Genes Database
生素抗性基因数据库,收录了细菌耐药基因,
VFDB 数据库注释
http://www.mgc.ac.cn/VFs/
virulence factor database
毒力因子数据库,用于识别细菌中含有的毒力因子。

小林的实验方法记录本
或许我的实验方法可以帮到你~
 最新文章