GO数据库(https://www.geneontology.org/)
该数据库由基因本体论联合会建立,将全世界所有与基因有关的研究结果进行分类汇总。对不同数据库中关于基因和基因产物的生物学术语进行标准化,对基因和蛋白功能进行统一的限定和描述,算是转录组分析中注释和富集最常用的数据库了。
该数据库主要有三个部分组成:BP(Biological Process),生物过程;MF(Molecular Function)分子功能;CC(Cellular Component),细胞组分。这三大分支下一级又分很多小层级,级别数字越大,功能描述越细致。
KEGG(http://www.genome.jp/kegg/)
KEGG是一个包含生物信息学数据库和相关工具的综合性资源,旨在帮助我们理解生物系统的功能和组成。KEGG数据库包含了多种生物信息学数据,包括基因组、代谢途径、疾病和药物等信息。数据库分为三个级别,第一级分为七个大类:代谢途径(Metabolic Pathways)、遗传信息处理(Genetic Information Processing)、环境信息处理(Environmental Information Processing)、细胞过程(Cellular Processes)、有机系统(Organismal Systems)、人类疾病(Human Diseases)和药物开发(Drugs Development),富集分析结果中我们常见的**pathway属于第三级描述。
数据库还提供了一系列工具和资源,如KEGG Pathway,KEGG BRITE,KEGG Orthology等,帮助我们进行生物信息学分析和研究。
常见KEGG数据库比对结果解读:善用KEGG数据库挖掘目的基因
NR(ftp://ftp.ncbi.nih.gov/blast/db)
NR全称为Non-Redundant Protein Database,是一个非冗余的蛋白质数据库,由NCBI创建并维护,内容比较全面,涵盖了广泛的生物物种,包括细菌、真菌、植物、动物等。同时注释结果中会包含有物种信息,可作物种分类用。
Pfam(http://pfam.xfam.org/)
Pfam数据库是一个大型的蛋白质家族集合,其中每个家族都由多序列比对和隐马尔可夫模型(HMMs)来表示。蛋白质通常由一个或多个功能区域组成,这些区域通常被称为结构域。不同结构域的组合产生了自然界中发现的各种蛋白质。因此,确定蛋白质中出现的结构域可以深入了解其功能。
该数据库的使用方式多样,例如可以分析蛋白质序列以查找Pfam匹配、查看Pfam注释和比对、查看相关条目组、查看蛋白质序列的结构域组织、查找 PDB 结构上的结构域,或通过关键字查询 Pfam 等。
KOG(ftp://ftp.ncbi.nih.gov/pub/cog/kog/)
KOG数据库(euKaryotic Orthologous Groups)是真核生物的直系同源蛋白数据库,它是由NCBI创建并维护的。通过对多种真核生物的蛋白质序列进行比较和分析构建而成的。该数据库可以将某个蛋白序列与KOG数据库进行比对,可以推测序列的功能。构成每个KOG的蛋白被假定为来自于一个祖先蛋白,这些蛋白可能是orthologs(来自于不同物种的由垂直家系进化而来的蛋白,通常保留与原始蛋白相同的功能)或者paralogs(在一定物种中来源于基因复制的蛋白,可能进化出新的与原来有关的功能)。
EggNOG(http://www.ncbi.nlm.nih.gov/COG)
EggNOG(evolutionary genealogy of genes: non-supervised orthologous groups)数据库是由EMBL创建并维护的直系同源蛋白分组比对数据库,它是对NCBI的COG数据库的拓展。EggNOG采用基于图状结构的非监督聚类算法,构建了真核、原核、病毒等不同物种的同源蛋白簇。
该数据库提供了不同分类水平蛋白的直系同源分组(orthologous groups,OG),并对每个同源基因类进行了系统发育树构建、HMM模型构建、GO注释、KEGG pathway注释、SMART/FPAM结构域注释、CAZyme注释等。通过鉴定蛋白与该数据库的比对,可以预测蛋白质的功能。
Swissprot(http://web.expasy.org/docs/swiss-prot_guideline.html)
Swissprot数据库是经过注释的蛋白序列数据库,由欧洲生物信息学研究所(EBI)维护。每个条目包含蛋白质序列、引用文献、分类学信息和详细注释等。注释内容包括蛋白质的功能、转录后修饰、特殊位点、二级结构等信息,具有较高的准确性和可靠性。
Swissprot数据库中的数据经过了人工校验,冗余度较小,是一个高质量的蛋白质序列数据库。它主要来自文献中的研究成果和经过e-value校验过的计算分析结果,只有有质量保证的数据才会被加入该数据库。
TrEMBL(https://www.uniprot.org/)
TrEMBL是UniProt(Universal Protein Resource,通用蛋白质资源)数据库的一部分。
String(https://string-db.org/)
STRING数据库是一个用于检索已知蛋白和预测蛋白之间相互作用的综合性数据库。它收集了多个公共数据库的信息,并整合了这些数据来生成蛋白质相互作用网络。
该数据库涵盖了来自5090个物种的两千四百多万种蛋白质(截至2019年,包含5090个物种、24,584,628个蛋白、3,123,056,667个相互作用),其数据来源包括基因组预测、高通量实验、共表达实验、自动化文本挖掘以及其他数据库等;不仅提供了蛋白质相互作用网络的可视化,还能提供蛋白质家族、途径、亚细胞定位等信息,并且具有一些分析工具,如聚类分析、GO富集分析和KEGG富集分析等,可帮助使用者更好地分析网络图,找到有意义的生物学命题。
UniProt(https://www.uniprot.org/)
(1)搜索框:在页面的上半部分有一个搜索框,可以通过输入关键词进行搜索。
(2)高级搜索:点击页面上方的“Advanced”按钮,可以使用更复杂的搜索选项,如物种、序列等。
之后是[Names&Taxonomy]即名称与分类板块,这里介绍了FABP蛋白的命名和来源种属、NCBI分类编号、分离族谱、种属详细信息、蛋白组学信息等。
再接下来的几个板块和蛋白实验息息相关,包括[Subcellular location]亚细胞定位、[PTM/Processing]翻译后修饰、[Expression]表达情况、[Interaction]蛋白相互作用等
在做WB实验时我们往往会发现一些蛋白的实际检测分子量和期望分子量有一定的差异,这时我们就可以运用[Sequence]蛋白序列与翻译后修饰板块进行比对,有了这些信息我们便能轻松预测正确的WB条带位置。例如FABP蛋白,Mass(Da)显示其分子量约为15kDa。还有一种可能,实际的WB条带比15kDa更大,造成这样差值的原因可能是翻译后有修饰残基。
总之,基因功能注释的数据库在生物学领域发挥着至关重要的作用,是生物学家们不可或缺的工具,为我们揭示基因的奥秘提供了有力支持。随着技术的不断进步,这些数据库将不断完善和更新,为生物学研究带来更多的惊喜和突破。
欢迎有分析需求的各位老师前来咨询,爱基强大的生信分析团队将尽可能为您提供帮助。
武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne® DD、DNBelabC-TaiM4和Stereo-seq等实验平台,不断提升公司的科研服务能力。
精选合集,欢迎收藏哟!