写在前面的话
注释信息对于单组学或不同组学都是相当重要,基因,蛋白,微生物,代谢物都有着常见使用的注释数据库,能够快速了解实验组的功能改变。功能分析作为组学文章的一大关键部分,分为
1)无预期结果的开放性探索。可使用数据库进行功能富集挑选实验室涉及的研究,进行试验验证。
2)有预期的结果。筛选纳入的基因,使用的数据库,分析方法都是可进行选择的。
下文针对基因和蛋白常用数据库进行简单介绍和描述。
NR
# Non-redundant protein sequence database
ftp://ftp.ncbi.nih.gov/blast/db/
NCBI中的非冗余蛋白质数据库,包含了Swissprot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息
Swissprot
# A manually annotated, non-redundant protein sequence database
http://www.uniprot.org/
由EBI(欧洲生物信息学研究所)负责维护的数据库,包含了有相关参考文献且经过校对的蛋白质注释信息数据库,可信度很高
COG
# The database of Clusters of Orthologous Groups of proteins
http://www.ncbi.nlm.nih.gov/COG/
对基因产物进行同源分类的数据库,是一个较早的识别直系同源基因的数据库,通过对多种生物的蛋白质序列大量比较而来的
KOG
# The database of Clusters of Protein homology
https://ftp.ncbi.nih.gov/pub/COG/KOG/
针对真核生物,基于基因直系同源关系,结合进化关系将来自不同物种的同源基因分为不同的Ortholog簇,目前KOG有4852个分类。来自同一Ortholog的基因具有相同的功能,这样就可以将功能注释直接继承给同一KOG簇的其他成员
InterPro
# The database of Homologous protein family
https://www.ebi.ac.uk/interpro/
最全面的蛋白结构域注释的分类系统。蛋白质是由一个个结构域组成的,而每个特定结构域的蛋白序列具有一定保守性。将蛋白质的结构域分为不同的蛋白家族,通过蛋白序列的比对建立了每个家族的氨基酸序列的HMM统计模型
GO
# Gene Ontology database
http://www.geneontology.org/
国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的功能属性。该数据库总共有三大类,分别是分子功能 (molecular function),细胞组分 (cellular component) 和生物学过程 (biological process),各自描述了基因产物可能行使的分子功能,以及所处的细胞环境和参与的生物学过程。GO数据库中最基本的概念是Term,每个条目都有一个Term名,比如"cell"、"fibroblast growth factor receptor binding"或者"signal transduction",同时有一个唯一的编号,形如GO:nnnnnnn
KEGG
# The database of Kyoto Encyclopedia of Genes and Genomes
http://www.genome.jp/kegg/
系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(PATHWAY)、药物(DRUG)、疾病(DISEASE)、基因序列 (GENES) 及基因组 (GENOME) 等。利用该数据库有助于把基因及表达信息作为一个整体的网络进行研究
Reactome
# Find Reactions, Proteins and Pathways
https://reactome.org/
免费的、开源的通路数据库。由生物学专家与Reactome编辑人员合作编写,并交叉引用许多生物信息学数据库。为功能通路富集知识的可视化、解释和分析提供直观的生物信息学工具,以支持基础研究、基因组分析、建模、系统生物学和教育
GSEA
# Gene Set Enrichment Analysis
https://www.gsea-msigdb.org/gsea/index.jsp
基因集合富集分析(GSEA)是一种计算方法,用于确定一组先验定义的基因是否在两种生物状态(如表型)之间表现出统计意义上的显著一致差异。提供分子签名数据库(MSigDB),整合成千上万个注释基因集合的资源,包含人和小鼠
Biocarta
# Online maps of metabolic and signaling pathways
https://maayanlab.cloud/Harmonizome/dataset/Biocarta+Pathways
广泛收集了描述常见代谢途径、信号转导途径以及其他生化途径的图谱。对重要资源进行了分类和总结,提供了来自多个物种的超过120,000个基因的信息。结合Cell Signaling Technology的数据库使用
CST
# Cell Signaling Technology
https://www.cellsignal.com/pathways
以蛋白质复合物信号为主的通路数据库。数据库资源提供了对相关细胞过程、结构和相关疾病的见解,以帮助您识别相关蛋白质和细胞机制,以便在您的研究中进行调查。每个集合都是由CST的科学家和外部专家开发和策划的