联川生物转录组经典数据库——GO基因本体数据库

企业   科学   2024-09-12 17:01   浙江  



1.什么是GO?


GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。





2.基因本体论(gene ontology)的建立


现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上,这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于抗生素治疗的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

GeneOntology(GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:FlyBase(果蝇数据库Drosophila),Saccharomyces Genome Database(酵母基因组数据库SGD)和the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的受体酪氨酸激酶,这种结构允许在各种水平添加对此基因产物特性的认识。

GO发展了具有三级结构的标准语言(ontologies),根据基因产物的相关分子功能、生物学途径、细胞学组件而给予定义,无物种相关性。


(1)分子功能(Molecular Function,MF)

单个的基因产物(包括蛋白质和RNA)或多个基因产物的复合物在分子水平上的活动,比如“催化”、“转运”,需要注意的是,这里的描述只表示活动,而不指定执行功能的实体(分子或复合物),动作发生的地点、时间或背景,广义上的例子是催化活性和转运蛋白活性,具体的例子是腺苷酸环化酶活性或Toll样受体结合,为避免基因产物名称与其分子功能之间的混淆,GO分子功能通常附加“活性(activity)”一词。比如,蛋白激酶(protein kinase)具有GO分子功能:蛋白激酶活性(protein kinase activity)。

(2)细胞组分(Cellular Component,CC)

细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网、核或核糖体、蛋白酶体等)。

(3)生物过程(Biological Process,BP)

通过多种分子活动完成的生物学过程,广义上的例子是DNA修复或信号转导。更加具体的例子是嘧啶核苷生物合成过程或葡萄糖跨膜转运,需要注意的是:生物学过程不等同于通路。目前,GO没有表示完整的通路信息所需的动力学或依赖性的描述信息。




3. GO术语的构成


(1)基本要素

唯一标识符(GO ID)和名称:比如GO:0005739、GO:1904659、GO:0016597和线粒体、葡萄糖跨膜转运、氨基酸结合

方面:该术语属于细胞成分、生物过程或分子功能的哪一个(三大类分类的哪一个)。

定义:术语的文字描述以及信息来源的引用。

关系:该术语与本体中其他术语的关系。例如,葡萄糖跨膜转运(GO:1904659)是单糖转运(GO:0015749)。


(2)可选要素

次级ID(备用ID):当两个或多个术语的含义相同并且合并为一个术语时,就会出现辅助ID。所有术语ID都会保留下来,因此不会丢失任何信息(例如,合并ID的注释)。

同义字:含义与术语名称紧密相关的替代字词或短语,表示名称与同义词范围所赋予的同义词之间的关系。GO同义词的范围是:

相同*Exact*:术语名称可以互换;例如“鸟氨酸循环”是“尿素循环”的确切同义词;

广义*Broad*:同义词比术语名称更广泛;例如“细胞分裂”是“胞质分裂”的广义同义词;

狭义*Narrow*:同义词比术语名称更具体或更精确;例如“用光裂酶修复嘧啶二聚体”是“光反应性修复”的狭义同义词;

相关*Related*:术语以不精确的方式相关;例如“细胞色素bc1复合体”是“泛醇-细胞色素c还原酶活性”的相关同义词,“毒力”是“发病机理”的相关同义词;

自定义同义词类型也用于本体中。例如,许多同义词被指定为系统同义词,此类型的同义词是术语名称的确切同义词。


(3)关系的描述

GO以图的形式构建,术语作为同种的节点,术语间的关系(对象属性)作为连接。

节点node:是指GO术语

父级parent:是指更靠近图的根的节点

子级child:是指更靠近叶节点的节点;对于is_a和part_of关系,父级是一个更宽泛的GO术语,而子级是一个更具体的术语

箭头arrowhead:指示关系的方向

虚线Dotted lines:表示推断的关系,即本体中未明确说明的关系


4.节点的连接

GO图中的节点与其他节点可以具有任意数量和类型的关系,就像层次结构,例如,家谱或一个物种的分类法

一个节点可能与多个子节点(更特定的节点)具有连接,也可以具有多个父节点(较宽的节点)

利用关系与关系间的连接可以推断相应的分组注释,节点间关系的推断,这个会在后面详细研究。

上图表示:A is a B,B is part of C,所以可以推断A is part of C

节点间总体与部分关系:

一个节点可能与一个节点有一部分关系。下图说明了这一点:

上图:mitochondrion 是两个节点的子节点:it is an organelle and it is part of the cytoplasm;organelle 有两个子节点:mitochondrion is an organelle,and organelle membrane is part of organelle




5.GO的主要关系


我们将上面的关系图简化表示为箭头导向图,这是图中常见的关系表示,其中包括4种关系:is a、part of、has part、regulates,接下来我们详细介绍这四种关系:


5.1..is a

如果我们说 A is a B,则意味着节点A是节点B的子类型。例如,“有丝分裂细胞周期”是“细胞周期”,或者“裂解酶活性”是“催化活性”。

应该注意的是,a并不代表实例。从本体论上来说,一个实例是某个事物的具体示例。例如猫是哺乳动物,但加菲猫是猫的实例,而不是猫的亚型。GO中的术语表示实体或现象的类别,而不是特定的表现形式(或实例)。但是,如果我们知道猫是哺乳动物,则可以说猫的每个实例都是哺乳动物。

使用 is a 对批注进行分组是安全的。例如,如果将基因产物X注释为具有酪氨酸激酶活性,并且本体论证明酪氨酸激酶活性是激酶活性的一种(类型),那么我们可以安全地得出结论,基因产物X具有激酶活性。

利用上面得到结论,我们可以将is a关系和其他关系类型结合来推断,下图表示了可以推断的关系:


5.2.part of

关系的一部分用于表示整个部分的关系。part of只有当B一定是A的一部分时,才会在A和B之间形成部分关系:无论B存在于何处,它都是A的一部分,B的存在意味着A的存在。但是,考虑到A的出现,我们不能肯定地说B的存在。

使用的part of进行分组注释是安全的。例如,如果将基因产物X标注为位于线粒体内膜上,而本体论记录了线粒体内膜与线粒体之间的关系的一部分,则可以安全地得出结论X位于线粒体内。

利用上面得到结论,我们可以将part of关系和其他关系类型结合来推断,下图表示了可以推断的关系:

5.3.has part

has part是对关系部分的逻辑补充,它从父级的角度代表了“部分-整体”关系。

与part of一样,GO关系has part仅在A始终将B作为一部分的情况下使用,即A必定具有B的部分。但是,如果B存在,我们不能肯定地说A存在。即所有A都有B部分,但是A只是B的一部分。

使用has part注释进行分组是不正确的。例如,我们可以在本体论中断言受体酪氨酸激酶活性具有部分激酶活性。然而,将所有注释归类到受体酪氨酸激酶活性下的激酶活性将是不正确的。

利用上面得到结论,我们可以将has part关系和其他关系类型结合来推断,下图表示了可以推断的关系:

5.4.regulates

一种过程直接影响另一种过程或质量的表现,即前者调节后者。调节的目标可以是另一种过程,例如调节途径或酶促反应,或者可以是质量,例如细胞大小或pH。与part of关系类似,该关系专门用于表示必定的调节:如果同时存在A和B,则B总是调节A,但是A可能不总是受B调节,即所有B都调节A;一些A受B调节。

如果将基因产物X注释为参与调节糖酵解的过程,则不能得出结论X参与糖酵解是不正确的。但是,某些工具使用调节关系来对批注进行分组,这可用于基因集富集,所得的基因集包括与分组术语有因果关系的过程中涉及的基因。

利用上面得到结论,我们可以将regulates关系和其他关系类型结合来推断,下图表示了可以推断的关系:



GO的注释(Annotation)


那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO术语。每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。

并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能、生物途径、定位等,而并不包括其在突变或病理状态下的情况。GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间联系的证据。





GO文件格式


GO的所有数据都是免费获得的。GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。这些数据格式都可以在GO ftp的站点上下载。XML和MySQL文件是被储存于独立的GO数据库中。

如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。




GO扩充分析


GO的主要用途之一是对基因集进行富集分析。例如,给定一组在某些条件下上调的基因,富集分析将使用该基因集的注释发现哪些GO项被过度代表(或代表不足)。




扩充分析工具


用户可以直接从GOC网站的主页。此服务从黑豹分类系统,通过GO注释保持最新。PANTHER分类系统在MiHetal,PMID:23868073。这支持的基因ID列表可从PANTHER网站获取。




GO富集分析


使用GO富集分析工具


1.在http://geneontology.org/网址框内粘贴或输入想要分析的基因名称,每行一个或用逗号分隔。该工具可以处理MOD特异性基因名称和UniProt ID(例如Rad54或P38086)。


2.选择GO方面(分子功能、生物过程、细胞成分)进行分析(默认为生物过程)。


3.选择您的基因来自的物种(默认为人类)。


4.点击Launch按钮。请注意,您将能够在后面的步骤中上传参考(也称为“背景”)列表。

5.您将被重定向到PANTHER网站上的结果。这些结果基于您在步骤3中选择的基因组中所有蛋白质编码基因集的富集。


解释结果表


结果页面显示一个表格,其中列出了重要的共享GO术语(或GO术语的父项),用于描述用户在前一页上输入的基因集、背景频率、样本频率、预期的p值、每个术语的过度/不足的指示以及p值。此外,结果页面还显示分析中使用的所有条件,任何未解析的基因名称都将列在表格顶部。


背景频率和采样频率


背景频率是整个背景集中注释为GO项的基因数,而样本频率是输入列表中注释到该GO项的基因数。例如,如果输入列表包含10个基因,并且对背景集包含6442个基因的酿酒酵母的生物过程进行富集,则如果10个输入基因中有5个被注释为GO项:DNA修复,则DNA修复的样本频率将为5/10。然而,如果所有酿酒酵母基因组中有100个基因被注释为DNA修复,那么背景频率将是100/6442。


符号+和-表示术语的代表性过高或不足。

P值


P值是在整个基因组中看到注释为该GO项的基因的比例,在注释为特定GO项的列表中的n个基因总数中至少看到x个基因的概率或机会。也就是说,将用户列表中的基因共享的GO项与注释的背景分布进行比较。p值越接近于零,与基因组相关的特定GO项就越重要(即观察到的特定GO项对一组基因的注释偶然发生的可能性越小)。


换句话说,在搜索过程本体时,如果一组中的所有基因都与“DNA修复”有关,那么这个术语将是重要的。然而,由于基因组中的所有基因(带有GO注释)都与顶级术语“biological_process”间接相关,因此如果一组中的所有基因都与这个非常高级别的术语相关联,那么这并不重要。




GO数据库的查找和浏览FAQ


1.如何搜寻注释?

使用AmiGO浏览器,可以在所有参与的数据库中搜寻一个特定的注解。AmiGO允许使用GO术语或基因产物的搜寻。搜寻结果包括GO对这个术语的等级分级情况、定义和近义结构、外部链接、所有相联系的基因产物和它的下一级术语。

2.如何得到全部的GO注释?

在GO网站上,基因产物与GO联系的组信息都有提供。这些文件储存了基因/基因产物的ID和引用文献等支持证据(如FlyBase基因ID、SWISS-PROT蛋白ID),在ftp站点上都可以获得。

3.GO id查询

在一些模式生物中,一个基因通常有多个与之相关的核苷酸序列,如EST、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association)查询到基因获得ID(gene accession ID),或是分别在Compugen中查询大的转录产物(transcipt)和SWISS-PROT/TrEMBL中查询蛋白。

4.如何得到由GO术语注解的蛋白序列?

在GO网页上选择能查询到所有数据库的Amigo浏览器,键入GO术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最底端把选项拖至“get fasta sequence”区域,再确定即可。



GO的应用


GO的局限性


1.GO不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。

2.GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:

a.更新速度较慢

b.由于每个人对数据定义的方式不同,标准难以达到一致。

c.GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。

3.GO是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)


用于基因组分析


基因组和全长cDNA序列工程通常会根据序列的相似性,推测基因与已注释的基因功能类似。现在最常用的手段是在SWISS-PROT序列中设定一个相似性的域值,使用计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO注释(被标记为“根据电子注释推测”)。一个GO的重要应用方面是对于一个GO术语,能形成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合物代谢时,所有这些基因产物都会聚集到一起。GO计划为每一个高频出现的术语建立文档总汇,现在有些已经在“GO Slim”中实现了。


用于基因表达分析


如在芯片数据中引入GO注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位于同一个细胞部位的。如果未知基因和一些已被GO过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表达芯片数据,并且又能结合GO注释的软件已产生。EBI提供的Expression Profiler和EP:GO都具有此功能。

如上所述,GO的三层结构是分子功能、生化途径和细胞组件。GO包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO格式的平板文件,XML作为可以用于三种本体论和所有定义的文件格式也有提供。这些文件都在每月的1日更新,GO每月将给出月份更新报告。



GO的使用和引用


GO的使用


基因本体论联合会是由国家人类基因组研究所(NHGRI)的R1拨款所赞助,此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。Gene OntologyTM由AstraZeneca公司提供资金赞助,而SGD小组得到了Incyte Genomics的赞助。

GO数据库中的术语、注释等都属于公共范畴。GO的资源是免费的,但是必须在以下三种情况下使用:

1.必需引用基因本体论联合会。

2.所使用的GO文件必需标明GO的版本号和日期(GO处于不断更新中)。

3.GO文件的内容和内在的逻辑关系不得被更改。


引用GO


当使用GO资源时,请引用以下文献:

Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25:25-29.

当引用亚数据库资源时,请参考GO的publication list。


相关阅读



联川生物转录组特色数据库——DO疾病数据库

联川生物转录组特色数据库——Reactome数据库

收藏!看完联川这1万多字的问题解答,你就能从转录组小白变成大神

联川生物转录组GO/KEGG/GSEA/ssGSEA/GSVA集成式富集分析在"沧海"一网打尽

           



 

本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看


 

联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章