联川生物转录组科普知识——常规富集分析的原理解析

企业   科学   2024-09-14 16:40   浙江  


在RNA测序研究中,拿到差异基因集之后,研究者通常想要知道这些能够表征样本间差异的基因都参与了什么通路?哪些通路是重要的?从而推出样本间重要的功能差异,将研究上升到功能机制层面且利于后续机制实验的开展。“富集分析”应运而生,今天就聊一聊什么是富集分析,富集分析的原理是什么。

科学研究中,“富集”(enrichment)通常指使用某种方法使目的物质占比增加,如富集某种细胞或蛋白,同理,“功能富集分析”可理解为在差异基因集中寻找占比高的功能,从而了解差异基因集的关键功能,进而推出样本间重要的功能差异。


01 对差异基因进行功能归类——选择基因注释数据库

由于基因的功能(function)是一个十分广泛的概念,不同的研究者有不同的定义和关注点,不同数据库也基于不同的分类思想对基因进行归类。

GO数据库分别从分子功能(Molecular Function,MF)、细胞组分(Cell Component,CC)和生物学过程(Biological Process,BP)三个层面对基因的功能进行注释;KEGG数据库、Reactome Pathway数据库、WikiPathways数据库对基因参与的通路进行注释;DO数据库对基因参与的人类疾病进行注释;MSigDB数据库对人和小鼠的基因进行了多角度的全面注释。

因此,首先我们需要根据研究目的,选择合适的数据库对差异基因进行功能归类,并统计每一条目的数据如表:

背景基因数N:一个物种所有得到注释的基因数

前景基因数n:要分析的目的基因数,如差异基因数

条目A中的背景基因数M

注释到条目A的前景基因数m

02 在差异基因集中寻找富集的功能——统计分析

接下来,将“富集”的理论落实到具体的统计思路上。首先提出三个问题:如何定义富集?如何判断这种富集不是偶然的(富集显著)?如何比较两个条目的富集程度?

如何定义富集?

“富集”指的是一个给定的生物学过程、通路或功能在前景基因集中出现的频率显著高于其在背景基因集中出现的频率,即:若m/n >M/N,认为条目A在前景基因集中富集。

这就像从一大筐球中摸出n个球,若得到A类球的比例大于原先筐中A类球的比例,则认为A类球在摸出的n个球中富集,因此常规的富集分析问题符合超几何分布。

如何判断富集显著?

换句话说,条目A的富集是否是偶然的?这需要进行超几何检验来计算显著性。计算从M个背景基因中随机选择n个基因,其中至少有m个基因属于条目A的概率:

 

若p-value≤0.05,说明从背景基因中随机选择n个基因,至少有m个基因属于条目A的概率极小,但是现实情况却发生了,则认为条目A显著富集。

由于数据库中包含上百个条目,每个条目都要做一次检验,每次检验都有5%的概率是假阳性,随着检验次数增多,假阳性结果出现的次数就会增多,为了控制阳性结果中的错误率(False Discovery Rate,FDR),需要进行多重假设检验校正。

举个例子,对300条通路进行了300次检验,即使他们实际上都不富集,也会出现15条通路富集的结果。若对300条通路进行300次检验,得到30条通路富集,其中有15条是假阳性结果,那么FDR=15/30=0.5,也就是说你获得的结果有一半是不可信的,因此要对p-value进行校正来将FDR控制在一定范围内。最常用的是BH(Benjaminiand Hochberg)法校正,最终我们应该使用校正后的p值(p.adjust)来筛选富集的条目。

如何比较两个条目的富集程度?

富集程度可以通过富集因子(rich factor)即m/M,注释到此条目上的差异基因数m和p.adjust这三个指标来衡量。一般情况下。我们直观地认为m越大,该条目越重要,但就像人均GDP比GDP更能代表生活水平一样,研究者提出了对条目大小进行标准化的富集因子作为衡量指标之一。

以上描述的就是常规的GO和KEGG富集分析所采用的过度代表性分析(Over Representation Analysis,ORA)原理。总结为首先使用特定阈值创建输入列表(差异基因集),然后对输入列表进行功能归类和条目计数,最后采用超几何检验和多重假设检验校正计算富集的显著性。

03 讨论与拓展

富集分析的根本目的是寻找两个样本间重要的功能差异。不同的富集分析主要区别在于使用的基因注释数据库统计学算法不同。除常规富集分析采用的ORA算法外,GSEA富集分析采用了功能分类打分(Functional Class Scoring,FCS)统计学算法,考虑所有基因的表达数据进行富集分析,提供了更全面的基因集合富集信息,可检测出表达差异不显著但是功能趋势一致的基因集。


新品发布|Olink Explore HT 蛋白标志物平台开启蛋白组学新时代

Olink蛋白检测数越多文章IF越高!那什么时候可以检测5000+呢?

可以让你感觉不到疼痛的“超能力”lncRNA |转录调控专题

快速上手!热图+表达趋势折线图+通路富集结果组合可视化(含代码) |数据挖掘与分析


本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码




点分享


点点赞


点在看


联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章