科学研究中,富集(enrichment)指的是使用某种方法使目的物质占比增大。如使用磁珠富集T细胞,最终的结果是使T细胞的占比增大。
图 1 磁珠富集T细胞→使T细胞占比增加
同理,功能富集分析(function enrichment analysis)就是在目标基因集中寻找占比高的功能,从而了解目标基因集的关键功能。如对差异基因集进行功能富集分析,从而了解差异基因集的关键功能,进而推出样本间重要的功能差异。
提到功能富集分析,必然离不开功能注释数据库,基因的功能(funciton)注释是通过将基因(或基因产物)与特定术语条目(term)相关联来实现的,而由于研究者研究基因的角度和层次不同,就出现不同的基因注释数据库。如GO数据库中分子功能(Molecular Function)关注基因如何在分子水平上发挥作用,细胞组分(Cellular Component)关注基因在细胞何处发挥作用,生物学过程(Biological Process)关注基因参与哪些生物过程(通路/程序)。常用的数据库有:GO、KEGG、Reactome(人)、DO(人)、MSigDB(人和小鼠)、WikiPathways等。
由此,我们掌握了通用功能富集分析的朴素思想:占比高的通路在目标基因集中富集。
图 2 差异基因集A中蓝色通路富集,B中橙色通路富集
相信大家有听说过GO富集分析、KEGG富集分析、GSEA富集分析这些名字,但是一直无法区分它们,也不明白什么时候该用哪种富集分析方法。今天就对这些分析进行讲解。
首先,大家是不是认为富集分析的名字是基于基因功能注释数据库取名的呢?其实不完全是……
严谨来说,富集分析方法通常基于数据来源和算法分类,其采用的算法主要有过度代表性分析(Over Representation Analysis, ORA)、功能分类打分(Functional Class Scoring,FCS)、通路拓扑结构(Pathway Topology, PT)和网络拓扑结构(Network Topology, NT)四种,我们常听说的GO富集分析,KEGG富集分析,WikiPathways富集分析等直接以基因功能注释数据库取名的富集分析,一般统称为通用富集分析,采用ORA算法;而基因集富集分析(GSEA)、基因集变异分析(GSVA)、单样本基因集富集分析(ssGSEA)等,采用的是FCS算法。基于这两种算法的功能富集分析方法是较为简单且常用的方法,另外的,PT又考虑了基因在通路中的位置(上下游关系), 与其他基因的连接度和调控作用类型等信息进行打分;NT利用通路的拓扑结构来反映基因间的相互作用关系。这两种是更为复杂的功能富集分析方法。
图 3 不同的富集分析
接下来,就为大家介绍ORA算法和FCS算法的区别以及采用这些方法的具体富集分析方法的区别。
ORA算法的主要思想是统计评估目标基因集(如差异基因集)中属于特定功能条目(term)的基因的比例。如图中小球集(差异基因集)是从背景小球集(背景基因集)中通过一定阈值筛选出来的(差异倍数、P值)。数字代表基因ID,颜色代表数据库对基因的功能注释,我们接着通用功能富集分析的朴素思想往下理解ORA算法是如何进行富集分析的:
图 4 从背景小球集中筛选出目标小球集
初级:因为粉色通路在差异基因集中占比(3/16)最大,因此它富集。
中级:考虑到背景小球集中,粉色通路占比为10/100(也就是说在含有100个小球的背景小球集中,有10个小球是粉色的),因为3/16>10/100,因此它富集。注意实际应用中背景基因集可以为数据库中有注释的所有基因数,也可以为表达谱中所有有表达的基因数。
高级:从含有M=10个粉色小球,总共含有N=100个小球的背景小球集中随机抽取n=16个小球,其中至少有m=3个小球属于粉色通路的概率可以用超几何检验来计算:
图 5 超几何检验
若p-value≤0.05,说明在随机状态下,当前目标基因集中含有3个以上的粉色通路基因是极不可能的,但是当下却发生了,该事件就是一个有意义的事件,因此粉色通路显著富集。反之,粉色通路的富集不显著。
更高级:如果背景小球集和数据库增大,颜色(即通路数)增加到了300种,当我对所有通路都做一遍统计检验,每次检验结果为假阳性的概率为5%,最终拿到的结果中可能会含有300*5%即15个假阳性的富集通路,因此进一步的需要使用多重假设检验来矫正p值(p.adjust),进一步筛选出更加可信的富集结果。
FCS算法的主要思想是:
1. 先排序:对基因表达矩阵中的所有基因按照一定规则排序;
2. 再打分:根据基因功能注释信息(即通路基因集),使用统计模型对该通路进行打分;
3. 最后进行差异检验和多重假设检验矫正(可选):利用随机抽样和检验判断该通路的分数是否在样本间/分组间发生了显著变化。
基于FCS的具体的不同富集分析方法主要区别在于其排序规则和统计模型不同。
(1)GSEA方法(排序规则-基因表达量与表型的相关性;统计模型-KS类统计量)
GSEA方法的步骤是首先基于两表型的表达差异倍数或连续表型的皮尔森相关性对所有表达基因进行排序得到基因列表L, 然后从数据库中获得通路基因集S,使用经验累积分布函数 (ECDF) 对通路进行打分得到ES,使用置换检验评估ES的统计显著性P值,对ES进行归一化得到NES,最后对P值进行FDR矫正得到Q值。其目标是确定S的成员是否位于L的顶部或底部,从而暗示S的成员与表型相关,进而判断S与表型相关。
图 6 GSEA方法
(2)ssGSEA方法(排序规则-基因的单样本绝对表达量;统计模型-KS类统计量)
ssGSEA方法的步骤是首先对单个样本中的基因按照绝对表达量进行排序得到基因列表L, 然后从数据库中获得通路基因集S,使用经验累积分布函数 (ECDF) 对通路进行打分得到ES,使用置换检验评估ES的统计显著性P值,对ES进行归一化得到NES,最后对P值进行FDR矫正得到Q值。其目标是量化单个样本内通路基因集的活跃度。
(3)GSVA方法(排序规则-基因的CDF值;统计模型-KS类统计量)
GSVA方法的步骤是首先根据基因所有样本中的表达量的分布特征计算得到CDF值,对单个样本中的基因按照CDF值进行排序得到基因列表L, 然后从数据库中获得通路基因集S,使用改进的方法得到ES、P值和Q值。其目标是量化单个样本内通路基因集的相对活跃度。
图 7 GSVA方法
基于以上讲解,小编将不同富集分析算法和方法总结如下:
图 8 ORA和FCS算法的比较
图 9 常用的富集分析方法的比较(一)
图 10 常用的富集分析方法的比较(二)
1. 富集柱状图:展示富集的通路名、通路分类和基因数S
图 11 富集柱状图
2. 富集因子图:展示通路ID、通路名、基因数S、富集因子Rich.Factor和P.value(也可按需选择替换X轴为TS、替换颜色为Q.value)
图 12 富集因子图
3. 富集圈图:展示通路ID、通路分类、通路包含的所有基因数B、基因数S、富集因子Rich.Factor和P.value(同样可以按需替换为Q.value)
图 13 富集圈图
4. 单通路ES折线图和多通路ES折线图
图 14 ES折线图
由于通用富集分析只需要用到目标基因集和通路数据库,因此您可以在沧海的【基因表达谱】或者【差异表达谱】模块点选或全选出目标基因集然后通过工具箱,就可以进行通用富集分析,拿到富集分析的结果表格和图片,详见下图:
图 15 【联川沧海】——基于目标基因集进行通用富集分析
如果您想基于已有的富集分析的结果表格进行图片绘制,也可以在【富集分析】模块,点选感兴趣的通路进行重新绘图,详见下图:
图 16 【联川沧海】——基于通用富集分析结果进行重绘图
由于GSEA、ssGSEA和GSVA方法需要整个样本-基因表达矩阵,因此在沧海的所有模块,都可以通过选择工具箱中的对应工具进行一键分析:
图 17 【联川沧海】——GSEA富集分析
图 18 【联川沧海】——GSVA分析和ssGSEA分析
(1)如何在富集分析的结果中挑选通路?
这是一个非常常见的问题,首先可以考虑通路与您的研究问题或研究领域的关联性,选择研究相关通路,并从后续实验的可验证性出发,考虑通路中包含的基因数目从而提升研究的精细化程度,比如较小的通路可能更易于解释和验证,而较大的通路可能包含更复杂的生物学过程,需要进一步从数据分析、文献支撑、实验论证等方面去细化和验证。进一步的,从数据分析的角度去关注显著富集分通路,关注使用不同富集分析方法都能发现的通路,这些通路更有可能在您研究的表型中起到真实且重要的作用。如果想要更加深入地挑选通路,可以查看目标通路网络中的关键基因,了解其上下游关系、具体基因的生物学属性,进而了解通路在您的研究中可能扮演的角色和潜在的影响,判断该通路在您课题中下游研究的潜力。
(2)富集分析结果中关注的通路不显著怎么办?
首先,不同富集分析方法的原理不同,关注的通路不显著后采取的策略也有所不同。如通用富集分析中,若出现了关注的通路不显著的情况,可以考虑1. 采用P.value而非Q.value(如果P.value显著的话);2. 更换基因功能注释数据库,比如采用对通路分类更细的KEGG数据库而非GO数据库或查看Reactome数据库等其它数据库中相关的通路的富集分析结果等。而GSEA分析中出现了关注的通路不显著的情况,可以考虑1. 采用P.value而非Q.value(如果P.value显著的话);2. 更换基因排序方法;3. 更改基因集中基因最小数据和最大数据也会影响统计检验的结果;4. 更换需要分析的数据库或者使用自定义的功能注释基因集进行分析,方法详见GSEA富集分析实用指南。
总的来说,富集分析是为了后续的实验验证提供思路,因此要选择适合研究方向和实验的角度去解释富集分析的结果。
弄懂了这些复复杂杂的富集分析了吗?快来联川沧海简简单单使用吧!
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码
点分享
点点赞
点在看