蛋白质组大揭秘:组学数据如何挖掘出“功能”宝藏?

学术   2024-12-20 18:03   广东  
在当今生命科学领域,蛋白质组学的研究日益凸显其重要性,它聚焦于对细胞、组织或生物体在特定条件下所表达的全部蛋白质进行系统性分析,旨在揭示这些蛋白质在生命活动中的功能以及它们之间复杂的相互作用关系。在之前的文章中,我们已经介绍了蛋白质组的定性、定量方法,以及基于蛋白丰度的数据挖掘方法,今天我们继续蛋白质组的学习,一起来了解基于蛋白质的功能我们可以进行哪些分析。


从理解生物过程的层面出发,生物体内诸多生理活动,像新陈代谢、信号传导、细胞周期调控等,皆是众多蛋白质协同参与来完成的。借助功能数据挖掘,我们可把海量的蛋白质组学数据与具体的生物功能一一对应起来,清晰勾勒出这些复杂生物过程的分子机制。





一、传统富集分析



传统富集分析基于超几何分布或 Fisher 精确检验,可用摸球问题模型理解。把所有基因看作袋中球(总数 N 个),特定通路基因是特定颜色球(数量 M 个),实验得到的差异基因如同摸出的球(数量 n 个),其中特定通路基因个数设为 k 个,分析其占比是否显著高于整体占比,即看差异基因在特定通路的富集显著性。

从统计学角度,超几何分布表示不放回抽样概率(X∼H (N, n, M)),需引入 p 值分析,p 值越小越具显著性。实际应用中,规定 p-value<0.05 有 5% 假阳性概率,因涉及众多通路,常用 FDR 校正,期望值小于 0.05 时认为有生物学意义。

图1   常见的GO 富集条形图

图2   常见的KEGG富集条形图

传统富集分析在蛋白质组功能数据挖掘方面有重要作用,但也存在局限性

实际中一条通路常既有上调基因又有下调基因,传统富集分析基于超几何分布或 Fisher 精确检验,不关心基因表达量变化趋势,难以判断通路总体表现形式,即无法确定其激活或抑制情况。

将上下调差异基因分开分析虽可尝试解决上述问题,但会干扰结果随机性,降低结论准确性,且若出现分开富集却富集到同一条通路的情况,难以解释及判断生物学意义。





二、GSEA富集分析



与传统基因差异分析不同,基因集富集分析(GSEA)关注整个基因集的表达趋势。其核心思想是判断预定义基因集成员在按表型相关度排序的基因表中是随机分布还是聚集在顶部或底部,以此评估对表型贡献。

相较于传统富集分析,GSEA优势明显,它从全体基因表达矩阵出发找协同差异基因集,无需设阈值筛选差异基因,能涵盖差异不显著但有生物学意义的基因,适用于差异倍数不大的情况,利于分析基因与表型关系。

1.基因排序环节


基因排序是关键起始步骤,利用基因表达数据按差异度计算方法对基因排序,形成基因列表,常见计算方法如signal2noise,方便后续探究基因集的富集情况。

2.计算富集得分(ES)


计算富集得分(ES)很重要,用于衡量某通路基因在排好序的基因列表中的富集程度,通过特定计分规则累加或减分,ES值反映基因集在列表中的富集特征,体现相关通路活性变化情况。具体计算原理是:扫描排序序列时,遇痛通路中基因时增加 ES 值,反之减少,。最终将基因数据排序序列位置定义为 0,ES 值定义为距排序序列最大偏差。ES 为正,功能基因集富集在排序序列前方,对应功能通路呈上调趋势、被激活;ES 为负,功能基因集富集在排序序列后方,对应功能通路呈下调趋势、可能被抑制。

3.评估富集得分(ES)的显著性


得到ES后,通过排列检验评估其显著性,打乱基因顺序重复计算ES’,对比真实ES值与零分布,算出P值评估显著性,还会进一步处理计算虚假发现率(FDR),筛选可靠富集结果便于后续研究。在实际应用中,通常认为 |NES|>1,p-value<0.05,FDR<0.25的通路视为显著富集。

图3   经典GSEA富集统计图





三、STRING数据库分析



STRING数据库是用于分析蛋白互作分析(Protein-Protein Interaction, PPI)的专业数据库平台,它收录了超过14000个物种、6千多万种蛋白、200多亿个相互作用的信息,涵盖范围极其广泛。

科研人员可以借助STRING数据库查找疾病相关蛋白之间的相互作用,分析其潜在的功能关联,进而揭示疾病背后复杂的分子调控网络;在药物研发方面,通过它来挖掘药物作用靶点蛋白与其他相关蛋白的互作情况,有助于优化药物设计方案。从基础的生物学过程探索到应用导向的医学研究等多个领域,都能看到STRING数据库发挥的重要作用。

在STRING数据库中,综合评分机制起着关键作用。系统会针对不同来源的数据,如实验数据(Experiments)、文本挖掘数据(Textmining)、数据库数据(Databases)、基因邻接(Neighborhood)、基因融合(Fusion)、基因共表达(Co-expression)等,依据其可靠性、准确性以及在反映蛋白质相互作用方面的重要程度等因素,赋予相应的权重,然后给出一个综合评分(以0 - 1的范围表示该互作关系的置信度)。并根据这个评分构建蛋白互作网络,帮助我们挖掘蛋白功能上的关联作用。

想要详细了解STRING数据库的用法,可以查看之前我们发表过的《STRING数据库也太好用了!!!》。

图4   STRING分析页面

以上就是三种基础的基于蛋白质功能的数据挖掘方法,通过以上三种方法,我们可以缩小范围,将目光聚焦于具有某些特定功能的蛋白基,进而进行后续的分析。如果在基迪奥做蛋白组,大家不用担心不会R语言,做不了以上的分析,在基迪奥研发的Omicsmart蛋白质组在线分析平台,以上分析都可以一键完成,并且有几十种不同的个性化参数任你设置!



READ MORE


延伸阅读






*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com



基迪奥生物
广州基迪奥生物官方公众号,小奥每天分享前沿组学知识、实用生信软件技巧、酷炫绘图技能。我们的目标是,助您达到更高的科研领域。
 最新文章