从生物体生命的直接执行者——蛋白质的视角来研究生物的各类生命现象以及各种疾病和病理,已然成为生物学发展的大势所趋。而此类研究离不开对蛋白质的鉴定与定量。因此,蛋白质组学定量技术在进入 21 世纪后得以迅速发展,各种定量技术应运而生。例如最早提出的基于谱图计数法的 label-free 定量技术、iTRAQ/TMT 标记定量技术,以及最近出现的数据非依赖型采集模式的 DIA 定量技术和无需进行 DDA 分级建库,利用机器深度学习直接生成库的 dDIA(direct Data-independent acquisition)技术。
首先,要明确蛋白质组学中定量的具体含义。在蛋白质组学领域,通常所说的 “定量” 一般指相对定量,也就是测定某种蛋白在不同样品中的表达量变化情况。
在基于质谱的定量蛋白质组学策略中,主要原理是:样品中的肽段含量与质谱检测到该肽段的信号强度成正比,因此,可以用肽段的信号强度来表征肽段含量,进而推断蛋白的表达量并计算每种蛋白在不同样品中的含量比值(即表达差异倍数)。
上一期文章,我们介绍了蛋白质组中的蛋白质定性(鉴定)。事实上,在实际操作中,蛋白质的定性和定量往往是一起执行的。例如,在进行质谱分析时,首先利用MS/MS数据对蛋白质进行识别,随后,通过分析特定肽段的信号强度或者使用专门的定量标记来测定蛋白质的表达量。像上期文章中所提到的MaxQuant、Spectronaut等软件均可以完成对数据的定性和定量,得到最终我们想要的蛋白表达矩阵。
以上,可以统称为蛋白质组的上游数据分析,包括对原始数据的处理、iRT质控、建库与搜库等最终得到蛋白质的注释(定性)与表达量矩阵(定量),之后再对数据进行一些质控分析,也就是上图中的上半部分。
蛋白质组的下游分析,也就是上图中的下半部分,是基于我们在公司做完蛋白质组所拿到注释和表达量结果,进行各种生信分析如样本关系分析、差异分析、富集分析以及GSEA分析等等,大致流程与转录组非常类似。总体来说,可以分为以下三个方面:
2.基于蛋白质功能的数据挖掘
3.基于大样本的数据挖掘
在后面几期的文章中,小编将围绕这几个方面给大家进行介绍。今天就从最基础的部分:基于蛋白质丰度的数据挖掘思路开始。
1
样本关系分析
在拿到蛋白质组的丰度表之后,我们一般会首先做一个样本关系分析,来全局性地观察一下样本的重复性情况,以及是否有离群样本等等。如果有离群样本则需要在后续的一些分析中将其剔除,否则会影响分析结果的可信度。
一般常见的样本关系分析有主成分分析(PCA)和样本相关性热图分析。PCA利用降维技术,通过方差分解来揭示数据中最主要的元素和结构,从而将复杂的样本组成关系简化为两个主要特征值在横纵坐标上的表示。在PCA分析的结果中,我们可以观察到,组成越相似的样品在PCA图中距离越近,这表明它们在表达量上具有高度的相似性。相反,来自不同有效处理的样品则倾向于各自聚集,形成独特的分布模式。
Fig1 PCA分析
样本相关性热图通过样本相关性热图是通过计算任意两个样品之间的皮尔逊(Pearson)相关系数,并将这些相关系数以热图形式呈现,使我们清晰地观察到样本间的相似程度。这种热图不仅有助于我们考察组内重复样本之间的重复性,还可以揭示不同样本之间的潜在关系。
Fig2 相关性系数分析
2
差异分析
在确定样本间的重复性没问题之后,我们就要开始对数据进行真正的挖掘,也就是去探究我们不同样本之间的一个处理效应情况。因为我们在实验设计的时候,选择的是具有不同表型的样本,于是我们默认导致表性差异的主要原因有可能是因为处理所导致的蛋白质的差异表达。
蛋白质差异分析是一种基于蛋白质定量结果的研究方法,旨在识别在不同比较组(对照组 VS 实验组)中丰度发生显著变化的蛋白质。这种分析首先对各个比较组的蛋白质丰度数据进行检验,以获得相应的P值。为了减少假阳性率,这些P值随后会经过多重假设检验校正,具体采用Benjamini and Hochberg(BH)方法来计算错误发现率(False Discovery Rate,FDR)。一般情况下,需要我们设定一个差异阈值,即差异倍数(Fold Change,FC)的绝对值必须大于1.2倍,同时P值(或FDR)必须小于0.05,才能被筛选为组间具有显著性差异的蛋白质。
差异分析的结果有多种的可视化形式,如差异比较柱状图、火山图、热图等等。
Fig3 柱状图定量显示
Fig4 热图分析(左)和火山图分析(右)
3
趋势分析
在我们的实验设计中,我们可能会包含时间梯度、空间或浓度梯度等趋势,这个时候,差异分析并不能满足我们对整体趋势的一个探究,我们可以进一步进行趋势分析。趋势分析是针对多个连续性样本(至少3个),由于样本存在梯度设计,从而对蛋白质整体表达趋势进行聚类的一种分析方法。
对于3-5个梯度的样本,我们可以采用STEM软件进行趋势分析,但是如果样本超过5个以上,建议使用Mfuzz等其他软件进行聚类会更适合。
Fig5 STEM趋势分析
Fig6 Mfuzz趋势分析
以上就是关于蛋白质组下游分析的基础内容,也是基于蛋白丰度方面的分析方法,是我们拿到蛋白质组数据后必不可少的一步。上述的图形是在我们Omicsmart交互平台一键生成的,大家如果来基迪奥做蛋白质组测序,就可以在Omicsmart云分析平台进行数据挖掘与交互分析,没有编程基础也可以轻松出图!下一期我们将介绍基于蛋白质功能的数据挖掘,大家感兴趣的话一定要关注我们哦~
READ MORE
延伸阅读
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。