转录组测序技术发展至今已经非常成熟,普通的 Bulk - seq 已然成为科研历程中不可或缺的一块基石。与此同时,大量针对 Bulk - seq 的可视化技术应运而生。同样,随着技术的不断迭代,市场上也涌现出一大批专注于可视化功能的平台。基迪奥是最早推出在线平台的公司之一,其在线报告凭借自由、快捷的可视化操作拉近了客户与数据之间的距离。然而,在我们运用形形色色令人目不暇接的图像时,总会遭遇问题,不知道每幅图像中暗藏什么玄机,有时甚至不知应选取哪幅图像来阐释自身的数据,接下来,我们为大家简单地挑选几个重要的点,借助图形帮大家更好地理解转录组学的应用。
PCA图主要用来降维和分类,PC1 和 PC2 实际上是基于这些计算得到的特征向量所确定的新的坐标轴方向,它们分别代表了数据在不同维度上的最大方差方向,也就是能最大程度地区分样本的方向。通俗一点的理解就是,PCA 的作用就是找到一些新的坐标轴,将这些原本在高维空间的样本点投影到这个由 PC1 和 PC2 构成的二维平面上,这样我们就可以通过观察这些样本点在这个二维平面上的分布情况,比如它们之间的距离远近等,来判断样本之间的相似程度或者是否能分成不同的类别等。所以问题来了:怎么利用PCA去除离群样本?PCA不好要不要重测?通常,我们进行PCA的样本包含处理组和对照组,完成PCA分析后,我们做的第一件事是观察PC1和PC2各自解释了百分之多少的数据,我们的重点在观察解释数据多的PC1轴中,样本组内分得开不开,组间离得远不远,PC2如果占比太少,纵使样本相隔很远,也不代表样本之间有很大差异。一个很简单的判断标准就是比较组间和组内之间的距离,如果组内距离比组间还要大,该样本就需要慎重地接入后续分析。注意注意!PCA只能用来相对地看样本之间的差异,如果没有对照,只有重复的三个样本,PCA可能会放大不重要的差异!
样本相关性热图分析,组间相关系数在0.9以上代表什么?
除了PCA,样本相关性热图也是区分样本关系的好手,一般来说,重复性较好的模式生物样本之间的相关系数都大于0.99。利用相关性热图能很快速地判断样本的处理是否有效,偏弱的处理会导致处理组和对照组之间都是0.9以上的相似度,这也暗示接下来获得的差异基因也会偏少。
基因表达量数据通常需要进行归一化处理。由于不同基因的表达量范围可能相差很大,而且不同实验批次、样本类型等因素也会导致数据的绝对值差异。例如,在 RNA - Seq 实验中,基因的原始计数可能从几个到数百万不等。如果只按照默认输出的counts或者fpkm对数据进行可视化就会出现图左的情况,但是,当我们对数据进行行Z-score之后,差异就显现出来了。为什么对“行”进行Z-score?因为这样可以将每个基因在所有样本中的表达量转换为均值为 0,标准差为 1 的数据,这样能使不同基因在同一尺度上进行比较。如果一个基因在所有样本中的表达量都非常低且几乎没有变化,那么它在热图中可能不会提供有价值的信息,反而会增加图形的复杂性,这个时候就要将该基因去除,所以再绘制热图时,对低表达量的基因进行过滤也是必要的。
对图形进行定制化的修改是一个大难题,R包ggplot2可以通过geom_label_repel函数对基础图像进行加工,但是需要一定的R语言基础,对大多数没有时间的科研人来说需要一个更加快捷方便的方法。基迪奥提供了非常方便快捷的Omicsmart在线报告供大家使用,转录组项目都附带在线报告,只要在单击想要显示在火山图中的基因即可实现。
Upset图不仅可以展示差异基因,也能展示富集通路。图像左下方的柱状图是各个组别中元素的数量,右上角的柱状图为交集元素的数量,右下角的图为交集元素位于哪几个组别中。借助 Upset 图,我们能够更为直观地审视两个或多个比较组之间共有集合的数量情况。将集合中的元素替换为富集通路,我们便能极为便捷地对比如转录组和代谢组的结果进行比较,从而能够从宏观层面比较两个组学富集结果的差异与相同之处,为进一步的联合分析提供便利。将差异基因分为上调和下调基因后分别进行富集分析,可以更清晰地揭示生物过程在不同调节方向上的变化。分开的富集分析结果在解释时更加直观。对于我们来说,能够直接聚焦于上调或下调基因所涉及的特定生物学过程和通路,便于发现关键的基因集和功能变化。单独分析上调和下调基因可能会忽略它们之间的协同作用。在许多生物学过程中,基因的上调和下调是相互关联的,共同调节细胞功能或生物体的表型。将所有差异基因一起进行富集分析则可以考虑基因表达变化的整体情况。这种方法适用于研究基因表达变化的总体趋势和对生物系统的综合影响。我们需要根据自己的研究目的选择合适的分析方法。除了基于Pvalue等统计检验的值对富集分析的结果进行展示,还可以借助GO的三个功能范畴和KEGG的ABC类通路进行展示,很多高分期刊原则上不允许对富集的结果进行挑选。这个时候,其实我们可以选择用GSEA对结果进行展示。
KEGG 数据库基于同源基因具有相似功能的假设,将不同物种中功能相似的同源基因归为一个 KO 号。这些同源基因在进化上具有共同的祖先,尽管在不同物种中基因序列可能存在一定差异,但它们所编码的蛋白质在结构和功能上具有高度相似性,能够在生物体内执行相同或相似的生物学功能,因此被赋予相同的 KO 号。许多基因在生物体内具有多种功能,它们可能参与不同的生物学过程或代谢通路。这些基因在不同的功能模块中发挥着不同的作用,因此会根据其参与的具体功能被分配到不同的 KO 号。例如,某些转录因子既可以参与细胞的分化和发育过程,又可以在细胞的应激反应中发挥调节作用,那么在 KEGG 通路图中,该转录因子基因就可能对应多个 KO 号,分别对应其在不同生物学过程中的功能。富集分析是在差异分析的基础上对数据进行进一步分类和过滤,但是一般来说,经过过滤的结果依旧较多,这个时候需要对富集分析的结果进行进一步筛选,拿到自己想要的核心基因。我们可以将当前的 GO 富集结果与其他已发表的类似研究的富集结果进行比较。例如,在研究植物对不同胁迫的响应时,比较干旱胁迫和盐胁迫下基因的 GO 富集结果,可以发现共同的和特异的响应机制。如果两种胁迫下都有基因富集在“渗透调节”类别,说明这是植物应对胁迫的共同策略;而只在一种胁迫下富集的类别则可能是该胁迫特有的响应机制。再者,我们可以对富集的结果再进行PPI网络分析。通过 PPI 分析可以深化对 GO 富集结果所代表的生物学功能的理解。在 PPI 网络中,具有高连接度(即与许多其他蛋白质相互作用)的节点可能是关键基因,它们的功能异常可能会对整个网络产生较大影响。小贴士:一个基因在GO上富集显著,而KEGG上不显著?为什么?首先,我们检查一下自己在GO和KEGG中设置的阈值是否相近,如果阈值相差较大,可能会排除部分接近阈值的通路;有些基因具有多种功能,它们可能在 GO 的多个宽泛功能类别中有较强的关联性,但在 KEGG 特定通路中的作用比较分散或者间接;对于一些新发现的基因或者功能尚未完全明确的基因,它们可能在 GO 中有一些基于序列相似性或者初步实验证据的注释,从而在 GO 中显示富集。但是由于对其在具体生化通路中的位置和作用了解有限,在 KEGG 中的富集就不显著。
当使用专门的 GSEA 软件时,会有参数明确哪一组是实验组,哪一组是对照组。在使用R进行GSEA分析时,则要求输入一个排序后的基因列表。在基迪奥的在线报告中,只需要点点鼠标就可以实现调整顺序并绘图。
如果 ES 曲线在绿色中线以上,说明基因集在排序基因列表的头部富集,通常意味着该基因集在实验组(如果按照从实验组到对照组的基因排序)中高表达。相反,如果 ES 曲线在绿色中线以下,表明基因集在排序基因列表的尾部富集,即该基因集在对照组(按照从实验组到对照组的基因排序)中高表达。
不要惊讶,GSEA也能使用GO和KEGG的数据集进行分析,但是GSEA的算法和GO或者KEGG完全不同,只是借用了GO和KEGG的数据库而已,三者分析的原理和结果是完全不同的。
大家都知道GSEA的原理和传统富集完全不同,很特殊的一点就是因为它的原理而衍生的核心基因概念(那些使得 ES 曲线急剧上升或下降的基因,即位于基因集富集区域 “峰值” 附近的基因,被认为是核心基因)。GSEA的核心基因可以帮我们构建分子机制模型和筛选关键调控因子和生物标志物。
关联分析是对数据进行更完整更完全解读的一种手段,相关性网络图可以作为多组学整合的桥梁。在相关性网络图中,具有较多连接(高连接度)的节点(基因或代谢物)可能是关键的调控因子或代谢枢纽。这些关键节点对于理解生物过程的核心机制非常重要。
如何对String数据库中的PPI网络的结果进行优化?
这个时候就不得不提Cytoscape了,Cytoscape是一个功能强大的网络可视化软件,除了基本的可视化之外,通过各种插件,还可以轻松的实现各种数据分析。我在这里举一个很简单的例子:打开Cytoscape软件,File-->Import -->Network-->file, 然后选择对应的文件,对PPI图进一步美化。依次点击Tools-->NetworkAnalyzer-->Network Analysis-->Generate style from statistics,在弹出的窗口中对数据进行优化。什么?你还不会用Cytoscape。别害怕!转录组培训班又开课啦!如果以上理论讲解还不够,想要数据分析实战,欢迎参加基迪奥12月2日至6日的转录组培训班,理论+实操干货满满~
方式一:识别下方二维码填写信息报名
发送姓名、单位、电话到邮箱contact@genedenovo.com,主题注明“转录组培训班”客服:020-39341079或18054271626 蒋小姐
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。