趋势分析??
在进行细胞实验时,我们常常会遇到需要观测细胞在给药后各个时间点转录状态变化的情形。我们会对各个时间点生物体的转录状态加以分析。我们常用的方式是将各个时间点的数据与前一个时间点或者更靠前时间点的数据进行对比,然而,这种方法既费时费力,又难以获取有效的数据。此时,拟时间分析应需而生,顾名思义,该分析并非依赖实际的实验信息,而是基于转录组数据中各个时间基因表达的相似性,借助特定的算法来推测部分基因的变化趋势。
STEM!!
简单介绍一下我们的主角STEM,STEM 是一种用于分析短时间序列基因表达数据的工具。在生物学研究中,特别是在研究细胞分化、发育过程以及对环境刺激的动态响应等方面,基因的表达水平会随着时间发生变化。STEM 可以对这些短时间序列的基因表达数据进行聚类和分析,从而发现基因表达的模式和趋势。
图1 STEM图
1
什么样的数据可以进行趋势分析?
1.时间序列基因表达数据
例如,在一个研究细胞对药物刺激响应的实验中,如果实验设计能够精细地在药物处理后的多个时间点(如 0 小时、1 小时、2 小时、4 小时、8 小时、16 小时等)收集细胞的基因表达数据。
图2 拟时间序列分析
2.不同发育阶段的基因表达数据
在生物个体发育研究中,从胚胎期到成年期的各个发育阶段的基因表达数据也适合 STEM 分析。以果蝇发育为例,收集果蝇从卵、幼虫、蛹到成虫各个阶段的基因表达信息。
3.不同环境的转录组数据
当研究生物对不同环境条件(如温度变化、营养物质变化等)的响应时,RNA在不同环境下的表达数据可以进行 STEM 分析。例如,在研究植物对不同温度环境的适应机制时,测量植物在低温、适温、高温环境下的mRNA表达水平,STEM 可以分析这些RNA表达的变化模式,找出与温度适应相关的基因,并揭示它们在不同温度条件下的表达规律。
2
STEM趋势分析有几个组别?
既然STEM能对各个点的基因表达水平进行聚类,那我点越多得到的基因就越特异?
NO!
STEM官方建议的时间点(也就是处理组)不超过8个,因为超过8个组的表达趋势会过于零碎和复杂,其实在这种情况下可以对数据进行WGCNA分析。即使更多的时间点意味着更丰富的动态信息,但是同时也会引入更多的噪声和实验误差。而且从实验设计上来说,时间点的选择应该与研究的生物学过程相匹配。
图3 STEM manual
3
STEM趋势分析中的profile是分成几个比较合适?
STEM默认参数设置产生50个profile,但其实,我们可以根据我们的实际情况来确定产生profile的数量。比如,我们在做转录组测序时更倾向聚焦于变化剧烈的差异基因,所以假使我们有3个点的数据,每个点的基因趋势为上调或者下调,我们就可以得到23个profile,我们在分析时,只要设置8个profile就足够了,数量太多反而会让趋势碎片,不方便我们进行趋势分析。其实先验知识和生物学假设也是重要的参考。如果已经知道研究对象大概有几种不同的状态或类型,这可以为聚类群数量提供一个初始的范围。
4
STEM趋势分析中颜色代表什么?
STEM 会将具有相似表达变化趋势的基因划分到同一profile,并赋予不同 Profile 不同的颜色加以区分。例如,红色的 profile可能代表基因表达量在实验过程中持续上升的一类基因;蓝色的 profile可能表示基因表达量先上升后下降的另一类基因。一般来说,STEM的结果中,只有通过P值阈值的数据会通过这种颜色区分,可以直观地看出不同类别的基因表达趋势,帮助研究者快速识别和分析具有特定表达模式的基因集合。
图4 多色的STEM
5
STEM趋势分析中P值高就没意义吗?
需要注意,那些P值为1的profile不代表没有意义的表达趋势。
STEM中,如果该趋势中包含的基因数目过少,这个profile就极有可能被判为不显著的趋势,所以最终还是要看我们感兴趣的差异基因在哪个模块,或者对我们感兴趣的基因相应地做分析。
其实,在研究代谢类的器官时,做完基因敲除或者敲低后去测序,转录组大多都会显示出炎症表型,此时我们的转录组数据会被代谢或者免疫相关的差异基因所遮盖,关键基因就会被掩盖,光从表面的数据进行分析就很难获得最底层的信息,就比如有关键基因其实位于P值为1的profile。对我们来说,趋势分析的意义不仅是从另一个方面描述转录组的状态,其实也是对一些前置结果的验证。
6
STEM趋势分析中如何进行下一步分析?
当我们完成趋势分析之后,我们会发现它能展示的信息量还是有点捉襟见肘。本质上来讲,STEM还是对我们的差异基因依赖时间点进行了新一轮的聚类,缩小了差异基因的范围。所以我们依然可以仿照我们的标准流程,继续对得到的profile里的基因进行另一种聚类分析-富集分析。
我们可以用GO/KEGG对我们获得的profile里的基因进行富集分析,同时,这也能验证我们上述问题提到的确定profile数量是否正确。同理,也可以对这些基因进行PPI网络分析或者GSEA分析。
Mfuzz!
Mfuzz是一个用于软聚类分析的 R 软件包,主要应用于基因表达数据等生物数据的分析。它的目的是根据数据的相似性将数据点(如基因)划分到不同的聚类群中。软聚类的特点是一个数据点可以以一定的隶属度属于多个聚类,这与硬聚类(一个数据点只属于一个聚类)有所不同。例如,在基因表达数据中,一个基因可能在不同程度上同时参与多种细胞状态相关的表达模式,Mfuzz 能够很好地处理这种情况。
图5 Mfuzz!
1
存在组内生物学重复时怎么处理?
Mfuzz包本身不能对组内生物学重复进行处理,包括在Mfuzz的示例数据中,每个时间点也只有一列数据。Mfuzz的官方文档也建议,如果数据中包含生物学重复样本,也就是一个时间点对应多列数据时,需要提前将生物学重复样本进行合并,例如取均值等等。
2
其它类型的数据能用Mfuzz包分析吗?
Mfuzz可以用在多个领域中,不管是哪种类型的数据,使用 Mfuzz 包都需要将数据整理成合适的格式。通常要求数据是一个矩阵形式,行代表不同的基因 / 蛋白质 / 代谢物 / 微生物类群等,列代表不同的样本(如不同时间点的样本、不同处理组的样本等)。例如,对于蛋白质表达数据,每一行是一个蛋白质,每一列是一个细胞样本或处理后的样本。当使用 Mfuzz 分析不同类型的数据时,对结果的解释需要结合具体的数据类型和生物学背景。比如,对于基因表达数据的聚类结果,可能与细胞分化、基因调控等过程相关。
说了那么多,还不赶紧来Omicsmart来试试我们的STEM趋势分析和新上线的Mfuzz趋势分析!
我们在接下来的推文中也会给大家详细介绍如何在我们的Omicsmart中实现差异分析+趋势分析+富集分析的一条龙操作!
READ MORE
延伸阅读
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。