实用干货 | 转录组差异分析常见问题解答

学术   2024-10-16 18:05   广东  


Q1:我该怎么区分我的基因是上调还是下调?


为什么我们经常看到差异基因(DEGs)里的负数代表下调,正数代表上调?因为我们使用了LogFoldChange(LFC)。那为什么不使用FoldChange(FC)来表示差异倍数呢?FC的数值范围可能非常大,特别是对于那些高度上调或下调的基因。例如,一个基因的表达量可能增加了100倍,而另一个只增加了2倍。这种大的数值范围使得数据可视化变得困难,并且可能掩盖较小但仍然生物学上重要的变化。

Fig1 对数曲线

横坐标表示FC,当FC>2时,LFC>1;当FC<0.5时,LFC<-1,一般默认取LFC绝对值大于1为DEGs的筛选标准,即LFC>1时,上调;LFC< -1时,下调。


Q2:DEGs数目太少/太多怎么办?


通常通过两个参数进行DEGs的筛选,分别是LFC和Pvalue或者FDR。其中,LFC是两个样本一个基因表达量的差异倍数,Pvalue和FDR是两个常用的统计指标,用于评估基因表达的显著性差异。FDR提供了一个更加严格的显著性评估标准,它考虑了多重比较的影响。

调整影响FDR的因素:

确保有足够的样本。样本量不足会影响Pvalue和FDR值,增加生物学重复的次数,尽量减少随机误差。

去除离群样本。样本质量差会造成FDR偏高,导致最后获得DEGs数量减少。


在排除样本因素后,DEGs依旧不足时,可以初步判断是基因表达的响应本身较低,我们可以更换差异分析软件和参数,放宽筛选条件:

尝试不同的统计方法或软件包,如DESeq2、edgeR或limma,它们可能对差异表达基因的检测有不同的灵敏度。

通常筛选DEGs常用阈值是|LFC|>1,FDR<0.05。当DEGs数目过少时,可以将差异阈值放宽,比如设置为差异倍数|LFC|>0.58,Pvalue< 0.05。能调整FC的时候,尽量还是用FDR筛选,用p值发文容易被审稿人质疑不够严谨;同理,当DEGs数目过多时,可以将差异阈值设置为|LFC|>1.58,FDR<0.01。

如果是我们基迪奥的客户,可以在Omicsmart报告的开始交互分析中调整软件、设定新的阈值,重新进行分析(还可以顺便做个DEGs的富集分析),再比较不同任务差别,选择符合预期的结果。

Fig2 基迪奥Omicsmart在线报告阈值筛选


Q3:在差异分析中,FDR值和Pvalue哪个更好?


在差异基因表达分析中,FDR(错误发现率)和Pvalue都是用来评估统计显著性的指标,但它们在应用上有不同的优势和局限性。P值是指在原假设(通常是没有差异或效应)为真的情况下,观察到的数据或更极端数据出现的概率。FDR是指在所有声称显著的检验中,实际上不显著的检验的比例的期望值。

在实际应用中,通常推荐使用FDR阈值(如0.05)来确定哪些基因是差异表达的。如果只使用Pvalue,并将阈值设定为0.05,即便所有的实验结果实际上都是非显著的,但你依然有64.15%的可能性“观测”到至少一个“显著差异”的结果。

Fig3 总有一次“显著”


Q4:能否用FPKM/RPKM进行差异分析?


通常不推荐用FPKM/RPKM进行差异分析。

1. 依赖性:FPKM和RPKM的归一化方法假设Counts服从泊松分布,这可能在实际情况中并不总是成立。此外,这些方法在计算中依赖于基因长度和测序深度的归一化,这可能导致表达水平估计的不准确性。而且常用的统计包如DESeq2和edgeR就是基于原始计数数据进行建模和分析的。

2. 统计检验问题:FPKM和RPKM值不是原始计数数据,而是经过转换的数据。使用这些转换后的值进行统计检验可能会违反统计检验的基本假设,从而影响检验的有效性。

3. 多重比较校正:差异表达分析需要进行多重比较校正,如使用FDR或Bonferroni校正。FPKM和RPKM值并不直接提供进行这些校正所需的信息。


Q5:能否提取部分基因来做差异分析?


不能。edgeR和DESeq2等软件进行差异分析的时候要考虑文库的深度和reads的分布,单独提取部分目标基因进行分析会破坏样本的特征,容易导致最后的结果出现偏差。但是在Omicsmart中,我们可以在生成的DEGs表格中提取我们想要的基因进行可视化以及想要的分析。

Fig4 基迪奥Omicsmart在线报告目标基因分析


Q6:差异基因列表中,Counts一个不为0,能否说明一个表达,一个不表达?


1. 测序深度:如果测序深度很低,即使是表达量较低的基因也可能检测不到Counts。因此,你需要考虑样本的测序深度。

2. 表达水平:基因表达水平可能非常低,低于检测限,这可能导致Counts为0。在RNA-seq数据中,表达量为0的基因可能实际上有非常微弱的表达,只是没有被检测到。

3. 基因长度和转录本复杂性:更长的基因和更复杂的转录本可能更容易在测序中被检测到,即使它们的表达水平相似。


Q7:某基因在两个样本中表达量差别很大,却不存在于显著差异的基因列表中,这是为何?


1. 表达量差异与统计显著性的区别:表达量的差异和统计显著性是两个不同的概念。即使两个样本之间的表达量差异很大,如果这种差异在统计上不显著,那么该基因也不会被归类为差异表达。

2. 样本数量不足:样本量可能太小,导致无法检测到真正的差异表达。样本表达量之间波动很大,导致统计检验的数值偏低,可以考虑增加样本量来稳定差异,提高统计检验的准确性。

3. 多重比较校正:在进行差异表达分析时,通常会使用多重比较校正(如FDR)来控制错误发现率。如果校正后的P值超过了预设的阈值(例如0.05),即使表达量差异很大,基因也可能不会出现在显著差异基因列表中。





本期推送主要给大家介绍在差异分析时碰到的问题。在实际分析中,Pvalue和FDR等统计检验值都需要大家根据自己的实验适时调整,不要盲目地依赖常见的筛选阈值,最后祝大家实验顺利!


如果大家对差异分析有其他的疑惑也可以在评论区留言哦~

基迪奥生物测序服务能力行业领先,从方案设计、测序建库到精细数据挖掘、审稿意见回复,全程为各位老师保驾护航到文章发表,云处理分析平台Omicsmart更是让你无需任何编程基础即可随时实现数据挖掘自由。如果您有测序/分析项目咨询,可扫描下方二维码填写意向信息:

长按识别二维码填写意向



READ MORE


延伸阅读







*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com



基迪奥生物
广州基迪奥生物官方公众号,小奥每天分享前沿组学知识、实用生信软件技巧、酷炫绘图技能。我们的目标是,助您达到更高的科研领域。
 最新文章