肿瘤单基因研究的若干问题之三:目的基因的筛选2.0

学术   2024-10-21 19:02   广东  

前言

Hello小伙伴们大家好!

今天我们继续谈目的基因筛选的话题。转录组测序数据分析的本质是什么?个人认为就是筛选。通过各种方法找到核心基因,把基因筛少,最好是筛到只剩一个。但是我们经常会遇到这样的窘境,就是筛到的基因太多,不知道应该怎么继续缩小范围,应该研究哪个基因。

今天我们就一起来探讨这个话题。个人认为,筛选目的基因可以采取以下方法:

1.阈值调整变严格

筛选的基因过多,我们首先可以从筛选阈值上进行调整。

在前期推文 “测序数据差异分析没有差异基因?”中 我们提到:大多数文章对差异基因的筛选标准是:“| log2 fold change |>1, FDR <0.05”(图1),其中logFC=log2(treatGeneMeans/实验组基因表达平均值)-log2(conGeneMeans/d对照组基因表达平均值)(https://mp.weixin.qq.com/s/FjG7AjPjn_Vrgk9CV7lmuA)。筛选到的基因太多,我们可以将差异分析阈值卡的更严格,logFC取到2。生存分析的阈值,我们同样可以调整。我们还可以多纳入几个除OS之外的预后结局,比如TCGA数据库收录的PFS,DSS,DFI,分别进行批量的生存分析。通过上述操作,筛选到的基因范围会瞬间缩小。

图1:TCGA数据库收录患者的预后数据,包括OS,PFS,DSS和DFI(PMID: 38385075)

同样,我们还可以按阈值对基因进行排序,按照阈值大小选择基因也是一个合理的方法。

2.特定基因集

在目的基因的筛选1.0中我们谈到,如果课题组有固定的研究方向,或者你有感兴趣的研究方向,或者想追热门,那么可以从某一大方向入手。并且列举了一大堆收录相关基因集的数据库(后期会有相关推文演示如何利用不同数据库获取基因集)。其实从特定基因集入手,是缩小范围最好最有效的方法。此外,如果实在是没有特定的大方向,你还可以先用差异表达基因去做富集分析,根据富集分析的结果锁定感兴趣的机制和通路。当然,你也会说。通路富集分析也会出现很多候选基因集,应该怎么选?后期咱们也同样会出一期相关推文(暂时先欠着,哈哈哈)。

3.多种分析方法的结合

生信分析的算法、方法有很多,每天都有新的R包被开发出来。笔者也梦想有一天能自己开发一款R包,也在恶补R基础,奈何能力有限。作为一名临床医生,能熟练的使用各种R包已不易,所以先安安稳稳的努力成为一个合格的调包侠吧。

Bulk转录组,除了差异基因分析、生存分析、基因富集分析,我们还可以将其他的分析方法调动起来。比如蛋白质互作网络(PPI, Protein-Protein Interaction Networks)、加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis) 、聚类分析以及各种机器学习(包括线性回归、支持向量机(SVM)、最近邻居(KNN)、逻辑回归、决策树、k平均、随机森林、朴素贝叶斯、降维、梯度增强)等。在应用各种方法来筛选基因时,一定要把握不同生信分析方法的原理、应用范围以及各种方法组合应用的逻辑性(后期也会出一期相关推文)。

图2:蛋白质互作网络(PPI, Protein-Protein Interaction Networks)

4.多个数据集取交集

在数据分析前,我们需要弄清楚数据的来源。受限于人种、地域、样本采集时间、测序方法等诸多因素的影响,不同数据集分析结果可能存在差异。我们在分析一个数据集的差异表达基因之后,如果太多,也可以同时分析多个数据集,取交集基因。交集基因的特异性更强,更具有代表性,湿实验验证阳性率高。

图2:A,B,C,D数据集取交集韦恩图

5.结合单细胞数据

在bulk中获取的差异基因,只是代表组织中该基因的平均表达水平。如果你想研究特定的细胞,如上皮细胞、成纤维细胞、巨噬细胞等。则可以结合单细胞测序数据的分析结果(后期会有一期推文介绍bulk联合单细胞/空转筛选目的基因,敬请期待)。

6.实验筛选

获取到目的基因之后,就需要进行湿实验进行功能和机制研究。但是很多时候,生信筛出来的基因,最好能用在组织/细胞的蛋白(WB/组化)和RNA(pcr)水平上验证出来,但这种一致性有时候会可能并不是特别高。所以在湿实验筛选目的基因前,候选基因的数量也不能太少。

题外话:在生信分析兴起之后,或者课题组新引进生信分析人员之后,导师通常可能会要求优(niu)秀(ma)的你给之前的课题补一部分生信数据,但是我们通常会遇到生信结果无差异甚至是与湿实验结果相反的情况,应该怎么处理(后期也会有相关推文哈哈哈哈哈)?

7.逐个查基因功能进行筛选

生信筛选和实验筛选完成后,在进行后续实验之前,最好是做好充足的背调,要像jc叔叔查fan人一样,通过全方位的文献资料查询,尽全力把候选基因的前世今生彻底弄清楚(具体怎么查,咱们后面再聊)。

结语

目的基因的筛选,是一个简单且复杂的问题,有很长的故事要讲。码字不易,求点赞,评论,在看加关注哈哈哈哈哈。

明天还要上一天手术,今天就先到这里,朋友们咱们目的基因的筛选3.0,4.0......见!!!


往期回顾

肺腺癌单细胞数据集GSE189357复现(二):细胞注释

肺腺癌单细胞数据集GSE189357复现(一):数据下载整理、降维聚类与分群

话廿三 | 以生物信息仰观宇宙之大

小提琴图有点无图是何缘由?

血浆和肿瘤组织的多组学分析揭示了三阴性乳腺癌抗PD-L1免疫治疗的核心蛋白






如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程



看完记得顺手点个“在看”哦!


生物 | 单细胞 | 转录组丨资料
每天都精彩

长按扫码可关注


单细胞天地
对应生信技能树论坛›研究热点›单细胞测序版块,力求全方位收集整理分享单细胞测序数据的应用,涵盖多种组学,多种疾病,发育机理,药物开发等等
 最新文章