仅使用SingleR做单细胞亚群的生物学注释都拒稿吧!

学术   2024-11-29 10:16   广东  

通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。

前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群, 以及免疫细胞里面的髓系和B细胞细分亚群:

虽然说到第二层次的降维聚类分群的时候,大家会有很多疑惑。但是肿瘤领域的单细胞转录组的第一层次降维聚类分群应该是很清晰的了,太多的文章给出来了大家汇总好的各个单细胞亚群的特异性基因列表,如下所示:

# 创建一个包含不同细胞类型及其对应标记基因的列表
Bcells <- c("PTPRC""MS4A1""CD79A""CD19" )
Dendritic <- c("PTPRC""IL3RA""IRF7""IRF8""GZMB""CD4""CLEC4C""PTGDS""JCHAIN""PLAC8""PLD4""TCF4""BCL11A""GPR183""CCDC50""LILRA4""TSPAN13""CLIC3""MPEG1")
Endothelial <- c("CLEC14A""PECAM1""VWF""CAV1""EMCN""CDH5""MCAM""IL3RA""IGFBP7""COL4A1""COL4A2""COL15A1""SPARCL1""A2M""HSPG2""PLVAP""AQP1""ENG""RAMP2""GNG11""EGFL7""CLDN5""INSR")
Fibroblast <- c("COL1A1""COL3A1""WT1""ACTA2""CAV1""COL1A2""DCN""SPARC""COL6A1""CCDC80""LUM""COL6A2""COL6A3""CALD1""RARRES2""MGP""CTHRC1""AEBP1""POSTN""COL5A2""FBLN1""TAGLN""C1S""C1R""NNMT""MMP2""IGFBP5""TIMP1""FN1""IGFBP7""C3""COL5A1""LGALS1")
Myeloid <- c("PTPRC""CD14""FCER1G""FCGR3A""LYZ""CTSS""CD33""CD68""CD163""ITGAX""ITGAM""CD4""MRC1""VSIG4""SPP1""APOE""C1QA""C1QB""C1QC""APOC1""FTL""S100A9""TYROBP""AIF1""CD74""PSAP""CTSB")
Epi <- c("WFDC2""CD24""CLDN3""KRT7""KRT8""KRT17""KRT18""KRT19""EPCAM""WT1""CLDN4""MSLN""FOLR1""MUC1")
Plasma <- c("PTPRC""IGKC""IGHG1""CD79A""IGHG2""IGLC2""IGLC3""IGHG3""IGHG4""JCHAIN""MZB1""XBP1")
Tcells <- c("PTPRC""CD2""CD3D""TRAC""GZMA""NKG7""CD3E""CD3G""CD4""TCF7""CD8A""PRF1""GZMB""CCL5""CCL4""IL32""CD52")
Mast <- c("PTPRC""KIT""CPA3""CTSG""MS4A2""TPSAB1""TPSB2""HPGD""HPGDS""GATA2")
SMC=c('NOTCH3','RGS5','NDUFA4L2','MYH11','COX4I2','PLN')
cycle=c('RRM2','MKI67','BIRC5','UBE2C','TOP2A','AURKB')

只需要把上面的基因列表拿去大家自己的肿瘤相关单细胞转录组降维聚类分群结果里面可视化,就可以很清晰的分辨出来不同生物学名字。比如这个2024的单细胞数据挖掘文章里面的卵巢癌单细胞《Single-cell sequencing reveals PTX3 involvement in ovarian cancer metastasis》,如下所示20万个细胞很容易给出来第一层次降维聚类分群的生物学名字:

20万个细胞很容易给出来第一层次降维聚类分群的生物学名字

但是仍然是有很多人不去学习这些亚群背后的生物学意义

学习这些单细胞亚群的层次结构确实是需要一点时间,比如我做肿瘤的就不太想去看视网膜相关的分群,也不想看脑区域神经元相关的,再比如心血管细胞类型包括心肌细胞、成纤维细胞、内皮细胞、平滑肌细胞(SMC)、周细胞、免疫细胞、神经元和神经胶质细胞以及脂肪细胞。

但是,如果大家都要发肿瘤相关单细胞数据挖掘文章, 还不用心学习就有点说不过去了,比如这个新鲜出炉的口腔癌的单细胞数据挖掘文章:《Identification and analysis of a cell communication prognostic signature for oral squamous cell carcinoma at bulk and single-cell levels》,第一层次降维聚类分群就是简单的跑了一下SingleR做单细胞亚群的生物学注释,然后就没有然后了。。。。

简单的跑了一下SingleR做单细胞亚群的生物学注释

图丑爆了就先不说,感觉是最后定下来了单细胞亚群的生物学注释很明显就不符合逻辑的啊,口腔癌的肿瘤样品里面为什么有皮肤角质细胞呢,完全可以一起命名为上皮细胞,然后取上皮细胞子集去走inferCNV看拷贝数变异,走NMF看肿瘤个体异质性啊。还有就是里面的CMP是什么鬼呢?里面的tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞啊。

tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞

工具本身是好的

奈何使用工具的人自身知识储备太少了,很容易滥用或者误用。

如果第一层次降维聚类分群就给出来了错误的生物学名字,后面的细致分析都是无根之水,基本上看都不用看了。关于这个分析细节,其实我写了一个专辑来解释,可惜啊看的人仍然是不多:


这个时候如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。

如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)


生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。

数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)

详细比较如下:



报名时间

每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。

数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。

钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看)直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!



生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
 最新文章