通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:
immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群, 以及免疫细胞里面的髓系和B细胞细分亚群:
虽然说到第二层次的降维聚类分群的时候,大家会有很多疑惑。但是肿瘤领域的单细胞转录组的第一层次降维聚类分群应该是很清晰的了,太多的文章给出来了大家汇总好的各个单细胞亚群的特异性基因列表,如下所示:
# 创建一个包含不同细胞类型及其对应标记基因的列表
Bcells <- c("PTPRC", "MS4A1", "CD79A", "CD19" )
Dendritic <- c("PTPRC", "IL3RA", "IRF7", "IRF8", "GZMB", "CD4", "CLEC4C", "PTGDS", "JCHAIN", "PLAC8", "PLD4", "TCF4", "BCL11A", "GPR183", "CCDC50", "LILRA4", "TSPAN13", "CLIC3", "MPEG1")
Endothelial <- c("CLEC14A", "PECAM1", "VWF", "CAV1", "EMCN", "CDH5", "MCAM", "IL3RA", "IGFBP7", "COL4A1", "COL4A2", "COL15A1", "SPARCL1", "A2M", "HSPG2", "PLVAP", "AQP1", "ENG", "RAMP2", "GNG11", "EGFL7", "CLDN5", "INSR")
Fibroblast <- c("COL1A1", "COL3A1", "WT1", "ACTA2", "CAV1", "COL1A2", "DCN", "SPARC", "COL6A1", "CCDC80", "LUM", "COL6A2", "COL6A3", "CALD1", "RARRES2", "MGP", "CTHRC1", "AEBP1", "POSTN", "COL5A2", "FBLN1", "TAGLN", "C1S", "C1R", "NNMT", "MMP2", "IGFBP5", "TIMP1", "FN1", "IGFBP7", "C3", "COL5A1", "LGALS1")
Myeloid <- c("PTPRC", "CD14", "FCER1G", "FCGR3A", "LYZ", "CTSS", "CD33", "CD68", "CD163", "ITGAX", "ITGAM", "CD4", "MRC1", "VSIG4", "SPP1", "APOE", "C1QA", "C1QB", "C1QC", "APOC1", "FTL", "S100A9", "TYROBP", "AIF1", "CD74", "PSAP", "CTSB")
Epi <- c("WFDC2", "CD24", "CLDN3", "KRT7", "KRT8", "KRT17", "KRT18", "KRT19", "EPCAM", "WT1", "CLDN4", "MSLN", "FOLR1", "MUC1")
Plasma <- c("PTPRC", "IGKC", "IGHG1", "CD79A", "IGHG2", "IGLC2", "IGLC3", "IGHG3", "IGHG4", "JCHAIN", "MZB1", "XBP1")
Tcells <- c("PTPRC", "CD2", "CD3D", "TRAC", "GZMA", "NKG7", "CD3E", "CD3G", "CD4", "TCF7", "CD8A", "PRF1", "GZMB", "CCL5", "CCL4", "IL32", "CD52")
Mast <- c("PTPRC", "KIT", "CPA3", "CTSG", "MS4A2", "TPSAB1", "TPSB2", "HPGD", "HPGDS", "GATA2")
SMC=c('NOTCH3','RGS5','NDUFA4L2','MYH11','COX4I2','PLN')
cycle=c('RRM2','MKI67','BIRC5','UBE2C','TOP2A','AURKB')
只需要把上面的基因列表拿去大家自己的肿瘤相关单细胞转录组降维聚类分群结果里面可视化,就可以很清晰的分辨出来不同生物学名字。比如这个2024的单细胞数据挖掘文章里面的卵巢癌单细胞《Single-cell sequencing reveals PTX3 involvement in ovarian cancer metastasis》,如下所示20万个细胞很容易给出来第一层次降维聚类分群的生物学名字:
但是仍然是有很多人不去学习这些亚群背后的生物学意义
学习这些单细胞亚群的层次结构确实是需要一点时间,比如我做肿瘤的就不太想去看视网膜相关的分群,也不想看脑区域神经元相关的,再比如心血管细胞类型包括心肌细胞、成纤维细胞、内皮细胞、平滑肌细胞(SMC)、周细胞、免疫细胞、神经元和神经胶质细胞以及脂肪细胞。
但是,如果大家都要发肿瘤相关单细胞数据挖掘文章, 还不用心学习就有点说不过去了,比如这个新鲜出炉的口腔癌的单细胞数据挖掘文章:《Identification and analysis of a cell communication prognostic signature for oral squamous cell carcinoma at bulk and single-cell levels》,第一层次降维聚类分群就是简单的跑了一下SingleR做单细胞亚群的生物学注释,然后就没有然后了。。。。
图丑爆了就先不说,感觉是最后定下来了单细胞亚群的生物学注释很明显就不符合逻辑的啊,口腔癌的肿瘤样品里面为什么有皮肤角质细胞呢,完全可以一起命名为上皮细胞,然后取上皮细胞子集去走inferCNV看拷贝数变异,走NMF看肿瘤个体异质性啊。还有就是里面的CMP是什么鬼呢?里面的tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞啊。
工具本身是好的
奈何使用工具的人自身知识储备太少了,很容易滥用或者误用。
如果第一层次降维聚类分群就给出来了错误的生物学名字,后面的细致分析都是无根之水,基本上看都不用看了。关于这个分析细节,其实我写了一个专辑来解释,可惜啊看的人仍然是不多:
bulk层面的癌症和癌旁的表达量差异主要是因为? 癌症和癌旁的差异基因能在单细胞层面区分上皮细胞的恶性与否吗 算不上什么大错误的成纤维细胞亚群的细分操作 单细胞亚群取子集后的细分亚群再命名的两个难题 是否需要抹除细胞周期对单细胞降维聚类分群的影响呢 每个单细胞亚群取子集后继续降维聚类分群标准操作(以b细胞为例) 不是造假胜似造假的单细胞降维聚类分群 到底是量化样品还是单细胞之间的相关性呢 有监督的挑选了特征之后的无监督的分析还可靠吗 走inferCNV流程的时候只需要针对上皮细胞即可 上皮细胞里面混入了淋巴系和髓系免疫细胞呢 单细胞亚群绝对数量和相对比例的探索 为什么胃癌并不使用拷贝数来判断恶性的肿瘤上皮细胞呢 没有绝对正确的单细胞转录组质量控制指标 学习单细胞亚群命名的层次结构 单细胞转录组降维聚类分群过滤基因和过滤细胞的区别
这个时候如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。
如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)
生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。
数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)
详细比较如下:
报名时间
每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。
授课时间和方式
生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。
数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。
钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看),直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。
新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!