单细胞数据挖掘进阶分析之亚群细分

学术   2024-08-22 09:02   北京  

单细胞亚群注释可以说是单细胞分析中最难的一个部分,本帖深入讨论上皮细胞、基质细胞、淋巴细胞和髓系细胞的亚群细分和注释,希望能够帮助大家了解单细胞亚群细分思路和命名策略!

一.  单细胞亚群细分之思路总结

首先,总结一下单细胞亚群细分的步骤框架:

image-20240815123550804

具体来说,我们可以使用subset函数对首次分群的单细胞seurat数据提取目标亚群,用作后续的亚群细分,提取的框架主要是围绕这五个部分,上皮细胞,成纤维细胞、内皮细胞、淋巴细胞和髓系细胞。然后按照首次分群的代码,除了质控以外,重新运行一次,然后进行降维聚类和注释,这样就完成一个部分的亚群细分了。例如,这里我把首次分群里的髓系细胞包括DCs,pDCs和Mono/Mac利用subset函数提取出来,然后进行三步(包括标准化,特征选择和归一化分析),然后使用harmony或者其他整合算法进行整合去批次,在这个基础上进行降维聚类和注释,使用注释好的亚群进行例如细胞比例计算、富集分析等各种个性化分析。同样的,对上皮、成纤维、内皮和淋巴细胞依次操作一遍,一篇单细胞的文章框架就出来了。

二.  关于单细胞亚群注释及命名策略

当然,我认为单细胞亚群细分最难的部分就是注释环节,因为单细胞亚群的注释和命名非常复杂,需要具备本领域的专业知识(特别针对上皮/神经组织部分)和丰富的免疫知识体系(特别是淋巴细胞和髓系细胞)。在这里我也想向各位分享一些我自己的心得体会,但是由于涉及大量的生物学背景,因此很可能会挂一漏万,如果出现任何的错误,还请各位批评指正。

image-20240815124038150

我认为亚群注释的核心原则应该是先大类和后小类,例如前列腺癌上皮细胞,后续的亚群细分可以围绕Basal、Luminal,Neuroendocrine cells这几种大家都认可的上皮细胞类型进行注释。基质细胞可以围绕CAFs、Myofibroblast、Pericyte和Endothelia进行后续的亚群注释。而淋巴/NK细胞可以围绕B、CD4T、CD8T、NKT、NK进行亚群注释。髓细胞细胞可以围绕Monocytes、Macrophage、Dendritic cell、Neutrophil和Mast cells这几个大类进行亚群注释。

具体的亚群注释命名风格:

  • 数字命名法,例如C1,C2,C3,总体比较少见,但可多见于肿瘤细胞亚群细分;
  • 第二种风格是按功能/特征分群:例如CD8T navie, CD8T memory,CD8T central memory, CD8T effect memory, CD8T exhausted等;
  • 第三种风格是按Top基因(多为转录因子/功能性基因)分群:例如CD8T_LEF1,CD8T_GRP183,CD8T_GZMK,CD8T_LAG3等;
  • 最后一种风格是把功能/特征和Top基因混合命名法,这种命名形式目前越来越流行,特别适合免疫细胞部分的注释。

接下来,我总结了每一块内容,同时结合几篇比较经典的文献,对单细胞亚群注释做一些讨论(个人心得)。

三. 单细胞亚群细分之上皮细胞篇

上皮细胞因组织区域不同,采用的注释策略不同:

  • 第一种策略是对上皮细胞进行亚群细分:参考常规的亚群细分思路(标准化、特征选择、归一化、去批次和降维聚类分群注释);
  • 第二种策略是不对上皮细胞进行细分,而是使用scNMF等无监督聚类工具识别重要的基因功能模块;
  • 第三种分析策略是混合型,即将亚群细分+ scNMF无监督聚类组合起来。

例如这篇宫颈癌文章在上皮细胞注释部分采用的数字命名法:

image-20240815124525190

例如这里的Epi1到Epi8,在此基础上进行基因和功能表征。由于肿瘤上皮细胞存在较大的异质性,因此这个数字命名法针对上皮细胞使用的频率还是比较高的。例如下面这篇CCR的卵巢癌文章仍采用这种分析策略:

image-20240815124614313

另外,功能/特征命名法在上皮细胞部分也比较常见,例如这篇前列腺癌文章,将上皮细胞分为BE,basal细胞,ETG+和ERG-肿瘤细胞,还有非恶性LE就是Luminal细胞:

image-20240815124636065

此外,2022年的EMM文章采用功能/特征和Top基因混合命名法,对肺上皮细胞进行注释命名,也非常值的学习:

image-20240815124717058

除了细分注释以外,使用scNMF识别重要的基因模块,这种分析策略在肿瘤上皮细胞部分也非常常见。例如这篇2022年的NG文章基于恶性上皮细胞,识别到十余种基因功能模块,包括细胞周期,压力,干扰素,缺氧,氧化硫酸化和EMT等:

image-20240815124758930

这篇最新的Nature文章对1000对例肿瘤上皮细胞样本进行无监督聚类,识别到十余种功能模块。

image-20240815124833775

另外一种分析风格就是结合上皮细胞命名注释和scNMF,这样的分析对于上皮细胞部分来说也是非常扎实:

image-20240815124854026

四. 单细胞亚群细分之基质细胞篇

介绍完上皮细胞部分,我们再来聊一聊基质细胞的注释。相对上皮细胞来说,基质细胞还是存在很多跨组织的通用型的细胞类型和标志物,随后我一一做介绍。内皮和成纤维一般可分开分析进行亚群细分,当然也有少数文章合在一起继续细分,同时大多数文章按照功能进行分群注释。

内皮细胞常见的亚群有

  • 淋巴内皮细胞,LEC,经典的标志物有PROX1, PDPN, ALCAM;
  • 静脉内皮细胞,VEC,经典的标志物有ACKR1, SELP, NR2F2;
  • 动脉内皮细胞,AECs,特征的标志物有GJA4, GJA5, EFNB2;
  • 尖端细胞,TipECs,特征标志物有CXCL12, CXCR4, ACKR3;
  • 毛细血管内皮细胞,CapECs,特征标志物有CA4, CD36;
  • 富含干扰素诱导基因的 内皮细胞,ISG+ECs,特征标志物有ISG20, IFIT1, IFIT3;
  • 最后是增殖相关的内皮细胞,特征标志物有MKI67, TOP2A。
image-20240815125000898

肿瘤相关成纤维细胞常见的亚群主要有

  • Myofibroblast,简写为myCAFs,高表达ACTA2, COL1A2, PDGFRB;
  • 细胞外基质细胞成纤维细胞,可命名为mCAFs,其特征是高表达胶原相关标志物,包括COL5A1, COL5A2, COL6A3,以及POSTN,FN1等;
  • 炎性相关CAFs,iCAFs,其特点是高表达炎性和补体相关标记物,包括FBLN1, IGFI, CXCL1, C3, C7;
  • 抗原呈递相关CAFs,apCAFs,高表达抗原呈递相关标志物,包括CD74,HLA-DRA,HLA-DRB1;
  • 脂质相关CAFs,LipCAFs,高表达脂质相关标志物,例如APOA2, CFD和APOD等;
  • 周细胞,部分文章也描述为vCAFs,高表达GJA4和RGS5等周细胞标志物;
  • 增殖相关CAFs,dCAFs,高表达MKI67和TOP2A等增殖标志物。
image-20240815125016539

另外关于基质部分,我也推荐大家多阅读几篇综述,去理解内皮细胞和成纤维细胞的功能特点,例如我介绍过一篇肿瘤成纤维相关的综述文章【化敌为友:靶向肿瘤相关成纤维细胞】

接下来,我介绍几篇大家平时做注释或者分析可以参考的范文。这是一篇发表于2020年的Cancer Cell文章,做的是肺癌,文章对内皮细胞亚群的剖析非常细致,除了一些通用性的内皮细胞亚群,还识别了很多肺组织特异性的内皮细胞亚群。这里的分析思路也和我开头总结的一致:

image-20240815125024743

第二篇文章是一篇泛癌文章,发表于2020年的Cell research,文章识别了八种广泛存在的内皮细胞,这里主要是用Top基因结合内皮细胞功能和特征进行命名的:

同样还是这篇Cell research泛癌文章,作者识别了十余种广泛存在的成纤维细胞亚群,主要是用Top基因结合成纤维细胞的功能和特征进行命名的。这篇文章在分群注释之后的分析也非常值得参考和借鉴:

image-20240815125041786

这篇肝内胆管癌的成纤维细胞部分的剖析也是非常经典的一篇范文,作者识别到6个成纤维细胞亚群,然后用差异分析和GO富集分析表征每一个亚群的基因和通路特征。这篇文章的注释和分析思路,被后续很多高分文章模仿和沿用:

image-20240815125053008

这里再补充2篇最近发表的顶刊内皮细胞图谱文章:

  • Pan-cancer integrative analyses dissect the remodeling of endothelial cells in human cancers

    image-20240815130958636
  • Tumour vasculature at single-cell resolution

image-20240815131138187

五. 单细胞亚群细分之淋巴细胞篇

介绍完基质部分之后,我们再聊一聊免疫细胞。可以说淋巴细胞和髓系细胞的亚群注释是难点中的难点,要求分析者有比较深厚的生物学功底。首先是淋巴细胞部分。大多数文章会把T细胞和NK细胞合并进行亚群细分,B细胞单独拿出来细分。当然也有一些文章把T,NK和B细胞合在一起进行亚群。淋巴细胞的注释策略比较多,大多数是使用TOP基因命名法或者功能特征命名法。不过目前越来越多的文章采取了混合命名法。

image-20240815125524610

T细胞常见的大类有CD4T, CD8T,T Cycling和NKT细胞几类,再进一步分类,可以分为

  • T naïve,高表达naïve相关的标志物,包括LEF1,CCR7和TCF7等;
  • T memory,记忆T细胞,高表达IL7R,CD69和GRP183等;
  • Effect/Cytotoxic (Tem/Teffe),效应或者毒性T细胞,高表达GZMK,IFNG,GNLY等毒性相关的标志物;
  • Exhausted (Tex),耗竭T细胞,高表达耗竭相关的标志物,包括LAG3,PDCD1和CTLA4等;
  • HSP+ (Tstr),HSP+T细胞,高表达stress相关的标志物,包括HSP+相关标志物,DNAJB1等;
  • Tissue-resident (Trm),组织驻留T细胞高表达一些驻留相关的标志物,包括XCL1, XCL2和ITGAE等;
  • Treg,属于CD4T细胞,高表达FOXP3和耗竭相关标志物;
  • Th1/Tfh也属于CD4T细胞,高表达CXCL13, IL6ST, ICOS等;
  • Th17属于CD4T细胞,高表达一些炎性相关的标志物,包括IL17A, IL23R和RORC;
  • Proliferating (T cycling),高表达增殖相关的标志物,包括MKI67和TOP2A。

NK细胞一般可以分为CD56bright NK细胞和CD56dim NK,B细胞可以进一步分为Naïve,memory,浆细胞和浆母细胞等,相应的标志物也贴在这里:

NK细胞:

  • CD56bright NK: KLRC1, CD44, COTL1, XCL1, XCL2, TBX21, EOMES;

  • CD56dim NK: GZMB, FGFBP2, PRF1, FCGR3A, TBX21;

B细胞

  • Naïve: IGHD,IL4R,FCER2,TCL1A;

  • Memory: CD27,IGHG1,AIM2, TNFRSF13B;

  • Plasma: PRDM1, MZB1;

  • Plasmablasts: XBP1,SDC1 (high XBP1 and low SDC1);

  • Short-lived plasma cells: high SDC1l;

  • Long-lived plasma cells: high SDC1, STAT3, IKZF3.

image-20240815125551984

然后我们看几篇范文。第一篇是泛癌T细胞顶刊之作,来自张泽民老师团队,发表于2021年的science,这篇文章对T细胞进行了非常细致的亚群细分,分析的手段和思路也非常漂亮,非常推荐大家去仔细阅读和学习:

image-20240815125610160

第二篇NK泛癌文章也是来自张泽民老师团队,发表于2023年的cell,做的也是非常仔细和漂亮,值得学习:

image-20240815125626196

关于B细胞的亚群细分和分析,大家可以参考这篇2022年的Science文章,这篇文章的通讯也是领域内的大佬:

image-20240815125636304

当然,最近也有两篇关于B细胞泛癌图谱的顶刊文章,第一篇是Science,第二篇是Cell,通讯作者大家都非常熟悉了:

  • A blueprint for tumor-infiltrating B cells across human cancers
  • Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes

六. 单细胞亚群细分之髓系细胞篇

最后,我介绍一下髓细胞的亚群细分。这是髓细胞的亚群细分框:

image-20240815130003453

髓系细胞主要包括Monocytes、Macrophage、Dendritic cells、Neutrophil和Mast cells,大多数文章按照功能或TOP基因进行分群注释,常见的功能/特征亚群有:CD14+ Mono,CD16+ Mono,巨噬细胞一般没有比较统一的分类标准,可以按照Top基因进行分群,例如Macro_INHBA,Macro_SPP1,Macro_NLRP3,Macro_ LYVE1,Macro_ C1QC。需要强调的是,传统的M1和M2分类一般在单细胞层面无法区别。树突状细胞可以用这几种通用性的标志物分为4类,pDC,cCD1,cCD2和cCD3。对Mast cell和中性粒细胞目前进行亚群细分的文章比较少。最后,髓系里也有一群增殖细胞。

  • Mono CD14+: CD14,S100A9,S100A8;
  • Mono CD16+: FCGR3A,LST1,LILRB2;
  • Macro: 一般没有比较统一的分类标准,可以按照Top基因进行分群,例如Macro_INHBA,Macro_SPP1,Macro_NLRP3,Macro_ LYVE1,Macro_ C1QC。需要强调的是,传统的M1和M2分类一般在单细胞层面无法区别;
  • pDC: LILRA4,GZMB,IL3RA;
  • cDC1: CLEC9A,FLT3,IDO1;
  • cDC2: CD1C,FCER1A, HLA-DQA1;
  • cDC3: LAMP3,CCR7,FSCN1;
  • Mast: KIT,TPSAB1,CPA3;
  • Neutrophil: CSF3R,S100A9,FCGR3B,ALPL,CXCR1;
  • Proliferating/Cycling: MKI67, STMN1, TOP2A.

然后我介绍2篇髓系细分的参考范文,2篇都来自张泽民老师团队。第一篇是发表于2021年的Cell髓系泛癌文章:

image-20240815130100026

第二篇文章做的是结直肠癌,这篇文章不仅包括髓系细胞,也包括其他免疫细胞,主要采用Top基因命名法,发表于2022年的Cancer cell。非常适合大家作为范文学习单细胞的行为思路:

image-20240815130115501

更多的内容在【这是一套诚意满满的单细胞分析及应用教程!】


◆ ◆ ◆  ◆ 

精心整理(含图PLUS版)|R语言生信分析,可视化(R统计,ggplot2绘图,生信图形可视化汇总)

RNAseq纯生信挖掘思路分享?不,主要是送你代码!(建议收藏)


觉得对您有点帮助的希望可以点赞,在看,转发!

生信补给站
生信,R语言, Python,数据处理、统计检验、模型构建、数据可视化,我输出您输入!
 最新文章