神经内分泌前列腺癌(NEPC)通常意味着严重的致死率和有限的治疗选择。NEPC细胞的准确鉴定对机制研究和临床应用都具有重要意义,但有效的NEPC生物标志物仍有待确定。今天分享一篇2024年1月华中科技大学团队发表在Theranostics(IF:12.4)的分析文章。该研究为鉴定NEPC和监测前列腺癌(PCa)进展提供了一个有价值的工具。
一研究背景
前列腺癌(PCa)是男性中第二常见的癌症,影响全球数百万男性。雄激素受体(AR)信号通路在前列腺癌的进展中起重要作用,而靶向AR信号通路可导致激素敏感性前列腺癌(HSPC)的反应。这种疾病经常复发成为一种更具侵袭性的表型,称为去势抵抗性前列腺癌(CRPC),其中大多数仍然被组织学分类为腺癌(CRPC-adeno),AR通路被重新激活。其中,约17%的CRPC表现出不同程度的神经内分泌(NE)表型(CRPC-NE),并可能进一步发展为低分化NE PCa (NEPC),这一亚型通常意味着严重的致死率和缺乏治疗选择。
随着患者接受多线治疗,NEPC的发病率预计会增加。NE肿瘤细胞在组织学上可与复杂PCa微环境(TME)中的其他细胞区分开来;但它们的稀缺性,尤其是在疾病的早期阶段,导致早期NEPC经常被漏诊。目前,NEPC的诊断主要依赖于几种生物标记物的免疫组化:阴性AR、高MKI67和阳性NE标记物。然而,这些蛋白在NE肿瘤细胞中的表达是异质性的,这大大降低了其诊断敏感性。
新一代测序技术的出现为全面描绘NEPC分子图谱提供了条件。NEPC的关键驱动因素已经确立,如原发性PCa中FOXA1和SPOP的突变、RB1缺失和TP53功能障碍诱导的系谱可塑性,以及晚期PCa中EZH2等多聚酶抑制复合体-2(PRC2)的激活。同时,这些研究提出了10多个与NEPC相关的基因集,共包括数千个差异表达基因(DEGs)。然而,这些基因集具有相当大的异质性,可能的原因包括:a.这些研究大多基于数量有限的NEPC病例;b.CRPC-Adeno和NEPC之间的基因表达谱惊人地相似;c.这些基因集严重依赖于来自大块肿瘤而非NE肿瘤细胞的转录组数据。因此,为了基础研究和临床转化的目的,仍然迫切需要开发敏感而特异的 NEPC 标志物。
在本研究中,作者首先收集了大量人类PCa的scRNA-seq meta图谱,发现已发表的11个NE基因集一致性差、作用力弱。为了生成更好的NEPC预测因子,开发了一个综合管道,将bulk转录组数据、scRNA-seq数据和多种算法结合在一起,确定了771个高质量的NEPC特征标记和一个NE细胞内在基因特征,并构建了一个稳健的NEPC风险预测模型。通过使用来自人类PCa队列和PCa实验模型的大量数据集,NEPC分类器在预测疾病进展为NEPC、预后和治疗反应性方面显示出卓越的能力,优于所有已发表的PCa预后模型。NEPAL模型为精确识别和描述NE肿瘤细胞提供了有用的参考。
二主要结果
1.以往的NEPC基因集一致性较低,检测效能较差
作者收集并分析了所有11个已发表的NE标记基因集,包括9个来自bulk转录组数据的 NEPC基因列表、1个来自正常前列腺scRNA-seq的基因列表和1个来自MSigDB数据库的代表性泛前列腺肿瘤基因列表。这11个基因集共包含1482个表达上调的NE标记(NEPC_Meta)。然而,这些基因集之间的重叠率很低,只有61个基因重叠了四次以上。
为了评估这些NE标记物的灵敏度和效率,作者根据已发表的9个人类PCa scRNA-seq数据集(图1A),生成了一个全面的scRNA-seq参考图谱,其中包含来自66个PCa肿瘤的210,879个单细胞,涵盖原发性HSPC(Pri)、CRPC、mCRPC和NEPC。通过相应的生物标记物共确定了15种细胞类型,然后计算了每个样本中NE肿瘤细胞的频率(图1B)。研究发现这些 NE标志物(894/1482)中有一半以上并不只在NE肿瘤细胞或具有NE特征的患者中表达(图 1C)。至于上述61个重叠率较高的基因,尽管它们能很好地鉴别NEPC肿瘤,但一半以上(41/61)的表达丰度较低(在所有NE肿瘤细胞中的表达百分比低于20%)(图1D),这意味着它们的效率较低。最后,通过使用AUCell富集分析计算各基因集的NE评分,结果证实了大多数基因集在scRNA-seq数据中识别NE肿瘤细胞的特异性较低(图1E)。这些结果表明,已发表的NE基因集的一致性较低,识别能力较差。
图1. scRNA-seq分析显示已发表的NEPC基因集合灵敏度低、效率低
2.基于scRNA-seq和bulk RNA-seq meta数据库构建NEPC分类器
为了鉴定高质量的NEPC特征标记,作者设计了一个包括上述已发表的NEPC_Meta标记、基于bulk RNA-seq的PCa WGCNA基因模块和本研究PCa scRNA-seq meta图谱的计算管道(图 2A)。最后,确定了587个上调和184个下调的NEPC特征基因,统称为NE_FG(图 2B)。由于侧重于癌细胞固有基因表达的特征被认为在临床上更有用,作者还将NE_FG与NE肿瘤细胞的DEGs重叠,得到了两个NE细胞固有基因特征,分别称为NE_UP(n = 90)和NE_DN(n = 40)(图2C)。所有NE_UP特征基因都具有较高的表达丰度(所有 NE 肿瘤细胞的表达百分比均大于 20%)。
图2. 基于scRNA-seq和bulk RNA-seq meta数据库,结合多种策略鉴定NEPC标记
为了进一步构建NEPC预测模型,作者对训练集应用了7种基于NE_FG的经典机器学习算法。此外,还基于ssGSEA算法构建了结合NE_UP和NE_DN的NE_UP_DN模型。随后,利用这些NEPC预测因子计算了6个NEPC肿瘤队列中每个样本的NEPC风险评分。在评价指标方面,作者计算了每种算法的平均C指数(图3A)和R2。在这些模型中,NE_UP_DN_ssGSEA、Enet [α= 0.01]和NE_UP_ssGSEA排在前三位,它们的ROC曲线下面积也很高(AUC > 0.90,图 3B)。此外,除RSF和GBM模型外,大多数预测因子与NEPC预测得分的皮尔逊相关系数都很高(图 3C)。根据scRNA-seq meta图谱,大多数算法在预测NEPC风险评分与NE肿瘤细胞的细胞分数之间显示出较高的相关性(图3D)。作者还通过六个验证数据集计算 AUC指数,将该模型与已发表的11个NEPC_Meta基因集进行了比较,模型一致优于之前的 NE基因列表(图3E)。
为了进行验证,作者选择了最佳分类器NE_UP_DN signature,并在scRNA-seq meta图谱和另外三个scRNA-seq验证集和空间转录组数据集中评估了其预测性能:a. 基于Smart-seq2 的scRNA-seq数据集;b.基于荧光激活细胞分选(FACS)的单细胞数据集;c. de novo NEPC与HSPC共存的空间基因表达图谱。结果显示,NE_UP_DN与AUCell算法在所有验证集中都能精确预测NEPC细胞状态(图 3F-G)。综上所述,本文的模型可以根据bulk和单细胞来源的转录组数据,稳健地区分具有NE特征的肿瘤。之后作者使用NE_UP_DN特征进行了后续分析,以下称其为NEPC算法(NEPAL)。
图3. 人工智能开发NEPC风险预测模型的构建与验证
3.利用NEPAL来描绘PCa进展的路径
除了区分NEPC外,作者还假设NEPAL可以量化NEPC的进展,因为它将上调和下调的NE细胞内在特征基因都纳入了模型。为了评估这一假设,作者首先对scRNA-seq meta图谱中的21,526个NE肿瘤细胞进行了重新聚类,从而确定了8个NEPC亚群(图4A-B)。这些亚群中CHGA、SYP、ENO2和NCAM1等经典的NE标记物均呈异质性表达(图4C)。采用AUCell 算法的NEPAL在所有NEPC亚簇中几乎都有表达(图4D)。接下来,对8 NEPC亚簇进行了伪时间和CytoTRACE分析(图4E-F),其进化轨迹与NEPAL风险评分高度相关(图4G),表明其在预测NEPC进展方面的实用性。作者还发现PCa表达谱中的NEPAL风险指数与伪时间评分之间存在显著的相关性(图4h)。此外,作者在TCGA-PRAD、CamCap、ICGC-PRAD和CPGEA四个独立数据集中检查了尼泊尔风险指数与Gleason评分之间的关系。总的来说,这些结果表明NEPAL可以用于预测NE前列腺癌的疾病进展。
图4. NEPAL描绘PCa进展的路径
4.NEPAL在PCa实验模型中的应用
为了验证其实用性,作者进一步将NEPAL应用于PCa实验模型的转录组图谱。对于来自CCLE的8个人类PCa细胞系,NEPAL准确地为NEPC细胞系NCHI-H660分配了最高的NEPC风险分值。DU145、22RV1和PC3等CRPC细胞系紧随其后,而MDA-PCa-2B和LNCaP等激素依赖性细胞系的NEPC风险得分最低。此外,作者还观察到NEPAL评分与CHGA和SYP等NE经典标记物之间存在较高的皮尔逊相关系数。
同时,作者将NEPAL应用于从2个人类 PCa PDX肿瘤和3个PCa转基因小鼠模型中生成的bulk转录组数据集。PDX数据库(UW/RA)包含128个人类PCa肿瘤的转录组数据,其中包括87个CRPC和41个PDX肿瘤。在PDX肿瘤中,NEPAL评分与AR/NE状态的演变密切相关(图5A)。同时,还观察到预测的NEPC风险评分与NE标记物之间存在较高的皮尔逊相关系数(图 5B)。在一个独立的PDX队列中也多次检测到类似的关联(图5C-D)。这一现象并不局限于人类PCa,NEPAL在两个小鼠PCa数据集中也显示出了一致的表现(图5E)。最后,根据小鼠PCa模型RNA-seq数据集,NEPAL在预测NEPC状态方面再次表现出卓越的准确性,表现出显著的生存分层(图5F)。这些结果增强了NEPAL鉴别NEPC的能力。
5.NEPAL的预后价值和生物学相关性
为了评估NEPAL模型的预后价值,作者收集了12个独立的bulk转录组数据集,包含2000多个人类PCa样本,其中10个数据集具有可用的预后信息。作者观察到NEPAL能有效地对HSPC的生化复发(BCR)和晚期PCa患者的总生存期(OS)进行分类(图6A-C)。此外,根据现有的治疗信息,包括激素治疗、化疗和第二代AR信号抑制(ARSI),NEPAL还能可靠地预测化疗和ARSI的耐药性。在SU2C、UM/SPORE、MCTP或CPGEA队列中,未接受过治疗组和接受过治疗组的NEPAL评分无明显差异,这表明患者之前的治疗史对NEPAL模型的预后准确性影响不大。为了进一步比较NEPAL模型的预后能力,作者收集了20个已发表的预后模型,这些模型均由不同的机器学习算法生成,同时还包括传统的临床参数,如PSA评分、Gleason评分和肿瘤分期。C指数显示,在10个多中心PCa队列中,NEPAL是比其他模型和传统临床参数最强大的特征(图6D),揭示了NEPAL模型在预后预测中的稳健性。
同时,在所有数据集中,NEPAL 风险评分与血统可塑性相关通路(如 EZH2、SOX2、NE 分化)的活性以及 RB1、PTEN 和 TP53 信号的缺失明显相关(图 6E)。此外,NEPAL风险评分还与晚期PCa的几个特征,即AR-V、细胞周期进展、MYC靶点、增殖和干性显著相关,而与雄激素反应和管腔特征则相反(图6E)。这些结果共同增强了NEPAL预测PCa患者预后、治疗反应性和分子特征的能力。
图6.人类PCa数据库中NEPAL的预后和分子特征
6.TME成分、患者参数和肿瘤分期对NEPAL预测准确性的影响
为了评估TME成分、患者年龄和种族以及肿瘤分期对NEPAL模型预测准确性的潜在偏差,作者对这些因素进行了分层分析。结果显示,NEPAL模型在不同的TME组别中对患者预后和NEPC风险保持了稳健的预测能力。同时,NEPAL模型还能有效区分不同亚型PCa中具有 NE 特征的肿瘤。此外,基于患者年龄、种族和癌症分期的分层分析表明,NEPAL模型对患者预后的预测能力不受病理因素的影响。这些结果增强了NEPAL模型在预测NEPC风险和进展方面的普适性和有效性。
7.NEPAL揭示了NEPC的非遗传驱动因素
NEPC的发生和进展既有遗传因素,也有非遗传因素。作者根据NEPAL评分对TCGA PRAD和 SU2C CRPC/Met队列中的肿瘤进行了分层,并分析了它们的表达谱和体细胞突变。在PCa 中最常突变的基因中,只有TP53在PRAD和CRPC/Met队列的NEPC高危组中比低危组显示出更高的突变率,而AR和RB1仅在SU2C CRPC/Met数据集中的NEPC高危组中观察到更高的突变率。此外,在TCGA PRAD数据集中,肿瘤突变负荷(TMB)和所有基因的突变计数都与NEPC风险评分显著相关,而在SU2C CRPC/Met数据集中则不显著。接下来,作者评估了PCaProfiler中1223个组织(包括正常前列腺、原发性PCa、CRPC/Met和NEPC)的基因表达与NEPC风险评分的相关性(图7A)。编码染色质重塑因子的关键基因,包括DNA甲基转移酶(DNMTs)以及多聚酶抑制复合体-2(PRC2)的成员出现在了前列。对TCGA PRAD和SU2C CRPC/Met数据集的相同分析也反映了这一观察结果,支持了表观遗传调节因子在 NEPC 中的关键作用。
此外,基于相关秩的GSEA分析表明,NE分化、胶质母细胞瘤(GB)可塑性、PTEN缺失、EZH2信号传导、RB1和TP53双敲除上调信号传导(LNCaP_DKO_UP)等与细胞系可塑性相关的通路,以及E2F靶点、G2M检查点和MYC信号传导等与增殖和干性相关的通路是最显著激活的通路。另一方面,与HSPC相关的通路,如雄激素反应、IRE1α-XBP1s信号传导、SPOP缺失和AR信号传导则受到抑制(图7B)。最后,结合VIPER方法的TF活性推断,作者分别描绘了AR信号、P53和RB1通路以及表观遗传调控等四种与NE转分化相关的通路的信号网络(图7C)。此外,NEAPL结合VIPER算法鉴定出了与NEPC相关的先驱TFs,包括以前建立的TFs,如FOXA2、ASCL1和MYCN,以及新型TFs,如XBP1s、PHTF、LHX2和NANOS1。这些TFs是否以及如何单独或合作驱动NEPC的进展将是未来研究的兴趣所在。
图7.NEPAL对NEPC非遗传进化驱动基因的预测
8.NEPAL: 使用转录组数据预测NEPC风险评分的计算框架
为了方便用户应用,作者推出了一个R软件包NEPAL,它集成了本研究中测试的已发表NE基因组、用于批量转录组数据的ssGSEA 算法、用于scRNA-seq数据的AUCell算法、多种机器学习模型和数据可视化。此外,NEPAL还支持将小鼠和人类转录组数据作为输入。该工作流程与Seurat scRNA-seq工具包具有良好的兼容性,可广泛适用于不同平台的scRNA-seq数据集。
NEPAL的R软件包现已在Github上发布(https://github.com/Famingzhao/NEPAL)
三总结
这项工作构建并广泛验证了稳健的NEPC风险预测模型NEPAL,该模型可用于基础研究目的的精准识别NEPC,并为未来临床转化奠定了坚实的基础。
参考文献
Zhang T, Zhao F, Lin Y, Liu M, Zhou H, Cui F, Jin Y, Chen L, Sheng X. Integrated analysis of single-cell and bulk transcriptomics develops a robust neuroendocrine cell-intrinsic signature to predict prostate cancer progression. Theranostics. 2024 Jan 1;14(3):1065-1080. doi: 10.7150/thno.92336. PMID: 38250042; PMCID: PMC10797290.
更多个性化方案设计
扫码领取
适合临床医生的科研方案
1、临床医生科研规划
4、R语言入门
概普生物 让科研丰富