机器学习揭示肺腺癌预后和治疗中的不同细胞死亡模式

学术   2024-10-25 18:00   湖北  

肺癌是是全球第二大流行癌症,肺腺癌(LUAD)是其最常见的组织学类型。对于晚期诊断患者,可用的治疗选择仅限于靶向治疗和免疫疗法。然而,肺癌的高度异质性和不可避免的耐药性发展导致只有一小部分患者对这些治疗方法反应良好。因此,迫切需要进一步研究能够准确预测患者预后并指导靶向治疗选择的最佳预测模型。程序性细胞死亡(PCD)是一种特定形式的细胞死亡,包括多种不同的细胞死亡机制,受多种生物大分子控制。PCD是控制肿瘤发生发展的关键机制,为LUAD患者提供作为预后指标和药物敏感性标记的潜力。该研究于20242月发表在NPJ Precis Oncol.》,IF6.8

技术路线

主要研究结果

1LUAD患者程序性细胞死亡基因的变异景观

TCGA-LUADGSE116959队列中,作者鉴定了52个具有统计学意义的程序性细胞死亡-差异表达基因(PCD-DEGs)。其中20个来自双硫死亡,18个来自细胞凋亡,5个来自铁死亡,2个(GSDMBAIM2)来自焦亡,1个(CDKN2A)来自铜死亡,2个(TRAF5JAK3)来自坏死性凋亡,1个(MMP1)来自网状细胞死亡,1个(BLK)来自溶酶体依赖性细胞死亡,2个(EEF1A2GAPDH)来自自噬(图1a)。LUAD与正常组织中PCD-DEGs的热图(图1b)。PCD-DEGs的蛋白质-蛋白质相互作用网络分析(图1c)。GOKEGG富集分析显示,这些差异表达基因参与了各种癌变相关的途径,如内在凋亡信号传导、p53信号传导等(图1d1e)。作者还检查了TCGA队列中LUAD患者PCD相关基因的突变情况。分析并展示了PCD相关基因的前10个突变,其中CDKN2ATNC表现出最高的突变频率(11%),而其余8个基因表现出相对较低的突变频率,范围为5%10%(图1f1g)。

1LUAD患者中PCD-DEGs的景观

2、基于机器学习构建LUAD患者的预后基因特征

4个数据集中使用留一交叉验证(LOOCV)框架拟合了70种类型的预测模型,并计算了每个模型的C指数。C指数最高的前两个模型组合是LassoRSF+Lasso(图2a)。因此,作者选择这两种算法用于特征基因选择和模型构建。图2b展示了RSF结果错误率,图2c评估了基于RSF筛选的基因的变量相对重要性,发现了变量相对重要性较高的前35个基因。图2d2eTCGA-LUAD队列中LASSO回归的可视化图。Venn图显示了RSF结果和LASSO回归分析结果的10个交集基因(图2f)。每个基因的染色体位置及表达水平如图2g所示。

随后,作者基于这10个特征基因构建程序性细胞死亡指数(PCDI),并计算了每个患者的PCDI。通过中位PCDI将来自TCGA-LUAD队列中的LUAD患者分层,并将另三个GEO队列分为高危亚组和低危亚组。为了研究这些亚组的潜在生物学过程,图2h展示了根据PCDI分类的亚组的GSVA分析图2i2j展示了在四个数据集中常见的四个生物过程:细胞周期相关的E2F转录因子的相关途径、细胞周期和细胞增殖相关的G2M检查点路径、细胞增殖相关的MYC靶点集群1MYC靶点集群1

2:通过基于机器学习的集成过程开发和验证了共识PCDI

3PCDILUAD患者临床病理特征的关联

小提琴图展示了LUAD患者处于不同TNM分期和FIGO分期时的PCDI得分(图3a-3d),图3e-3h展示了TCGA-LUAD队列等四个数据集中生存状态与PCDI得分的关系。PCD的差异表达基因将TCGA队列中的LUAD患者分为两个不同的集群,集群2中的患者表现出更有利的预后(图3i3j)。通过冲积图和热图,再次表明集群1中的大多数患者表现为临床晚期和高PCDI,而集群2中的大多数患者表现为临床早期和低PCDI(图3k3l)。

3PCDI与临床指标的相关性

4LUAD数据集中验证预测模型

利用计算得到的PCDI值,将TCGA-LUADGSE31210GSE50081GSE72094队列中的LUAD患者分层为高PCDI组和低PCDI组,并探讨PCDI与生存状态、生存时间和总生存期的关系,发现高PCDI和不良临床结局之间有显著相关性(图4a4b)。图4c发现通过PCA可以有效区分四个队列中的PCDI-高组和PCDI-低组。

4:基因特征预测模型的内部训练和外部验证

5、开发和评估预后列线图模型

为了评估PCDI的独立预后意义,作者进行了单因素和多因素Cox回归分析。研究结果显示,在单因素Cox回归分析中,PCDI是一个重要的危险因素(图5a);在多因素Cox回归分析中,即使在调整其他混杂因素后,PCDILUAD患者中仍保持其独立预后价值(图5b)。基于多变量Cox和逐步回归分析的结果,在TCGA队列中构建一个预后列线图模型来预测LUAD患者的1年、3年和5年总生存率(OS)(图5c)。校准曲线证明列线图模型对1年、3年和5年生存率的准确预测能力(图5d)。通过DCA(决策曲线分析)发现预后列线图模型对LUAD患者的1年和3年生存率的预测优于研究中使用的其它预测因素(图5e5f)。基于列线图评分进行KM生存分析,发现高PCDI组和低PCDI组之间有显著的生存差异(图5g)。为了评估预后列线图模型的性能,作者在四个独立队列中通过ROC分析评估其预测能力,结果表明,曲线下面积(AUC)评分高,可预测LUAD患者的1年、3年和5年生存率(图5h-5k)。

5:列线图诺生存模型的建立与评价

6、单细胞分析表明CDIscoreLUAD进展相关

为了在单细胞分辨率探测PCD相关基因的表达和分布,作者使用了两个LUAD数据集的scRNA测序数据。在采用各种标准质量控制程序后,共纳入80059个细胞进行下游分析。这些细胞被分成38个簇和8种细胞类型。图6a-6c展示了一些细胞类型的标志基因。不同细胞类型中10个特征基因的分布和表达如图6d所示。因为肺腺癌起源于上皮细胞,作者使用inferCNV算法检测每个上皮细胞簇的显著拷贝数变化,并计算每个簇的CNV评分,如图6e所示。如图6f6g所示,上皮细胞分为高恶性(簇31290)、中恶性(簇32)和低恶性(簇1134)三组。通过Monocle 2进行拟时分析以了解恶性程度不同的上皮细胞的潜在进化过程(图6h)。计算每个细胞的PCDI评分(即CDIscore),分析CNV评分与CDI评分的相关性,发现二者呈正相关(图6i)。比较了低、中、高恶性的上皮细胞亚群之间的CDI评分,发现中、高恶性的上皮细胞亚群具有较高的CDI评分(图6j)。

6:基于PCDI特征的肿瘤微环境解剖

7PCDILUAD患者的免疫特征相关

作者采用多种算法(包括TIMEREPICMCP-COUNTERCIBERSORT)探索PCDI、特征基因和免疫细胞之间的相关性。观察到PCDI与抗癌免疫相关细胞如CD8+T细胞、CD4+记忆T细胞和髓系树突状细胞之间存在显著的负相关;与癌症相关成纤维细胞(CAFs)、成纤维细胞、活化的NK细胞等表现出正相关(图7a)。图7b7c表明低PCDI组的基质评分和免疫评分高于高PCDI组。作者还探索了8个免疫检查点分子在高PCDI组和低PCDI组中的表达,结果如图7d所示,高PCDI组中CTLA-4TIGITPDCD1下调,而CD274SIGLEC15上调。图7e展示了PCDI、特征基因和免疫检查点分子之间的相关性。

7PCDI亚组的分子和免疫分析

8PCDI在免疫治疗中的预测作用

在四个LUAD数据集中比较TIDE评分与PCDI之间的相关性。观察到TIDE评分和PCDI之间显著正相关,表明PCDI升高的患者可能无法从免疫治疗中获益(图8a8b)。利用GSE126044GSE78220免疫治疗队列,进一步评估PCDILUAD患者接受抗PD-L1免疫治疗后疗效的预测,结果如图8c8f所示,与低PCDI相比,高PCDI的患者在接受免疫治疗后有更差的生存率。图8d8e8g8h表明,高PCDI组的接受抗PD-L1治疗有临床效应的患者百分比明显低于低PCDI组。

8PCDI在免疫治疗中的预测作用

9PCDILUAD患者的靶向治疗反应有关

为了探索PCDI与药物敏感性之间的潜在关系,在LUAD样本中使用GDSC数据库分析了一些药物的IC50值(半最大抑制浓度)。各种药物的IC50PCDI、特征基因之间的相关性如图9a所示。

9b-9l是高、低PCDI组中不同药物的IC50比较以及二者之间的相关性分析,发现吉西他滨、达拉非尼、顺铂的IC50值在高PCDI组中更高(图9e9j9k)。如图9m所示,作者还探究了特征基因、FDA批准的肺癌治疗药物、经典治疗靶点及信号通路之间的相关性。

9:程序性细胞死亡特征在预测药物敏感性中的作用。

10、临床样本中验证特征基因

临床样本中的LUAD组织及其相邻组织通过RT-qPCR检测10个特征基因的差异mRNA表达。结果表明,在LUAD中,CHEK2CD79ARRM2GAPDHITGB4KRT18TMPRSS4的表达高于癌旁样本,而CHRNA5CTLA4MMP1的表达没有统计学意义(图10a-j)。作者还在人类蛋白质图谱(HPA)数据库中验证了LUAD和相邻正常组织之间特征基因的蛋白质表达水平。免疫组化结果显示LUAD样本中观察到蛋白质水平上的CHEK2CD79ARRM2GAPDHITGB4KRT18TMPRSS4染色更深,表达水平更高(图10k)。

11a是特征基因表达与TIDE评分之间的相关性分析,发现四个数据集中具有差异的四个关键基因:CHEK2GAPDHMMP1RRM2。又考虑到吉非替尼作为一种流行的非小细胞肺癌治疗方法,我们评估了其在TCGA-LUAD数据集中的敏感性相关性,又根据结果9,考虑到特征基因与药物敏感性的关系,确定了五个主要基因:CHEK2ITGB4RRM2GAPDHKRT18。将其与图10a中的四个基因取交集后,分离出三个候选基因——CHEK2GAPDHRRM2WB和免疫组化实验证实了候选基因在肿瘤中高表达(图11b-11d)。

10:临床样品中特征基因的体外实验验证

11:通过体外实验验证临床样品中的特征基因

结论:

通过整合来自TCGA-LUAD和六个GEO数据集的大规模RNA、单细胞RNA转录组学和相关的临床病理学数据,使用机器学习算法识别与LUADPCD相关的十个关键差异表达基因(DEGs),并基于这些基因构建程序性细胞死亡指数(PCDI);开发基于PCDI的预后列线图模型,并评估其作为LUAD患者预后特征的潜力;研究PCDILUAD中的免疫特征(包括免疫细胞浸润和免疫检查点分子的表达)之间的相关性;探讨高PCDI评分患者可能对免疫治疗和标准辅助化疗方案的抗性,以及他们可能从其他FDA支持的药物(如多西他赛和达沙替尼)中受益的情况。最后得出PCDI作为预后特征具有促进LUAD患者个性化治疗的潜力。

参考文献:

Wang S, Wang R, Hu D, Zhang C, Cao P, Huang J. Machine learning reveals diverse cell death patterns in lung adenocarcinoma prognosis and therapy. NPJ Precis Oncol. 2024;8(1):49. Published 2024 Feb 26. doi:10.1038/s41698-024-00538-5. IF: 6.8 Q1

生信分析PCD相关基因表达及变异水平的鉴定;基于机器学习的集成方法生成的特征;功能富集分析;PCD相关模型基因的无监督聚类;基于PCDI的列线图构建与评估;PCD相关基因的单细胞测序分析;肿瘤微环境分析及药物敏感性预测

常规分子实验RT-qPCRWestern blot;免疫组化

谢!


  

英拜

课题设计与申报|分子生物学实验|细胞|机制调控|多组学检测分析




英拜生物
英拜生物提供专业的课题设计与申报服务,拥有完善的分子实验、细胞功能实验、机制调控实验,动物模型以及多组学检测分析检测平台,为您的科研助力!
 最新文章