✦
医学科研新动向
✦
Integrated explainable machine learning and multi-omics analysis for survival prediction in cancer with immunotherapy response
Apoptosis
<2024年11月18日>
研
究
背
景
近年来,免疫治疗作为肿瘤治疗的重大突破,显著改善了部分患者的预后。然而,由于肿瘤免疫微环境的复杂性,不同患者对免疫治疗的反应存在显著异质性,亟需精准的预测工具来指导治疗决策。自然杀伤细胞(NK细胞)作为先天免疫系统的重要组成部分,通过直接杀伤肿瘤细胞和调控适应性免疫反应,在肿瘤免疫微环境中发挥关键作用。尽管已有研究揭示了NK细胞在免疫应答中的重要性,其标志基因的功能和调控机制在肿瘤进展中的作用仍未完全明确,特别是在预测免疫治疗疗效和患者生存方面。单细胞RNA测序(scRNA-seq)和多组学数据的快速发展,为全面解析NK细胞的分子特性提供了新契机,而机器学习方法的引入,则为复杂生物数据的特征提取和精准建模提供了强有力的技术支持。因此,基于NK细胞标志基因的多组学整合分析与机器学习建模,探索其对患者生存和免疫治疗反应的预测能力,具有重要的临床意义和科研价值。
研究设计
1. 数据收集与处理
利用TCGA-SKCM、GTEx和GEO数据库中的转录组数据,共计收集了471例肿瘤样本、812例正常样本以及348例接受免疫治疗的样本。此外,从GEO数据库(GSE72056)获取19名黑色素瘤患者的单细胞RNA测序数据(共4645个细胞),用于识别NK细胞及其相关基因。数据预处理通过Seurat包完成,包括归一化、质量控制和t-SNE聚类分析。细胞划分为16个亚群,通过Human Primary Cell Atlas注释,确定第4群为NK细胞,并基于差异表达基因筛选出917个NK细胞标志基因。
2. 机器学习模型构建与评估
构建了包括LightGBM、CatBoost、XGBoost、RF、NB等在内的10种机器学习模型,用于预测癌症生存率及免疫治疗效果。通过10折交叉验证优化模型参数,评估模型性能,主要指标包括AUC值、召回率、精确度和F1分数。最终采用LASSO-Cox回归筛选重要基因,并构建NKECLR模型,用于分离高风险和低风险患者。
3. 模型解释
采用SHAP和LIME技术解释最佳模型的预测结果,分析NK细胞标志基因对模型预测的重要贡献,并揭示其与免疫微环境的潜在生物学关联。
核心结果
该图展示了研究从数据收集到模型应用的完整工作流程:
数据收集与预处理:从scRNA-seq和多组学数据中提取高质量信息。
分析单细胞RNA测序数据:通过t-SNE聚类和注释识别NK细胞及其标志基因。
机器学习建模:构建并优化预测模型,通过交叉验证评估其性能。
模型解释:利用SHAP和LIME技术揭示关键基因的贡献。
2 - 单细胞数据分析与NK细胞标志基因识别
利用单细胞RNA测序数据,将4645个细胞划分为16个细胞亚群。通过Human Primary Cell Atlas的注释,确认第4群为NK细胞,并筛选出与NK细胞密切相关的917个标志基因。热图清晰展示了NK细胞独特的高表达基因模式,显示其在肿瘤免疫中的潜在功能作用。
3 - 细胞间通讯网络
点图显示了NK细胞与其他细胞类型的基因表达模式,明确了NK细胞在免疫调控中的关键角色。通过CellChat分析,构建了一个细胞间通讯网络,显示NK细胞在与CD8 T细胞、B细胞等免疫细胞的交互中占据中心地位,特别是在LGALS9-CD45信号路径中表现出显著功能。这一网络还揭示了NK细胞的信号传递强度显著高于其他细胞群,进一步证明其在免疫环境中的重要作用。
4 - 不同机器学习模型在训练集上的性能对比
在训练集上比较了10种模型的表现,包括AUC值、准确率、召回率和F1分数等指标。LightGBM和CatBoost模型表现最佳,AUC值均超过0.999,显示出其对高维基因数据的出色预测能力。RF模型表现接近最佳,AUC值达到0.9983,而NB和LDA模型的AUC值较低,分别为0.709和0.4608,表明这些传统模型在高维数据分析中的局限性。LightGBM的召回率和精确度接近100%,进一步证明其对肿瘤和正常样本的分类能力。
5 - 不同模型在测试集上的性能评估
在测试集中,LightGBM和CatBoost模型延续了其出色表现,AUC值分别为0.9957和0.9939,并在精确率、召回率和F1分数等方面保持领先地位。NB和LDA模型的AUC值较低,分别为0.709和0.4608,验证了其在高维基因数据中的不足。综合来看,基于梯度提升的算法(如LightGBM和CatBoost)在处理复杂多变量数据时具有明显优势,为进一步研究提供了强有力的支持。
小
结
本研究整合单细胞RNA测序(scRNA-seq)数据和多组学数据,聚焦于自然杀伤细胞(NK细胞)标志基因在黑色素瘤中的作用,通过机器学习模型预测患者的生存风险和免疫治疗反应。主要结论如下:
数据分析与特征筛选
基于scRNA-seq数据,识别了NK细胞亚群并筛选出917个与NK细胞相关的标志基因。 建立了细胞间通讯网络,揭示NK细胞在免疫微环境中的关键作用及其与其他免疫细胞(如CD8 T细胞和B细胞)的密切互动。
机器学习模型的应用与性能
构建了10种机器学习模型,包括LightGBM、CatBoost、XGBoost等,通过多项性能指标对比,确定LightGBM和CatBoost为最佳模型,其AUC值均接近1。 使用LASSO-Cox回归筛选出4个关键基因(EPGN、PHF11、RBM34、ZFP36),构建了NKECLR风险预测模型,能够精准区分高风险和低风险患者。
模型解释与生物学意义
应用SHAP和LIME技术,对模型预测进行解释,确认了关键基因的显著贡献。 鉴定的NK细胞相关基因显示出与免疫治疗标志物(如PD-1、PD-L1)的关联性,同时揭示了高风险患者在免疫环境中的差异特征。
临床意义与应用前景
NKECLR模型在免疫治疗反应预测中表现出色,低风险患者对PD-L1和CTLA-4治疗的反应显著优于高风险患者。 模型还展示了在化疗药物敏感性分析中的潜力,为个性化治疗方案的设计提供了数据支持。
-END-
文字丨本人点滴积累,如有补充,下方留言即可
(后台回复“241207”即可获取全文)