基于代谢组学的机器学习预测胃癌诊断和预后

学术   2024-10-17 18:00   湖北  

胃癌(gastric cancerGC)是世界范围内的高致死性癌症。早期诊断对于通过促进及时干预改善临床结果至关重要。然而,诊断GC的黄金标准,即内窥镜检查,既具有侵入性,价格又昂贵,限制了其临床应用。因此,迫切需要具有高灵敏度和特异性的非侵入性检测方法。GC的遗传和环境危险因素都会导致代谢变化,并进一步促进肿瘤的发生和进展。作为一项系统分析,代谢组学提供了代谢状态的全面概况,被广泛用于破译各种疾病的代谢差异、发现生物标志物和确定潜在的治疗靶点。因此,多个大型、特征明确的队列的全球代谢组学分析对于识别和验证具有翻译潜力的生物标志物至关重要。本研究对来自多中心参与者的702份血浆样本进行了靶向代谢组学分析,以阐明GC代谢重编程。通过机器学习分析揭示了一个10代谢物GC诊断模型,该模型在灵敏度为0.905的外部测试集中得到验证,优于利用癌症蛋白标志物的传统方法。此外,机器学习衍生预后模型显示出优于利用临床参数的传统模型的性能,并有效地将患者分层为不同的风险组,以指导精确干预。总之,本研究结果揭示了GC的代谢格局,并确定了两个不同的生物标志物面板,分别能够早期检测和预后预测,从而促进GC的精准医学。

该研究于20242月发表在Nature Communications》,IF14.7

技术路线

主要研究结果

1. GC患者血浆代谢谱重编程

为了描述GC的血浆代谢重编程,对GC患者和NGC个体的血浆样品使用基于LC—MS15的靶向液体代谢组学方法获得代谢组学谱。通过主成分分析(PCA)将GCNGC样品区分开来,表明GC代谢组经历重塑(图1a)。与NGC相比,GC中总共有45种代谢物存在统计学差异(图1b)。有趣的是,这些失调的代谢物随着疾病进展显示出3种显著不同的趋势(图1c)。簇1中的代谢物(如新蝶呤和N7-甲基鸟苷)表现出可持续的增长模式,而簇2中的代谢物(如谷胱甘肽二硫化物(GSSG)、尿苷和乳酸)显示出随着癌症的发生和进展而持续下降的趋势(图1c)。此外,对这些差异代谢物的KEGG途径富集分析揭示了一系列紊乱的代谢途径(图1d)。研究结果描述了代谢脆弱性,并为血浆代谢物在GC检测和预测中的潜在应用奠定了基础。

1:与非GC对照组相比,GC患者的血浆代谢谱被重新编程

2. 来自机器学习的生物标志物面板可诊断早期GC患者

接下来作者利用获得的重编程代谢谱开发新的癌症诊断方法,通过机器学习开发一个模型来预测本研究中的临床状态。使用LASSO回归算法,选择10种用于区分GCNGC的必需代谢物(图2a),包括琥珀酸盐、尿苷、乳酸盐、SAM、焦谷氨酸盐、2-氨基辛酸盐、新蝶呤、GlcNAc6p、血清素和烟酰胺单核苷酸。随后应用随机森林模型,并在测试集1中验证了具有10个基本特征模型, ROC曲线下的面积为0.96795%可信区间(CI):0.944-0.987,灵敏度:0.854,特异性:0.926)(图2b)。此外,每种代谢物对10—代谢物诊断模型(10-DM模型)的贡献相对均匀,琥珀酸盐、尿苷和乳酸盐是三种最显著的贡献代谢物(图2c)。先前关于胃肠道肿瘤的研究确定了差异代谢物,包括琥珀酸盐、尿苷和乳酸盐。琥珀酸盐和乳酸盐在GC患者的上皮、锯齿状病变和肿瘤组织中不断上调,表明它们参与了肿瘤的起始和进展。在GC肿瘤组织中检测到尿苷水平的显著变化。同样,肿瘤起始和进展的相对丰度图表明,所有这十种代谢物在GCNGC之间都有显著差异。

为直观展示模型的性能,作者将每个参与者的预测值与他们的实际疾病状态(NGC/GC)进行比较。10-DM模型准确地识别了85.4%的测试集1 GC患者和90.3%的测试集2 GC患者(图2de)。在临床实践中,GC的早期检测对于及时的临床干预和治愈性切除至关重要,这可以显著提高肿瘤患者的生存率37,57,58。为了进一步评估模型在诊断早期GC方面的有效性,应用10-DM模型来区分测试集1中的IA/IBGCNGC。该模型对IA期患者的预测准确率为90.9%AUROC0.957,95%Cl0.917-0.990,灵敏度:0.813,特异性:0.926),对IB期患者的预测准确率为0.927AUROC0.984,95%Cl0.947-1.000,灵敏度:1,特异性:0.926),表明其在筛查早期患者方面具有卓越的辨别能力(图2f)。此外,在外部测试集2中,该模型的AUROC0.920(灵敏度:0.905,特异性:0.75)。与之前结果一致,测试集283.6%的早期(I期和II期)患者被10-DM模型正确识别(灵敏度:0.931,特异性:0.75)(图2g),10-DM模型对IA期患者的检测准确性为79.1%AUROC0.909,95%Cl0.838-0.975,灵敏度:0.909,特异性:0.75),表明其高灵敏度和可靠性。

为评估10-DM模型在诊断中是否表现出进步,将10-DM模型的预测准确性与现有的3种临床肿瘤生物标志物CA19-9CA72-4CEA进行了基准测试。考虑到这3种生物标志物在临床实践中经常结合以提高特异性,假设,如果3-生物标志物面板的任何单一代谢物超出正常范围(即CEA0-5μg/LCA19-9:0-27 U/mLCA72-4:0-6.9 U/mL),将个体归类为GC患者可以提高敏感性。10-DM模型甚至比3-生物标志物面板显示出更好的性能(灵敏度0.9250.428)。10-DM模型的更好性能不是高误判率造成的假象(图3bde)。三种生物标志物的整合提高了10-DM模型的灵敏度(从0.925提高到0.957),表明10-DM模型在当前临床实践中的适用性有可能提高。

2:基于血浆代谢组学的机器学习GC诊断预测模型

3.代谢预后模型可准确预测GC患者预后性能

由于精确的预后可以实现精确干预并在临床上有利于患者的治疗结果,作者还试图开发一个机器学习衍生的预后模型。为此收集了181GC患者(测试集3)血浆中的代谢组学谱及对应的临床信息,中位随访期为40个月。然后使用随机生存森林方法建立了一个28—代谢物预后模型(28-PM模型)。具体来说,训练集患者最初使用147种代谢物参与模型构建,为避免模型过度拟合,选择28种代谢物作为关键特征,一致性指数(c-index)为0.90的(图3a)。随后,在测试集上评估28-PM模型,显示出有效的预测能力,AUROC0.83295%CI0.697-0.951,敏感性:0.900,特异性:0.700)和c-index0.83(图3b)。有趣的是,我们观察到28种代谢物中只有11种的相对丰度可以显著区分测试集患者的整体生存率,包括对称二甲基精氨酸/不对称二甲基精氨酸、新蝶呤、胸腺嘧啶、葡萄糖醛酸盐、羟脯氨酸、14:0肉碱、吲哚丙烯酸酯、8:0肉碱、乙酰丙氨酸、2-氨基己二酸和GlcNAc6p

不对称二甲基精氨酸通过增强EMT和调节GCβ-catenin的表达来促进胃癌细胞的迁移和侵袭。14:0肉碱和8:0肉碱水平升高与更差的结果相关。先前关于GC的研究已经确定CPT1的表达增加,CPT1是调节长链脂肪酸氧化的限速酶,加速GC进展。CPT1C的表达水平也可能影响GC患者的预后。此外,CPT1在其他癌症中的作用也有报道,表明脂肪酸代谢可能在癌症代谢适应中发挥至关重要的作用。此外,新蝶呤水平升高表明预后不佳。新蝶呤由IFNγ刺激的巨噬细胞或DC细胞产生,通常被认为是免疫激活的生物标志物之一。在GC的单细胞转录组研究中,发现肿瘤微环境中的巨噬细胞在调节肿瘤免疫方面发挥多种作用。此外,新蝶呤已在各种研究中被证明具有潜在的预后监测能力,包括子宫内膜癌、前列腺癌、结直肠癌和胃癌,这可能解释了血浆中新蝶呤水平的升高。总之,本研究的机器学习衍生的预后模型在预测GC患者的临床预后方面表现出良好的性能。

3:预后模型在预测GC患者预后方面优于临床参数

4.临床参数的增加对28-PM模型的预后预测能力无显著影响

为了评估28-PM模型与临床医生用于经验预后评估的临床因素相比的预测能力,最初使用单变量Cox回归分析对与预后相关的临床变量进行了筛选,确定TNM分期、宏观外观和血管肿瘤栓塞是与三个预后显著相关的临床相关因素(P<0.05)(图3c)。随后,通过使用C指数值作为模型性能指标的比较分析,确定这三个临床因素的预测效果,无论是单独考虑还是联合考虑,都不如28-PM模型所显示的效果。这一观察强调了28-PM模型相对于传统临床因素的卓越预测能力。考虑到临床指标对预后预测的影响,进一步尝试将临床特征的组合纳入28-PM模型,以评估这是否会增强28-PM模型的预测能力。如图3d所示,28-PM模型在预测GC患者在不同阶段之间的预后方面表现出更大的稳健性。与晚期患者相比,整合临床特征的代谢模型实现了早期患者更高的预后预测准确性(C指数值 0.868 vs 0.778)。总之,将临床特征纳入代谢模型并没有产生模型性能的实质性改善。

随后作者评估了28-PM模型对测试集中每个患者的预测性能。将GC患者分为高危组和低危组,并注意到除一名死于心脏病发作的患者外,几乎所有死亡的患者都属于高危组(图3e),这是28-PM模型预后能力的基础。观察发现与低危个体相比,高危患者表现出较差的无病生存期(DFS)和总生存期(OS)(图3f),进一步根据生活状态的分布和复发/转移情况对两组进行了表征。同预期一样,高危组中死亡患者的比例较高,低危组中未转移/未复发患者的比例较高(图3g),这表明28-PM模型成功地确定了需要精细治疗方案的患者。进行多变量Cox回归证明28-PM模型是一个独立的预后因素(表1)。这一结果标志着成功开发了一种独立预测患者预后的准确方法。

总之,我们的研究为预后预测和临床决策提供了一种更准确的模型驱动方法,可以很容易地在常规患者护理中实施。

1:测试集3GC患者预后多因素Cox回归

结论

我们的发现描绘了GC中的代谢重编程,并结合机器学习算法构建了10-DM28-PM两个模型,分别检测GC患者并预测其预后。我们的工作增强了对GC病理学的理解,促进了GC早期检测的发展,并阐明了GC的精确治疗。本研究突出了基于机器学习的组学数据解释在肿瘤检测和决策指导方面的独特优势,可以推广到探索其他疾病。

参考文献

Chen Y, Wang B, Zhao Y, et al. Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer. Nat Commun. 2024;15(1):1657. doi:10.1038/s41467-024-46043-y.

生信分析靶向代谢组学分析;代谢差异分析;诊断预测模型;预后模型

谢!


  

英拜

课题设计与申报|分子生物学实验|细胞|机制调控|多组学检测分析




英拜生物
英拜生物提供专业的课题设计与申报服务,拥有完善的分子实验、细胞功能实验、机制调控实验,动物模型以及多组学检测分析检测平台,为您的科研助力!
 最新文章