解锁临床预后诊断新高度,机器学习助力突破9+

文摘   2025-01-02 20:00   江西  

点击蓝字 关注我们

本次解读的是发表在《EMBO Molecular Medicine》(IF=9)是一篇构建胃癌预后模型的研究,本研究旨在利用高通量血清脂质组指纹图谱,结合机器学习算法,构建胃癌 (GC) 的早期诊断和预后预测模型。研究人员整合了来自三个队列 (n=944) 的脂质组学数据,揭示了 GC 的脂质代谢特征,并构建了血清脂质代谢标记物 (SLMS),该标记物在区分 GC 患者和健康供体方面表现出优异的性能,尤其是在早期 GC 的诊断中。此外,研究人员通过无监督一致性聚类分析,基于 GC 患者的脂质代谢谱,识别了具有不同总体生存期 (OS) 的 GC 预后亚型 (GCPS)。进一步分析表明,组织中脂质代谢紊乱与血清结果部分一致。

01背景介绍

胃癌 (GC) 是全球第五大常见恶性肿瘤和第四大癌症死亡原因。早期 GC 患者的五年生存率超过 90%,而晚期 GC 患者接受化疗和免疫治疗后的中位生存期则不到 15 个月。因此,早期检测和诊断对于改善患者预后至关重要。然而,传统的诊断方法(如血清肿瘤标志物、影像学检查和组织活检)在 GC 的早期诊断中存在局限性,如灵敏度较低、假阴性率较高和依赖内窥镜医师的经验等,这使得开发出用于 GC 早期筛查的有前景的工具成为了当务之急。代谢重编程是癌细胞的标志之一,它允许癌细胞优先利用葡萄糖产生乳酸,即使在氧气存在的情况下。近年来的研究已经深入研究了多种代谢通路,以及肿瘤与其微环境之间的相互作用。作为细胞膜的主要成分、能量储存和信号传导分子,脂质在肿瘤发生和进展中起着关键作用。越来越多的证据表明,脂质代谢失调在肿瘤发生、肿瘤发展和转移中起着至关重要的作用,并与包括 GC 在内的多种癌症的不良预后相关。因此,识别与 GC 进展相关的血清脂质特征,并构建基于脂质的诊断和预后工具,可能有助于改善 GC 患者的管理和生存。液态活检是一种有前景的微创方法,可以检测血流中的肿瘤相关生物标志物,从而用于疾病的早期检测、预后评估和疗效监测。其中,循环肿瘤细胞 (CTC)、循环肿瘤 DNA (ctDNA) 和外泌体已被广泛研究,但其在 GC 中的应用仍不成熟。与核酸和蛋白质相比,脂质作为下游分子能够更直接地反映癌症代谢表型。基于脂质的液体活检可能具有潜力。本研究旨在利用高通量脂质组学方法分析 GC 患者的血清脂质谱,并将脂质数据与机器学习算法相结合,构建用于 GC 诊断和预后预测的有效工具。

02数据来源

来自中山大学肿瘤防治中心 (SYSUCC) 的 266 例 GC 患者和 266 例健康供体,用于识别 GC 特征性脂质代谢谱,以及构建基于机器学习的诊断模型。来自广东省胃肠肛门医院的 98 例 GC 患者和 98 例健康供体,用于验证诊断模型的准确性。来自中山大学肿瘤防治中心的 76 例 GC 患者和 69 例健康供体,用于评估 SLMS 的诊断价值,以及确定与疾病进展相关的变化。在 Sun Yat-sen University Cancer Center 和广东省胃肠肛门医院收集 GC 患者的血清样本。收集健康对照的血清样本,用于与 GC 患者的代谢谱进行比较。

03研究方法

转录组学和蛋白质组学分析

使用 RNA 测序 (RNA-seq) 和蛋白质组学对 380 例 GC 组织样本和 37 例正常组织样本进行了分析,以进一步探索肿瘤组织中脂质代谢改变的特征。

使用偏最小二乘判别分析 (PLS-DA) 来区分 GC 组和健康供体组,并使用变量重要性投影 (VIP) 分数对脂质进行排名。使用 R 软件进行统计分析。Spearman 相关性分析被用来评估选定脂质之间的相关性。

使用 Spearman 相关系数的绝对值阈值小于 0.5 的规则,筛选特征集中显著相关的脂质对。使用 10 折交叉验证策略,并采用多种 ML 算法(包括 LDA、SVMLinear、SVMLinearWeights、SVMRadial、SVMRadialWeights、RF、KNN、Glmnet、Bayesglm 和 QDA),选择最佳诊断模型。使用网格搜索法,进行模型的参数调整,并评估每种模型的性能。

使用 LDA 算法和筛选后的前 19 名脂质构建预测模型。模型在训练集上进行训练,并评估测试集和外部验证队列中的性能。通过计算 AUC、准确率、敏感性和特异性来评估模型的诊断性能。使用 DESeq2 包对肿瘤和正常组织中差异表达的基因进行分析。使用 GSVA 算法来估计每个样本中 84 个代谢通路的富集评分。利用 spearman 相关性分析,识别具有相似变化趋势的脂质群。使用 KEGG 数据库对这些脂质相关的通路进行通路富集分析。使用 Kaplan-Meier 曲线和对数秩检验来评估 GCPS 与患者的总体生存率之间的关联。使用多变量 Cox 回归分析来评估 GCPS 作为独立预后因素的预测效能。


04结果

01GC 的脂质代谢图谱

PLS-DA 分析显示,GC 患者和健康供体之间存在显著不同的血清脂质谱。在 581 种检测到的脂质中,GC 患者的血清中 207 种脂质的水平发生了显著变化。通路富集分析显示,GC 发生时,α-亚麻酸和亚油酸代谢、不饱和脂肪酸的生物合成、长链脂肪酸的 β-氧化和甘油磷脂代谢发生了显著变化。探索性队列分析中,与正常组织相比,GC 组织表现出明显不同的代谢转录谱,显示大多数代谢过程都上调。在蛋白质水平上,氧化磷酸化和聚糖生物合成途径的表达量显著增加

02SLMS 构建

利用前 50 个 VIP 分数高的脂质,通过一系列机器学习方法,构建了以 LDA 算法为中心的 SLMS。经 10 倍交叉验证,该模型在训练队列中具有很高的诊断性能 (AUC=0.993,准确率=0.967,灵敏度=0.960,特异性=0.974)。在测试集和外部验证队列中也得到了验证。此外,使用 19 个靶向脂质的靶向脂质组学分析证实了 SLMS 的诊断性能,AUC 为 0.886,准确率为 0.810,灵敏度为 0.820,特异性为 0.800。SLMS 在区分早期 GC 和健康对照方面具有显著的鉴别能力,优于肿瘤标志物 CEA、CA19-9 和 CA72-4。

03GCPS 的构建

对 GC 患者的代谢数据进行无监督共识聚类分析,识别出三种预后不同的 GC 亚型 (SI, SII 和 SIII)。其中 SI 具有最差的 OS,而 SII 的 OS 最佳,SII 还表现出较低的 EMT 和较高免疫细胞浸润的特征。利用生存分析证实了这三种亚型与不同预后相关联,其中,与 SII 亚型相比,SI 亚型患者的预后更差 (p = 0.002)。

04多组学分析

对 GC 组织进行多组学分析表明,血清 SLMS 中鉴定的脂质代谢紊乱与组织中的脂质代谢扰动具有部分一致性。如在 GSEA 分析中发现,在 GC 组织中发现葡萄糖代谢和脂肪酸代谢途径发生改变。(图 5) 在肿瘤组织中, 许多脂代谢途径受到了干扰,包括脂肪酸生物合成、脂肪酸降解和鞘脂代谢。此外,肿瘤组织和非肿瘤组织之间差异表达的蛋白质与血清中发现的紊乱脂质之间存在相关性。

05结论

本研究通过结合血清脂质组学和机器学习技术,开发了一个新型的 GC 诊断和预后预测模型。该模型具有很高的准确性和泛化能力,能够识别早期 GC 患者并预测其预后,具有重要的临床应用价值。然而,该研究的结果仍需进一步验证,并且需要进一步探索 GC 脂质代谢改变的机制,为开发更有效的靶向治疗策略提供理论基础。此外,有必要在更大规模、前瞻性的多中心研究中进一步验证模型性能。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】《CARDIOVASC DIABETOL》(IF=8.5),探索甘油三酯-葡萄糖指数对首次中风危重患者的预后影响

【2】《CARDIOVASC DIABETOL》(IF=8.5),非糖尿病人群TyG水平与生活方式评分对缺血性卒中风险的影响

【3】RFE特征筛选+SHAP模型解释+在线预测模型=sICH患者的短期预后结局(IF=6.1)

【4】《CARDIOVASC DIABETOL》(IF=8.5),TyG 指数与外科重症监护患者预后的相关性

【5】《eClinicalMedicine》IF=9.6,如何预测肺CT自动分割和急性呼吸窘迫综合征?深度学习给出答案。

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析


极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章