Nature子刊:机器学习+多模态数据+mRMR特征筛选=pLGG全面的放射基因组学分析

文摘   2025-01-20 20:02   江西  

点击蓝字 关注我们

本次解读的是发表在Nature Communications(IF=14.7)上的一篇文章《Multiparametric MRI along with machine learning predicts prognosis and treatment response in pediatric low-grade glioma》,本文通过整合多模态数据与机器学习技术,对小儿低级别胶质瘤(pLGG)展开全面的放射基因组学分析。



01背景介绍

pLGG是儿童最常见的脑肿瘤,占小儿中枢神经系统肿瘤的约30%,组织学类型多样。患者预后和对治疗的反应差异大,全切肿瘤患者10年无进展生存率超85%,但部分肿瘤因高度浸润或位置深难以全切,未全切肿瘤常需额外治疗,且部分患者肿瘤会进展,10年无进展生存率低于50%。

分子靶向治疗和免疫治疗为pLGG治疗带来希望,但需深入了解肿瘤生物学和分子基础,以提高靶向治疗成功率,避免不良影响。同时,了解肿瘤免疫微环境对免疫治疗至关重要,而传统分子亚型分析有局限。放射组学可通过量化肿瘤异质性和揭示分子基础,为风险分层提供非侵入性生物标志物,结合机器学习有望更深入地表征pLGG。



02材料与方法

1.数据来源

多组学数据:从儿童脑肿瘤网络(CBTN)和多个公开数据库收集了545例pLGG患者数据,其中494例有RNA测序数据,201例有标准多参数MRI(mpMRI)扫描数据,150例同时有全基因组测序(WGS)和mpMRI数据。RNA测序数据通过CBTN患者数据与 OpenPedCan等多个公开数据库获取,分子亚型信息可从OpenPedCan数据库及内部分子亚型分析流程获得。

MRI数据:获取258例患者治疗前mpMRI 序列,部分患者有扩散加权成像(DWI)和表观扩散系数(ADC)图。经筛选,排除不符合条件的患者后,最终201例患者(91例有ADC图)纳入成像研究。对于有多个成像时间点的患者,选择距离初始治疗或手术最近的影像数据。



2.分子数据分析

免疫和基质细胞类型富集分析与聚类:使用xCell对pLGG转录组数据进行细胞类型富集分析,利用ImmunedeconvR包和特定参数,以转录本每百万(TPM)为基础,通过不同方法推断肿瘤纯度。用Kruskal-Wallis检验分析免疫簇间肿瘤炎症特征(TIS)和肿瘤突变负荷(TMB)差异。

分子通路富集分析:筛选基因表达数据中的蛋白质编码基因,用DeSeq2进行差异基因表达分析,将差异基因列表输入预排序基因集富集分析(GSEA),从Reactome数据库获取通路注释,以确定不同临床影像组学风险组间差异表达的生物通路。

种系变异分析:对癌症易感基因中的单核苷酸变异(SNVs)和小插入/缺失(indels)进行筛选,基于gnomAD、TOPMed、dbNSFP数据库及ClinVar、HGMD数据库的标准,确定有害/可能有害的种系变异。



3.放射免疫组学模型构建

利用 150 例同时有影像和转录组数据的患者,以影像组学特征和年龄为输入,使用支持向量机(SVM)结合最大相关最小冗余(MRMR)特征选择方法,训练模型预测免疫簇。通过嵌套交叉验证优化模型,在复制队列中评估模型性能。



4.临床影像组学模型开发

预测肿瘤进展风险:将患者人口统计学和临床变量与影像组学特征结合,构建Cox比例风险模型预测肿瘤进展风险。先构建仅基于临床变量的模型,再构建结合临床和影像组学变量的ElasticNet惩罚模型。在发现队列和复制队列中,用Harrell一致性指数、Uno一致性指数和综合Brier 评分评估模型性能。

模型临床关联分析:研究临床影像组学风险组与治疗抵抗、免疫簇的关联。高临床影像组学风险患者与治疗高风险组相关,提示可能需要多种治疗。临床影像组学高风险组中免疫集群2比例高,低风险组中免疫集群3比例低,验证了模型对免疫因素相关进展风险的预测能力。



03结果

01 研究设计和队列描述

研究设计侧重于三个主要要素(图1):

(1) 预测 pLGG 免疫学特征;

(2) 使用放射免疫学特征预测免疫学亚组;

(3) 开发临床放射组学模型来预测无进展生存期,以及 与肿瘤进展风险相关的转录组通路的可解释性分析。 

我们分析了儿童脑肿瘤网络(CBTN)中总共545名患者的回顾性数据,其中494名患者采用多组学(RNA-seq和WGS)数据,201名患者采用标准多参数MRI(mpMRI)扫描。其中150人同时拥有WGS和mpMRI数据。 


02 转录组富集分析确定了三个免疫簇

我们队列中494个pLGG与可用RNA测序数据的聚类揭示了基于免疫细胞浸润相关基因表达的三个不同的免疫学组,其中免疫簇1(n= 189)显示中间推断的浸润,免疫簇2(n=164)显示出较高的推断浸润,免疫簇3(n=141)显示出最低的推断免疫细胞浸润(图2A)。我们观察到免疫评分与源自拷贝数(ABSOLUTE) 、表达(ESTIMATE)和基于甲基化的评估 (LUMP)的肿瘤纯度估计之间存在显着负相关。


与集群2和集群3相比,集群1的基质评分、嗜酸性粒细胞和癌症相关成纤维细胞(CAF)富集度最高,造血干细胞(HSC)、记忆CD4+T细胞和 CD4+Th1细胞水平较低(图2B)。与簇相比,集群2显示了较高水平的常见淋巴祖细胞、M2极化巨噬细胞和CD4+记忆T细胞,以及类别转换记忆B细胞、嗜酸性粒细胞、T调节细胞(Treg) 和基质评分的最低富集度1和3(图2B)。与集群1和集群2相比,集群3表现出较高的造血干细胞(HSC)、Treg和初始CD8+T细胞表达,以及较低水平的活化骨髓树突细胞、单核细胞和M1极化巨噬细胞(图2B)。方差分析(ANOVA)与 Tukey'sHonestlySignificant Differences (HSD)检验相结合表明,综合免疫评分(基于富集的总体免疫细胞浸润估计)在集群1(平均免疫评分 =0.10)和2(平均免疫评分=0.11)相对于集群3(平均免疫评分=0.038;调整后的p<1e-7)。

我们还发现,肿瘤炎症特征(TIS)的表达(一种基于临床预测表达的纳武单抗和派姆单抗反应测量)在集群1和集群2之间存在统计学显着差异 (p=2.6e-6),集群1和集群3(p=2.4e-8),以及集群2和集群3(p=2.2e-16)(图3C、D)。集群2显示所有免疫组中TIS最高,这与我们从 xCell对该组观察到的免疫浸润相关基因的独立测量结果一致。值得注意的是,肿瘤突变负荷(TMB)是对免疫检查点封锁反应的临床生物标志物,在集群1(下四分位数=0.17,中位数= 0.32,上四分位数= 0.56)和集群2(下四分位数=0.14,中位数=0.22,上四分位数=0.31;p =3.9e-5) 以及集群1和集群3之间(下四分位数 =0.14,中位数=0.19,上四分位数=0.33;p =6.3e-5),但不在集群2和集群3之间(p= 0.75)(图3E)。

我们使用生存终点无进展生存(PFS)和总生存(OS)评估了三个免疫学簇与预后的关联(图3A、B)。三个簇之间的对数排名比较显示,免疫高的集群2的总体预后最差,其次是集群1,最后是集群3。值得注意的是,集群2亚组的 TIS表达最高,集群3表达最低,并且TIS已被证明与成人低级别神经胶质瘤的生存呈负相关,这与我们的观察一致。 

当在Cox回归模型中根据诊断年龄、报告的性别、种族、肿瘤的解剖区域以及2021年 WHO肿瘤分类进行调整后对簇的影响进行建模时,我们发现属于集群2的肿瘤的进展相关风险明显更高(p=0.0081,图3B)。



3 放射免疫特征:区分预后不良和良好的免疫簇

分析涉及150名具有传统MRI序列的患者,其中91名患者有额外的ADC-map数据。我们训练了基于成像特征和年龄的放射免疫模型进行预测,并在复制集上独立测试它们。集群2 与集群1和集群3相比,基于传统MRI的放射免疫特征显示AUC为0.77|0.74,准确度76.8%|  86.0%的发现|复制集。在传统MRI中添加 ADC特征可提高性能,AUC为0.83| 0.79,平衡准确度81.5%| 84.4%的发现|复制集(图4A)。我们的分析进一步证明了三个免疫学簇中肿瘤亚区域内的不同成像特征(图4B)。 免疫集群2在ED肿瘤亚区域中表现出更多像素,增强程度较低,而集群3的特点是免疫细胞表达较低和肿瘤纯度较高,在ED区域的较低ADC范围内显示更多像素。



4 预测性临床放射学模型:评估无进展生存期和治疗耐药相关性

将患者人口统计学和临床变量与影像组学特征结合,构建Cox比例风险模型预测肿瘤进展风险。先构建仅基于临床变量的模型,再构建结合临床和影像组学变量的ElasticNet惩罚模型。在发现队列和复制队列中,用Harrell一致性指数、Uno一致性指数和综合Brier评分评估模型性能。临床影像组学模型在发现队列和复制队列中,HAR分别为0.71(95%CI=[0.63, 0.79])和0.77,UNO分别为0.72(95%CI=[0.64,0.80])和0.80,Brier评分分别为 0.24(95%CI=[0.19, 0.29])和0.16。

临床影像组学模型预测无进展生存期的性能良好,在发现队列和复制队列中,HAR、UNO和Brier评分指标显示了模型的有效性。该模型在未全切肿瘤患者中表现更优,与治疗抵抗相关,高风险患者可能需要多种治疗。临床影像组学风险组与免疫簇相关,高风险组中免疫集群2比例高,低风险组中免疫集群3比例低。




5 临床放射组学风险评分的生物学可解释性:与生殖系变异和转录组学途径的相关性

突触核膜蛋白1(SYNE1)基因在中风险临床影像组学组中显著富集。通过单样本GSEA 分析,发现多个与风险相关的通路,如CD209 +树突状细胞相关通路与低风险相关,类花生酸家族脂质介质信号通路等与高风险相关。



04总结

结论

在这项研究中,我们使用监督和非监督ML技术对pLGG进行了全面的放射基因组学分析。我们的主要目标是为治疗pLGG铺平道路,同时减少对侵入性肿瘤切除或全身治疗的需求,从而减少儿童的相关发病率。我们专注于识别pLGG肿瘤的内在成像和分子特征,从不同的临床应用分析角度探索其表型-基因型关系。这种方法还解决了ML中的一个主要障碍:缺乏生物学或临床可解释性,这阻碍了其整合到治疗决策中。

数据局限性:成像和基因组数据有限,成像队列相对较小且来自单一机构,外部有效性需进一步验证;队列中部分疾病、组织学类型和肿瘤部位的患者数量有限;缺乏部分数据层,如甲基化谱、代谢组学、蛋白质组学和病理组学数据,且无法通过免疫组织化学染色验证转录组发现。

评估方法局限性:肿瘤进展时间的确定方法不够客观,未来可考虑采用体积分析等方法提高准确性。

小编说明

本研究通过多组学和机器学习方法,为 pLGG的风险评估和治疗决策提供了有价值的工具。放射免疫组学特征有助于识别可能从免疫治疗中获益的患者,临床影像组学模型可预测肿瘤进展风险,指导治疗策略选择。然而,研究存在数据和方法上的局限,未来研究可扩大样本量、纳入多中心数据、整合更多数据层,以进一步完善模型,推动 pLGG 个性化医疗发展。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】发文没思路?GBD数据库+流行病学分析=深度剖析全球胃食管反流病负担

【2】最强发文工具-极智分析荣获江西省数据大赛二等奖

【3】极智分析团队联手南昌大学第二附属医院获省金奖

【4】《Cardiovascular Diabetology》IF=8.5,预测老年心力衰竭合并高血压患者死亡率?机器学习模型给出结果

【5】《CARDIOVASC DIABETOL》(IF=8.5),探索甘油三酯-葡萄糖指数对首次中风危重患者的预后影响

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章