Nature子刊:基于蛋白质的机器学习预后模型用于对儿童乳头状甲状腺癌患者进行分层

文摘   2024-12-13 20:00   江西  

点击蓝字 关注我们

本次解读的是发表在Nature Communications(IF=14.7)上的一篇文章《An individualized protein-based prognostic model to stratify pediatric patients with papillary thyroid carcinoma》,本研究旨在开发一种基于机器学习方法,用于预测儿童乳头状甲状腺癌 (PPTC) 患者的复发风险。研究回顾性地收集并分析了 83 例儿童良性甲状腺结节 (PB)、85 例儿童恶性结节 (PM) 和 66 例成人恶性结节 (AM) 的临床因素和蛋白质组数据。利用质谱法定量分析了 10,426 种蛋白质,并发现了 PM 组与 PB 组和 AM 组之间存在差异表达的蛋白质。功能和通路分析显示,PM 组患者的炎症和免疫系统激活增强。研究人员构建了一个基于 19 种蛋白质的机器学习模型,用于预测 PPTC 复发风险,准确率达到 88.24%。该模型能够将 PPTC 患者分层为高复发风险和低复发风险组,为临床决策和个体化治疗提供参考。



01简介

乳头状甲状腺癌 (PTC) 是儿童和青少年中最常见的内分泌恶性肿瘤,其发病率逐年上升。与成人 PTC 相比,儿童 PTC (PPTC) 往往具有更大的肿瘤体积、更多的淋巴结转移、更高的甲状腺外侵犯率和远处转移率,以及更高的复发率,但其总体死亡率较低。目前,针对儿童分化型甲状腺癌的指南在个体化诊断、治疗和预后评估策略方面存在不足。与成人患者不同,儿童患者没有基于年龄的分层,所有患者均采用相同的治疗策略。尽管大多数 PPTC 患者的预后良好,但复发会严重影响患者的无病生存期和生活质量。由于 PPTC 复发的风险因素尚不清楚,目前缺乏有效的方法来评估 PPTC 患者的预后,并将他们分为高复发风险和低复发风险组。因此,低复发风险的患者可能接受了过度的手术切除,从而不必要地增加了并发症的风险。另一方面,高复发风险的患者可能接受了不足的术前评估和术后监测,导致预后不良。目前对 PPTC 分子机制的研究主要集中在基因层面,主要关注 PPTC 的病因学和良恶性诊断,但没有提供个性化预后评估的工具。与成人 PTC 相比,PPTC 的基因重排发生率更高,而与 PTC 相关的原癌基因的点突变频率更低。特别是 BRAF 突变较为少见,而 RET/PTC 重排和基因融合在儿童中比在成人中更常见。因此,基于基因的诊断和预后评估方法在儿童甲状腺癌中的有效性可能受到影响。与基因相比,蛋白质作为基因表达的最终产物,可以为疾病的预后评估提供更有价值的信息。然而,由 PPTC 引起的蛋白质组变化尚不清楚。本研究旨在分析 PPTC 的蛋白质组学特征,并将其与儿童良性结节和成人 PTC 进行比较,并开发基于蛋白质的个性化预后预测模型。


02方法

研究设计和患者: 本研究回顾性地分析了 2007 年 11 月至 2021 年 4 月期间在中国医科大学第一医院接受甲状腺手术的 85 例 PPTC 患者 (PM 组) 和 83 例儿童良性甲状腺结节患者 (PB 组)。PM 组包括 23 例男性和 62 例女性,平均年龄为 15.6 ± 2.4 岁;PB 组包括 15 例男性和 68 例女性,平均年龄为 15.9 ± 1.9 岁。所有患者均因颈部肿块入院,PM 组的平均肿瘤大小为 2.4 ± 1.3 厘米,小于 PB 组的 3.8 ± 1.3 厘米。PM 组的中位随访时间为 71 个月 (四分位数范围为 48-113 个月),在此期间没有死亡报告。研究还纳入了 66 例成人 PTC 患者 (AM 组),用于比较儿童和成人甲状腺癌的蛋白质组学特征。(图 1b)

临床数据收集: 收集了 11 项临床特征,包括年龄、性别、最大结节大小、多灶性、甲状腺外侵犯 (ETE)、总淋巴结转移率 (TLNR)、外侧淋巴结转移率 (LLNR)、总淋巴结转移数 (TLNN)、外侧淋巴结转移数 (LLNN)、手术方法和桥本甲状腺炎 (HT)。

 

蛋白质组学数据采集和分析:

 

样本制备: 从福尔马林固定石蜡包埋 (FFPE) 组织切片中提取蛋白质,使用压力循环技术 (PCT) 进行裂解和消化。使用 TMTpro 16plex 试剂标记肽段,并通过液相色谱-质谱联用 (LC-MS/MS) 进行分析。

 

数据预处理: 使用 Proteome Discoverer 软件对质谱原始数据进行检索,并使用 TMT-126 通道作为每个批次的参考。使用 NAguideR 包对缺失值进行插补,并使用 ComBat 算法校正批次效应。对技术重复样本进行平均以获得每个样本的蛋白质丰度值。

 

差异蛋白分析: 使用 Welch t 检验识别 PM 组与 PB 组和 PM 组与 AM 组之间的差异表达蛋白 (DEP),筛选标准为倍数变化 (FC) > 1.2 或 1.5(建模为 1.2,富集分析为 1.5)和调整后的 p 值 < 0.05。

 

功能和通路富集分析: 使用 STRING 数据库和 Ingenuity Pathway Analysis (IPA) 软件对 DEP 进行功能和通路富集分析。(图 3e, 3f, 3g)

免疫浸润分析: 使用 CIBERSORTx 算法评估 PB 组和 PM 组中七种免疫细胞类型的相对比例,并通过多重免疫荧光染色进行验证。(图 4a, 4b) 比较 PB 组、无复发 PM 组 (PM-NR) 和复发 PM 组 (PM-R) 中 31 种免疫检查点蛋白的表达水平。(图 4c)

构建 PPTC 复发风险预测模型:

临床特征分析: 使用单变量和多变量 Cox 比例风险 (CoxPH) 模型分析 11 个临床特征与 PPTC 复发的关系,并确定年龄、TLNN 和 LLNN 为显著的风险因素。(图 2a, 2b, 2c)

模型开发: 基于临床特征 (CliCox 和 CliRsf)、蛋白质特征 (ProtCox 和 ProtRsf) 或临床和蛋白质特征 (CliProtRsf) 构建了五种预测模型。使用网格搜索策略和三重交叉验证优化模型参数,并使用训练集训练模型。使用 C 指数评估模型性能,并选择性能最佳的 ProtRsf 模型进行后续分析。(图 5a)

特征选择和模型构建: ProtRsf 模型使用随机生存森林算法选择了 19 种蛋白质作为特征。对这些特征进行网络分析,发现其中 13 种蛋白质直接或间接相关,LGALS3 为核心蛋白。(图 5d, 5e, 补充表 3) 比较了 PB 组、低风险 PM 组、高风险 PM 组和 AM 组中 LGALS3 的蛋白丰度。(图 5f)

风险分层: 根据训练集中复发组和非复发组患者的风险评分确定风险分层阈值,并将 PM 组患者分为高危组和低危组。(图 5b, 5c, 6a)

 


03结果

临床特征: 研究纳入了 85 例 PM 患者和 83 例 PB 患者。PM 组患者的平均年龄小于 PB 组,肿瘤大小也较小。PM 组的中位随访时间为 71 个月,其中 12 例患者发生复发。单变量和多变量 CoxPH 模型分析显示,年龄、TLNN 和 LLNN 是 PPTC 复发的显著风险因素。(图 2)

 

蛋白质组学差异: 在 PM 组与 PB 组之间鉴定出 243 个 DEP,在 PM 组与 AM 组之间鉴定出 121 个 DEP。功能和通路富集分析表明,PM 组中上调的蛋白质主要与 MHC-II 和免疫相关通路有关。(图 3)

免疫浸润: CIBERSORTx 分析显示 PM 组中 CD8+ T 细胞和巨噬细胞的浸润水平升高,而树突状细胞和 Treg 细胞的浸润水平降低。多重免疫荧光染色验证了这些结果。(图 4a, 4b) 在 PM-R 组中,PVR 和 IL10RB 的表达水平显著降低。(图 4c)

预后模型性能: ProtRsf 模型在训练集、三重交叉验证集和独立测试集中的 C 指数分别为 99.62%、96.86% 和 84.95%,表明该模型具有良好的预测性能和泛化能力。(图 5a) 该模型选择了 19 种蛋白质作为特征,其中 LGALS3 是一个关键的中心蛋白,其在 PM 高危组中的表达水平显著高于其他组。(图 5d, 5e, 5f)

风险分层: 基于 ProtRsf 模型的风险评分,将 PM 患者分为高危组和低危组。Kaplan-Meier 生存分析显示两组患者的复发率存在显著差异。(图 5c, 6a) 对模型错误预测的 10 例患者进行分析,发现假阳性患者的随访时间较短,仍有可能在未来发生复发;而假阴性患者的复发时间较长,提示其生物学行为相对惰性。(图 6b, 6c)

 


04局限性

回顾性研究设计: 回顾性研究设计容易受到混杂因素和选择偏差的影响,可能会限制研究结果的可推广性。未来的研究应考虑使用前瞻性队列,以更好地控制混杂因素并提高结果的可靠性。

样本量: 研究的样本量相对较小,尤其是 PM-R 组只有 12 例患者,这可能会影响模型的稳定性和泛化能力。未来的研究需要更大规模的样本量来验证模型的性能。

单中心研究: 这项研究仅在一个中心进行,可能无法代表其他人群的特征。多中心研究可以提高模型的普适性。

缺乏对长期预后的评估: 虽然研究的随访时间长达 71 个月,但仍不足以完全评估 PPTC 患者的长期预后。未来的研究需要更长的随访时间来评估模型对长期复发风险的预测能力。

缺乏对分子机制的深入研究: 研究主要集中于构建预测模型,而对模型中 19 种蛋白质的生物学功能和在 PPTC 发生发展中的作用机制缺乏深入研究。未来的研究需要进一步探索这些蛋白质的生物学功能,并阐明其与 PPTC 复发的关系。 

小编说明:

本研究开发了一种基于蛋白质的个性化预后模型,用于预测 PPTC 患者的复发风险。该模型的准确率高,并能够将患者分层到高危组和低危组,为临床决策提供参考。然而,由于研究的回顾性设计、样本量较小和缺乏对分子机制的深入研究等局限性,该模型的临床应用价值仍需在更大规模、多中心的前瞻性研究中得到进一步验证。未来的研究也应关注模型中 19 种蛋白质的生物学功能和作用机制,以开发更有效的 PPTC 治疗策略。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】CARDIOVASCULAR IMAGING(IF=12.8):基线分析+模型解释性+生成分析=NICM右心室功能障碍的预后意义

【2】《Eur J Heart Fail》IF=16.9,如何识别高危糖尿病心肌病表型?新开发和验证的机器学习的方法帮助解决!

【3】归因分析与GBD数据库如何完美交织?这一篇就够了!

【4】Joinpoint回归也能结合GBD数据库?瞧瞧高手们的做法

【5】《eClinicalMedicine》IF=9.6,饮酒者饮酒与痴呆发病率之间有何关系?孟德尔随机化给出答案!

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章