14.7/Q1,顶刊非肿瘤纯生信如今热捧新数据库!机器学习携手多组学,高分轻松拿捏

文摘   2024-10-09 18:11   海南  

生信Rhim持续更新风湿免疫科,捕捉当下热点指标/思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系lulu~

文章标题:Data-driven identification of predictive risk biomarkers for subgroups of osteoarthritis using interpretable machine learning

中文标题:使用可解释的机器学习对骨关节炎亚组的预测风险生物标志物进行数据驱动识别

发表期刊:Nat Commun

发表时间:2024年4月

影响因子:14.7/Q1

研究背景
骨关节炎 (OA) 的患病率不断增加,对患者的生活产生严重影响。然而,我们对驱动 OA 风险的生物标志物的理解仍然有限。

研究方法

我们通过开发一个机器学习模型来预测个体风险并识别 OA 诊断前 5 年的风险生物标志物。通过整合多模式患者数据,确定具有不同风险生物标志物特征的 OA 亚组。该模型利用电子健康记录 (EHR)、临床生物标志物、自我报告的问卷数据、基因组学、蛋白质组学和代谢组学,在被诊断患有 OA 的英国队列中捕获了广泛的风险生物标志物景观可用个体子集。

结果分析

1. OA 研究人群

英国生物库(UKB)是一项基于人群的队列研究,与英国个人电子健康记录(EHR)相关联,有 502476 人参与。从 EHR 数据中确定了 103086 例 OA 诊断患者(约占参与者的 21%),并确定了相同数量的未被诊断为 OA 的对照参与者。对照随机选择且与病例患者 OA 诊断日期相匹配。该研究集中在评估中心后长达 5 年的 OA 诊断,旨在捕捉诊断前 5 年预测 OA 诊断的风险生物标志物,为探索老龄化人口深层表型的预防性干预提供潜在窗口。最终,19120 名诊断为 OA 的患者和 19252 名对照组被纳入分析。

2.风险建模

在确定 OA 研究和验证人群后,对多模态纵向患者数据进行处理并集成到 XGBoost 机器学习模型中。该模型用于预测 OA 诊断的 5 年风险,整合了招聘评估中心的多种数据以及 OA 诊断或匹配指数日期之前 5 年的纵向 EHR 临床数据,EHR 数据涵盖广泛内容。可解释机器学习框架在群体、精度和个性化水平上探索和量化 OA 的风险生物标志物。

3. 根据 5 年多模式临床数据预测 OA

将回顾性纵向临床数据整合到 XGBoost 模型中的 Clin 模型,用于预测 OA 诊断的 5 年风险。在 5×5 交叉验证的测试集中评估性能,该模型实现了 0.72 的交叉验证 ROC-AUC 性能,能较为准确地预测患 OA 的患者和未患 OA 的个体,预测性能在随机模型初始化中稳健且优于在排列的 OA 状态标签上训练的模型。还评估了 Clin 模型对不同受影响关节的 OA 特定亚组的预测性能,范围为 0.67 - 0.73,负重关节预测性能较高,联合分层模型与 Clin 模型相比性能略有不同。

4. 骨关节炎 (OA) 患者聚类和特征

Clin 模型证实 OA 风险因素在个体间有异质性。为捕捉此异质性,利用 Clin 模型的 SHAP 值对风险生物标志物聚类,经优化后识别出 14 个个体集群。聚类可发现高风险亚组,SHAP 值能解释特征重要性,用特定方式描述集群并生成 OA 亚组特征概述和风险预测原型。最后对蛋白质组学数据进行差异表达分析以获得分子 OA 特异性风险生物标志物。

5. OA研究人群中的聚类预测指标和定义规则和独立保留人群中的验证

为识别高预测 OA 风险的集群并了解亚组特征,定义了每个集群内 Clin 模型的预测性能指标。前三个集群占所有个体的 23%,对个体为 OA 病例的预测性最强,F1>0.83;另一组六个集群占所有个体约 35%,对 OA 有较适度的预测能力(0.73>F1>0.61);最后五个集群占所有个体约 41%,对 OA 的预测性最低(F1<0.35)。

6.骨关节炎的个性化风险生物标志物

Clin 模型的 SHAP 值可量化个体患者数据对 OA 诊断风险的影响,通过瀑布图能可视化个体 OA 风险概况,展示风险生物标志物的正负作用。如集群 1 中一位患者预测 OA 风险为 64%,主要由特定 BMI 和年龄驱动,未服用 NSAIDs 等因素降低风险,其他生物标志物也有次要贡献。该方法虽不能证明 BMI 与 OA 风险的因果关系,但提示在 OA 诊断前可对高影响的可改变风险生物标志物进行干预以降低风险。

7.多组学 OA 风险生物标志物

为探索 OA 的分子风险生物标志物,在临床预测模型(Clin 模型)中结合各种组学数据与临床特征,包括 OA 遗传学、代谢组学和蛋白质组学数据用于可获得这些数据的个体子集。与 Clin 模型相比,预测性能保持不变,敏感性分析也证实特定组学患者亚群的性能无变化,但纳入 OA 组学特征影响了模型中 OA 风险生物标志物的排名。


8.关节间 OA 风险生物标志物异质性

为进一步探索风险生物标志物对不同关节 OA 的影响,在被诊断患有 OA 的五个关节的个体子集上重新训练 Clin 模型。与 Clin 模型相比,除足部特异性模型预测性能较低外,其他关节特异性模型未观察到重大预测性能差异,但对最具预测性的特征有不同排名。OA 诊断前 1 年的年龄和 NSAID 处方对预测各关节分层的 OA 风险仍重要,而 BMI 在不同关节中的重要性不同,在负重关节(膝关节、髋关节和足部)预测 OA 诊断风险的重要性高于手臂和脊柱。

文章小结

研究基于UKB数据库构建OA机器学习模型并整合组学特征,确定了OA特异性风险生物标志物,突出其在潜在OA疾病生物学预测方面的重要性,这些成果有望推动OA的早期筛查、预防和治疗并减少发病与进展。(如果你正寻求思路复现、实验设计或定制化的数据分析服务,那么请不要错过我们哟~)

生信Rhim
生信Rhim,持续更新风湿免疫科风湿性关节炎,系统性红斑狼疮,强直性脊柱炎,骨关节炎,痛风等疾病的临床生信前沿文献和思路,提供专业的生信分析服务:思路设计,生信分析,文献复现,科室科研培训,数据库搭建,全力助力您的科研之路!
 最新文章