文章标题:Data-driven identification of predictive risk biomarkers for subgroups of osteoarthritis using interpretable machine learning
中文标题:使用可解释的机器学习对骨关节炎亚组的预测风险生物标志物进行数据驱动识别
发表期刊:Nat Commun
发表时间:2024年4月
影响因子:14.7/Q1
研究方法
结果分析
1. OA 研究人群
2.风险建模
在确定 OA 研究和验证人群后,对多模态纵向患者数据进行处理并集成到 XGBoost 机器学习模型中。该模型用于预测 OA 诊断的 5 年风险,整合了招聘评估中心的多种数据以及 OA 诊断或匹配指数日期之前 5 年的纵向 EHR 临床数据,EHR 数据涵盖广泛内容。可解释机器学习框架在群体、精度和个性化水平上探索和量化 OA 的风险生物标志物。
3. 根据 5 年多模式临床数据预测 OA
将回顾性纵向临床数据整合到 XGBoost 模型中的 Clin 模型,用于预测 OA 诊断的 5 年风险。在 5×5 交叉验证的测试集中评估性能,该模型实现了 0.72 的交叉验证 ROC-AUC 性能,能较为准确地预测患 OA 的患者和未患 OA 的个体,预测性能在随机模型初始化中稳健且优于在排列的 OA 状态标签上训练的模型。还评估了 Clin 模型对不同受影响关节的 OA 特定亚组的预测性能,范围为 0.67 - 0.73,负重关节预测性能较高,联合分层模型与 Clin 模型相比性能略有不同。
4. 骨关节炎 (OA) 患者聚类和特征
Clin 模型证实 OA 风险因素在个体间有异质性。为捕捉此异质性,利用 Clin 模型的 SHAP 值对风险生物标志物聚类,经优化后识别出 14 个个体集群。聚类可发现高风险亚组,SHAP 值能解释特征重要性,用特定方式描述集群并生成 OA 亚组特征概述和风险预测原型。最后对蛋白质组学数据进行差异表达分析以获得分子 OA 特异性风险生物标志物。
5. OA研究人群中的聚类预测指标和定义规则和独立保留人群中的验证
为识别高预测 OA 风险的集群并了解亚组特征,定义了每个集群内 Clin 模型的预测性能指标。前三个集群占所有个体的 23%,对个体为 OA 病例的预测性最强,F1>0.83;另一组六个集群占所有个体约 35%,对 OA 有较适度的预测能力(0.73>F1>0.61);最后五个集群占所有个体约 41%,对 OA 的预测性最低(F1<0.35)。
6.骨关节炎的个性化风险生物标志物
Clin 模型的 SHAP 值可量化个体患者数据对 OA 诊断风险的影响,通过瀑布图能可视化个体 OA 风险概况,展示风险生物标志物的正负作用。如集群 1 中一位患者预测 OA 风险为 64%,主要由特定 BMI 和年龄驱动,未服用 NSAIDs 等因素降低风险,其他生物标志物也有次要贡献。该方法虽不能证明 BMI 与 OA 风险的因果关系,但提示在 OA 诊断前可对高影响的可改变风险生物标志物进行干预以降低风险。
7.多组学 OA 风险生物标志物
为探索 OA 的分子风险生物标志物,在临床预测模型(Clin 模型)中结合各种组学数据与临床特征,包括 OA 遗传学、代谢组学和蛋白质组学数据用于可获得这些数据的个体子集。与 Clin 模型相比,预测性能保持不变,敏感性分析也证实特定组学患者亚群的性能无变化,但纳入 OA 组学特征影响了模型中 OA 风险生物标志物的排名。
8.关节间 OA 风险生物标志物异质性
为进一步探索风险生物标志物对不同关节 OA 的影响,在被诊断患有 OA 的五个关节的个体子集上重新训练 Clin 模型。与 Clin 模型相比,除足部特异性模型预测性能较低外,其他关节特异性模型未观察到重大预测性能差异,但对最具预测性的特征有不同排名。OA 诊断前 1 年的年龄和 NSAID 处方对预测各关节分层的 OA 风险仍重要,而 BMI 在不同关节中的重要性不同,在负重关节(膝关节、髋关节和足部)预测 OA 诊断风险的重要性高于手臂和脊柱。
文章小结
研究基于UKB数据库构建OA机器学习模型并整合组学特征,确定了OA特异性风险生物标志物,突出其在潜在OA疾病生物学预测方面的重要性,这些成果有望推动OA的早期筛查、预防和治疗并减少发病与进展。(如果你正寻求思路复现、实验设计或定制化的数据分析服务,那么请不要错过我们哟~)