文章标题:Establishment and Validation of Predictive Model of Tophus in Gout Patients
中文标题:痛风患者 Tophus 预测模型的建立与验证
发表期刊:Journal of Clinical Medicine
发表时间:2023年3月
影响因子:3.0/Q2
痛风是一种炎症性疾病,由尿酸单钠(MSU)晶体在关节和非关节结构中沉积引起。痛风患者经历各种症状,包括剧烈疼痛、急性和持续性炎症性关节炎,以及与慢性病相关的症状。机器学习(ML)是一个新兴的医学领域,它代表了一套强大的算法,能够表示、适应、学习、预测和分析数据;此外,ML被认为是生物医学研究、个性化医学和计算机辅助诊断的未来。
研究方法
从所有自变量中选择特征因素后,我们将痛风患者分为训练集和测试集。应用多个 ML 分类模型进行综合分析,比较不同模型的训练集和测试集中各指标的重要性。此外,我们利用最佳模型来评估和验证结果。还开发了整体和单个样本解释的 SHAP 演示模型。
结果分析
1. 基线特征
最终702名痛风患者纳入了,分析最终训练集和测试集。
2. LASSO回归
对剩余的自变量进行LASSO回归分析。LASSO回归可以压缩可变系数以防止过度拟合,并解决严重的共线性问题。结果显示:(最小均方误差=0.024),42个自变量减少到11个,包括性别、成人依从性、BMI、病程、每年发作次数、饮酒史、痛风家族史、多关节受累、EGFR、血沉和UA。
3. 逻辑回归
为进一步控制混杂因素的影响,对上述11个自变量进行多因素Logistic回归分析。最后,只有成人依从性、体重指数、病程、年发作次数(>12次)、饮酒史(每周饮用≥70g/饮酒年限≥10年)、痛风家族史、多关节受累、表皮生长因子受体和血沉被确定为特征因素。
4. 分类多模型的综合分析
XGBoost、Logistic、LightGBM、RandomForest、AdaBoost、MLP、支持向量机、KNN和GNB被训练并重复10次。使用曲线下面积(AUC)值对模型进行评估,结果表明XGBoost、LightGBM和RandomForest在训练集中最高,Logistic在测试集中最高。AUC指标侧重于模型的预测准确性,并不能判断模型是否可用于临床或两者中的哪一个更可取。因此,对DCA、校准曲线和PR曲线进行了分析。DCA评估Logistic和RandomForest是否具有更好的临床适用性。校准曲线显示GNB和Logistic模型预测的准确性更高。在训练和测试集中,Logistic模型显示了最佳性能,在测试集中具有最高的AP值。全面分析表明,Logistic模型可以被认为是最优模型。
5. 最佳模型构建与评估
对训练集进行Logistic回归分析和10倍交叉验证。结果表明,训练集的平均AUC值为0.876(0.838-0.914),验证集的平均AUC值为0.854(0.733-0.972),测试集的AUC值为0.888(0.839-0.937)。训练集、验证集和测试集的AUC最终稳定在0.85左右,模型预测效果准确。当验证集在AUC指数下的性能低于测试集或比率低于10%时,可以认为模型拟合成功,学习曲线表明训练集和验证集具有较强的拟合能力和较高的稳定性。这些结果表明,Logistic回归模型可以用于数据集的分类建模任务。
6. SHAP 解释模型
在每条特征重要线中,所有患者对结果的归因用不同颜色的点绘制,其中红点表示高风险值,蓝点表示低风险值。BMI 和 ULT 依从性降低 (MRP < 60%)、病程延长、年发作频率高 (>12 次)、过度饮酒史、痛风家族史、多关节受累、eGFR 降低和 ESR 升高会升高痛风石患者的痛风石形成。
文章小结
本研究基于 ML 模型构建了预测模型,logistic 回归模型在本研究中表现出更好的性能。此外,我们还为 SHAP 解释的痛风石患者痛风石的发展提供了个性化的风险评估。这种有效的计算机辅助方法可以帮助一线临床医生和患者识别和干预痛风石的发生。如果您对生信分析和公共数据库挖掘感兴趣,但时间和精力有限或者缺乏相关经验,小骨非常乐意为您提供如下服务:免费思路评估、付费方案设计和生信分析等,有意向的老师欢迎联系小骨哦!