多元回归模型如何预测疾病进展?一文便知!

文摘   2025-01-09 20:02   江西  

点击蓝字 关注我们

今天解读的是发表在IEEE Access上的一篇文章《An Optimised Multivariable Regression Model for Predictive Analysis of Diabetic Disease Progression》。本文旨在开发和验证一个优化后的多变量线性回归模型,用于预测糖尿病患者一年后的疾病进展。研究人员通过特征选择和对数转换优化模型,并将其与现有模型进行比较,以评估其在预测精度和可解释性方面的优势。



01背景介绍

    糖尿病是一种慢性代谢性疾病,其特征是持续的高血糖水平,并可能导致多种严重的并发症,例如心血管疾病、肾病和神经病变。及早准确地预测糖尿病疾病的进展对于个性化治疗方案的制定和改善患者长期预后至关重要。现有研究中,许多预测模型基于有限的临床参数,难以捕捉疾病进展的非线性复杂性,导致其预测精度有限。机器学习技术,尤其是多变量线性回归模型,可以有效地从高维数据中提取信息,识别隐藏的模式和关联,从而为疾病进展预测提供新的工具。因此,本研究试图构建一个优化后的多变量线性回归模型,以提高糖尿病疾病进展的预测精度和可解释性。



02研究方法

01 数据来源

研究使用了 442 例糖尿病患者的数据。数据来源未具体说明,仅指出数据包含患者的年龄、性别、BMI 和 6 种血清测量值。这些数据应该至少包括在过去一年内的信息,用于构建模型和评估一年的糖尿病疾病进展。


02 分析方法

2.1 数据预处理

数据清洗与分布分析:检查数据缺失值、异常值和不相关字符,观察数据分布是否正态,绘制直方图和相关热图分析参数相关性。依据相关性和统计检验判断异常值和可去除变量,如 LDL 和 TC 高度相关且 LDL 与其他参数相关性低,可考虑去除。

图1:1年后患者数量与糖尿病疾病进展的直方图

图2:患者数量与患者平均BMI的直方图

图3:患者数量与患者平均血压的直方图

图4:所有特征和目标之间的相关性热图


特征选择:分析 P 值、方差膨胀因子(VIF)和贝叶斯信息准则(BIC)选择特征。P 值大于 0.05、VIF 大于 10 及综合 BIC 考虑,最终去除 TC、LDL 和 TCH 构建模型,并按 80% 训练、20% 测试划分数据。


2.2 模型构建与优化

多变量线性回归基础模型:通过输入变量向量预测连续目标变量,构建线性模型,最小化平方误差函数确定回归系数,找到最佳拟合回归线进行预测。

Ca1.最小化平方误差函数

Ca2.确定回归系数


优化策略:对基础模型进行特征降维和对数变换优化。特征降维去除相关性强和对模型性能影响小的变量;对数变换应用于模型和疾病进展数据,改善数据偏度和模型拟合效果,如降低疾病进展概率密度函数的偏度,优化残差分布等。

图5:对数变换后疾病进展的概率密度函数

图6:预测疾病进展的残差图

图7:对数转换疾病进展残差的概率密度函数



模型比较:将优化模型与非优化线性回归模型及 KNN、SVR、CART、RF 等流行模型和 Bagging Regressor、Adaboost、Xgboost、Stacking 等集成技术进行比较,均采用 10 折交叉验证重复 3 次的方法评估性能。

表1:为数据集上现有模型的性能分析所设置的基本参数

表2:提出的模型与其他国家的最先进的模型的性能比较


03结果

3.1 总述

优化后的多变量回归模型在预测糖尿病疾病进展方面表现优异,相比非优化模型和其他现有方法,RMSE 显著降低,拟合效果更好。

3.2 结果

 模型性能指标对比:非优化回归模型的 MSE 为 2942.73,R - squared 为 0.51254,RMSE 为 54.247;优化回归模型(降维对数模型)的 MSE 为 0.1610,R - squared 为 0.4750,RMSE 为 1.5。

表3:非优化和优化模型的性能分析


  与其他模型对比:在测试的现有模型中,RMSE 范围在 54 至 65 之间,而优化模型的 RMSE 为 1.5。如 KNN 的 RMSE 为 55,SVR 为 63 ,表明优化模型在该数据集上具有优势。

图8:建议的优化模型与其他最先进模型的RMSE得分比较图


04局限性

本文的局限性主要体现在以下方面:

回顾性研究设计:由于使用了回顾性数据,模型的准确性和可推广性可能受到偏倚的影响。

样本量过少的限制:442 例患者的数据量,对于机器学习模型来说,这仍然是一个相对较小的样本量,可能会降低模型的泛化能力,尤其是在不同亚组中的泛化能力。

数据来源不明确:未说明数据的来源和收集方法,也无法评价数据的代表性和异质性。

混杂因素的影响:模型可能未完全控制所有潜在的混杂因素(如遗传、生活方式等)。

缺乏对疾病机制的理解:模型主要关注的是预测疾病进展,而对于疾病进展的潜在机制缺乏深入研究。


小编说明:

本研究提出了一种优化后的 MLR 模型,该模型在预测糖尿病疾病进展方面表现出良好的性能,并对关键预测变量进行了识别。然而,该研究设计为回顾性研究,样本量较小且数据来源未明确,这些局限性需要考虑。未来的研究应使用前瞻性队列研究设计,并纳入更全面的临床和生物标志物数据来进一步验证模型,并探究潜在的疾病机制。此外,改进模型的可解释性,以及扩展模型的时间窗口,将有助于更有效地指导糖尿病患者的管理和预后预测。


结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】《Cardiovascular Diabetology》IF=8.5,预测老年心力衰竭合并高血压患者死亡率?机器学习模型给出结果

【2】突破临床瓶颈冲刺顶刊文章,公共数据库+分层分析+解释模型=SLE患者的亚群(IF10.4)

【3】解锁临床预后诊断新高度,机器学习助力突破9+

【4】《CARDIOVASC DIABETOL》(IF=8.5),探索甘油三酯-葡萄糖指数对首次中风危重患者的预后影响

【5】《CARDIOVASC DIABETOL》(IF=8.5),非糖尿病人群TyG水平与生活方式评分对缺血性卒中风险的影响

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析


极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章