中国学者发文一区top(IF 8.5),logistic回归模型的协变量竟使用三种机器学习法筛选

文摘   科学   2025-01-24 17:49   浙江  

引言

今天的这篇文章,北京协和医学院学者基于NHANES数据构建了3个Logistic回归模型。其中,模型3调整的协变量来自于三种机器学习算法筛选出的重要变量,对模型预测性能有显著提升作用的变量

接下来,让我们一起简单看一下吧(末尾附带方法详细解读)。

心血管疾病(CVD)是糖尿病患者的主要死亡原因之一,尽管指南强调同时控制血糖和心血管风险因素的重要性,但在这类人群中,CVD风险仍然很高。

先前研究表明,胰岛素抵抗(IR)指标与CVD和糖尿病显著相关,但估计葡萄糖处理率 (eGDR) 指数与糖尿病患者CVD及其亚型风险的关联有待进一步验证。

2025年1月13日,北京协和医学院的学者用NHANES数据库,在期刊Cardiovascular Diabetology(医学top一区,IF=8.5)发表题为Association between estimated glucose disposal rate and cardiovascular diseases in patients with diabetes or prediabetes: a cross-sectional study的研究论文。
在该项研究中,研究团队通过构建logistic回归模型,探究eGDR指数与糖尿病前期或糖尿病患者心血管疾病(CVD)及其亚型冠状动脉疾病(CAD)、充血性心力衰竭(CHF)和中风风险之间的关联,其中,模型调整的变量是三种机器学习筛选出的重要特征

本公号回复“ 原文”即可获得文献PDF等资料。想用NHANES发文,看看这个可一键提取和分析数据的NHANES  Online平台!如感兴趣请联系郑老师团队,微信号:aq566665

研究团队基于美国国家健康与营养调查(NHANES)数据库1999-2016年的数据,经过纳排,最终纳入了10,690名处于糖尿病前期或患有糖尿病的参与者,平均年龄为55.60岁,46.48%为女性。

图1 研究流程图



主要研究结果


研究团队通过单变量和多变量logistic回归分析发现,随着eGDR指数的增加,参与者患CVD及其亚型的风险均显著升高

表1 参与者eGDR指数与CVD及其亚型患病风险的关联

模型1(基本模型):无调整;

模型2(最小调整模型):调整了年龄、性别和种族;

模型3(完全调整模型):调整了通过SVM-RFE、XGBoost和Boruta算法筛选出的重要变量

机器学习算法筛选协变量

模型3(完全调整模型)调整的协变量来源于三种机器学习算法(SVM-RFE、XGBoost 和 Boruta 算法)各自筛选的前10个特征。

图2 三种机器学习算法

(A)Boruta算法,其中绿色框表示重要变量,红色框表示不重要的变量,黄色框表示可能重要的变量;

(B)Boruta算法的迭代过程;

(C)XGBoost算法,排序越小,变量就越重要;

(D)SVM-RFE算法,一个变量的排序越大,它被删除的时间就越晚













同时,研究团队还绘制了eGDR指数与参与者患CVD及其亚型风险的RCS曲线,结果均未发现存在非线性关联。
研究团队还进一步通过各种指标(如ROC曲线、校准曲线、DCA曲线等)评估模型的预测性能,结果均表明,完全调整模型的性能优于基本模型。
图3 (A)RCS曲线;(B)ROC曲线;(C)校准曲线;(D)DCA曲线
表2 净重新分类指数(NRI)综合判别改善指数(IDI)
此外,研究团队还比较了eGDR指数与其他IR指标(包括TyG, TyG-WC, TyG-WHtR, HOMA-IR, HOMA-β, TG/HDL, QUICKI and METS-IR)之间的性能差异,结果表明,在基本模型中,eGDR指数的ROC曲线下面积(AUC)显著高于其他IR指标,而在完全调整的模型中略高。
而亚组分析的结果也与上述一致,表明结果的稳健性。

综上所述,在糖尿病或糖尿病前期人群中,eGDR指数与心血管疾病及其亚型之间存在负线性关联。并且在调整过经机器学习算法筛选出的变量后,预测模型更佳。此外,与其他IR替代指标(包括TyG、HOMA-IR、METS-IR等)相比,eGDR指数在评估与CVD及其亚型相关性方面表现更佳。

统计知识点汇总

一、 数据来源

国国家健康与营养调查(NHANES)数据库:

NHANES数据库是一项旨在评估美国成人和儿童的健康和营养状况的研究计划。该数据库涵盖了多种健康指标的数据收集和分析。
二、研究设计思路:

P(Population)参与者:从NHANES数据库1999-2016年的数据中,纳入的10,690名糖尿病或糖尿病前期的参与者;

E(exposure)暴露因素:估计葡萄糖处置率(eGDR)指数

O(outcome)结局:心血管疾病(CVD)及其亚型,包括:冠状动脉疾病(CAD)充血性心力衰竭(CHF)和中风;

S(Study design)研究类型:横断面研究。

三、统计方法
√机器学习算法筛选协变量
在这篇文章中,学者使用了三种机器学习方法(SVM-RFE、XGBoost和Boruta算法)来筛选与CVD及其亚型相关的重要变量。

SVM-RFE

  • 支持向量机(SVM):SVM是一种用于分类和回归的监督学习模型。它通过在特征空间中找到一个最优超平面来区分不同类别的数据点。SVM的核心思想是最大化两个类别之间的间隔,从而提高分类的准确性。

  • 递归特征消除(RFE):RFE是一种特征选择方法,通过递归地训练模型并移除最不重要的特征来选择最重要的特征。

XGBoost

XGBoost 是一种高效的梯度提升决策树(GBDT)算法的实现,核心思想是通过加速树的构建过程,减少计算时间,避免过拟合,并提高模型的准确性。

Boruta算法

Boruta算法是一种基于随机森林的特征选择方法,通过引入“影子特征”(即随机生成的、与原始特征具有相同分布的噪声特征)来评估特征的重要性。
√logistic回归模型

本文中,研究团队通过单变量和多变量logistic回归分析,构建了3个模型来探究eGDR指数与CVD及其亚型患病风险的关联,并比较不同模型的预测性能。

  • 模型1(基础模型)未调整任何协变量;

  • 模型2(最小调整模型)调整了年龄、性别和种族;

  • 模型3(完全调整模型):调整了通过上述三个机器学习算法(SVM-RFE、XGBoost和Boruta算法)筛选出的重要变量。

此外,研究团队还通过多种评估方法,全面评估3个logistic回归模型模型的预测性能,确保研究结果的可靠性和实用性。
√本文评估模型性能的指标汇总
  • ROC曲线

用于评估模型的区分能力,通过比较不同模型的ROC曲线下面积(AUC)来评估哪个模型性能更好。通常,AUC值更高的模型被认为具有更好的区分能力。
  • C统计量

C统计量是AUC的量化指标,取值范围为0.5到1。值越接近1,表示模型的预测能力越强。
  • 净重新分类指数(NRI

NRI用于评估模型在重新分类方面的改进能力,即模型在预测风险分层时的准确性。它衡量新模型相对于旧模型在风险分类上的改进程度。
  • 综合判别改善指数(IDI)

IDI用于评估模型在整体区分能力上的改进,可以衡量新模型在预测事件发生概率上的提升程度。
  • 校准曲线

校准曲线用于评估模型的校准能力,即模型预测概率与实际发生率的一致性。理想情况下,校准曲线应接近45°对角线,表示预测概率与实际发生率高度一致。
  • 决策曲线分析(DCA)曲线

DCA曲线用于评估模型的临床净效益,即模型在临床决策中的实际应用价值。它考虑了不同阈值概率下模型的净效益,帮助判断模型在临床实践中的适用性。
√限制性立方样条(RCS)曲线

本文中,研究团队绘制了两次RCS曲线:

  • 评估eGDR指数与CVD及其亚型的非线性关系;

  • 探究其他胰岛素抵抗指标与CVD及其亚型的非线性关系

√亚组分析

在本文中,研究团队根据年龄、性别、BMI、糖尿病状态等因素对患者分层,进行了亚组分析,探讨eGDR指数与心血管疾病之间的关联在不同亚组中的差异,揭示潜在的交互作用。

这种将机器学习算法筛选出的重要特征作为协变量纳入模型的方法,确实能让研究结果更加准确,使模型更具代表性,是一种极具参考价值的研究思路!

如果你也想用NHANES数据库进行类似操作,但却是个统计小白,不妨了解一下郑老师的NHANES一对一统计服务课程!专业统计师会带你从零开始,一步步掌握如何利用NHANES数据进行高质量的统计分析,让你也能轻松get同款操作!
欢迎关注“公共数据库与孟德尔随机化”公众号,我们将持续为你提供NHANES数据库优秀文章的思路剖析和方法解读!

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!

我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导
GBD、NHANES医学数据库挖掘1对1R语言指导

扫码联系助教陈老师

微信号丨sas555777




公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章