心血管疾病(CVD)是糖尿病患者的主要死亡原因之一,尽管指南强调同时控制血糖和心血管风险因素的重要性,但在这类人群中,CVD风险仍然很高。
先前研究表明,胰岛素抵抗(IR)指标与CVD和糖尿病显著相关,但估计葡萄糖处理率 (eGDR) 指数与糖尿病患者CVD及其亚型风险的关联有待进一步验证。
本公号回复“ 原文”即可获得文献PDF等资料。想用NHANES发文,看看这个可一键提取和分析数据的NHANES Online平台!如感兴趣请联系郑老师团队,微信号:aq566665
图1 研究流程图
主要研究结果
研究团队通过单变量和多变量logistic回归分析发现,随着eGDR指数的增加,参与者患CVD及其亚型的风险均显著升高。
表1 参与者eGDR指数与CVD及其亚型患病风险的关联
模型1(基本模型):无调整;
模型2(最小调整模型):调整了年龄、性别和种族;
模型3(完全调整模型):调整了通过SVM-RFE、XGBoost和Boruta算法筛选出的重要变量
模型3(完全调整模型)调整的协变量来源于三种机器学习算法(SVM-RFE、XGBoost 和 Boruta 算法)各自筛选的前10个特征。
图2 三种机器学习算法
(A)Boruta算法,其中绿色框表示重要变量,红色框表示不重要的变量,黄色框表示可能重要的变量;
(B)Boruta算法的迭代过程;
(C)XGBoost算法,排序越小,变量就越重要;
(D)SVM-RFE算法,一个变量的排序越大,它被删除的时间就越晚
综上所述,在糖尿病或糖尿病前期人群中,eGDR指数与心血管疾病及其亚型之间存在负线性关联。并且在调整过经机器学习算法筛选出的变量后,预测模型更佳。此外,与其他IR替代指标(包括TyG、HOMA-IR、METS-IR等)相比,eGDR指数在评估与CVD及其亚型相关性方面表现更佳。
统计知识点汇总
美国国家健康与营养调查(NHANES)数据库:
P(Population)参与者:从NHANES数据库1999-2016年的数据中,纳入的10,690名糖尿病或糖尿病前期的参与者;
E(exposure)暴露因素:估计葡萄糖处置率(eGDR)指数;
O(outcome)结局:心血管疾病(CVD)及其亚型,包括:冠状动脉疾病(CAD)、充血性心力衰竭(CHF)和中风;
S(Study design)研究类型:横断面研究。
SVM-RFE
支持向量机(SVM):SVM是一种用于分类和回归的监督学习模型。它通过在特征空间中找到一个最优超平面来区分不同类别的数据点。SVM的核心思想是最大化两个类别之间的间隔,从而提高分类的准确性。
递归特征消除(RFE):RFE是一种特征选择方法,通过递归地训练模型并移除最不重要的特征来选择最重要的特征。
XGBoost
XGBoost 是一种高效的梯度提升决策树(GBDT)算法的实现,其核心思想是通过加速树的构建过程,减少计算时间,避免过拟合,并提高模型的准确性。
Boruta算法
本文中,研究团队通过单变量和多变量logistic回归分析,构建了3个模型来探究eGDR指数与CVD及其亚型患病风险的关联,并比较不同模型的预测性能。
模型1(基础模型):未调整任何协变量;
模型2(最小调整模型):调整了年龄、性别和种族;
模型3(完全调整模型):调整了通过上述三个机器学习算法(SVM-RFE、XGBoost和Boruta算法)筛选出的重要变量。
ROC曲线
C统计量
净重新分类指数(NRI)
综合判别改善指数(IDI)
校准曲线
决策曲线分析(DCA)曲线
在本文中,研究团队绘制了两次RCS曲线:
评估eGDR指数与CVD及其亚型的非线性关系;
探究其他胰岛素抵抗指标与CVD及其亚型的非线性关系。
√亚组分析
这种将机器学习算法筛选出的重要特征作为协变量纳入模型的方法,确实能让研究结果更加准确,使模型更具代表性,是一种极具参考价值的研究思路!
郑老师统计团队及公众号
扫码联系助教陈老师
微信号丨sas555777