中国学者发文一区top（IF 8.5），logistic回归模型的协变量竟使用三种机器学习法筛选

文摘科学 2025-01-24 17:49 浙江

引言

今天的这篇文章，北京协和医学院学者基于NHANES数据构建了3个Logistic回归模型。其中，模型3调整的协变量来自于三种机器学习算法筛选出的重要变量，对模型预测性能有显著提升作用的变量！

接下来，让我们一起简单看一下吧（末尾附带方法详细解读）。

心血管疾病（CVD）是糖尿病患者的主要死亡原因之一，尽管指南强调同时控制血糖和心血管风险因素的重要性，但在这类人群中，CVD风险仍然很高。

先前研究表明，胰岛素抵抗（IR）指标与CVD和糖尿病显著相关，但估计葡萄糖处理率（eGDR）指数与糖尿病患者CVD及其亚型风险的关联有待进一步验证。

2025年1月13日，北京协和医学院的学者用NHANES数据库，在期刊《Cardiovascular Diabetology》（医学top一区，IF=8.5）发表题为：“Association between estimated glucose disposal rate and cardiovascular diseases in patients with diabetes or prediabetes: a cross-sectional study”的研究论文。

在该项研究中，研究团队通过构建logistic回归模型，探究eGDR指数与糖尿病前期或糖尿病患者心血管疾病（CVD）及其亚型（冠状动脉疾病（CAD）、充血性心力衰竭（CHF）和中风）风险之间的关联，其中，模型调整的变量是三种机器学习筛选出的重要特征。

本公号回复“ 原文”即可获得文献PDF等资料。想用NHANES发文，看看这个可一键提取和分析数据的NHANES Online平台！如感兴趣请联系郑老师团队，微信号：aq566665

研究团队基于美国国家健康与营养调查（NHANES）数据库1999-2016年的数据，经过纳排，最终纳入了10,690名处于糖尿病前期或患有糖尿病的参与者，平均年龄为55.60岁，46.48%为女性。

图1 研究流程图

主要研究结果

研究团队通过单变量和多变量logistic回归分析发现，随着eGDR指数的增加，参与者患CVD及其亚型的风险均显著升高。

表1 参与者eGDR指数与CVD及其亚型患病风险的关联

模型1（基本模型）：无调整；

模型2（最小调整模型）：调整了年龄、性别和种族；

模型3（完全调整模型）：调整了通过SVM-RFE、XGBoost和Boruta算法筛选出的重要变量

机器学习算法筛选协变量

模型3（完全调整模型）调整的协变量来源于三种机器学习算法（SVM-RFE、XGBoost 和 Boruta 算法）各自筛选的前10个特征。

图2 三种机器学习算法

（A）Boruta算法，其中绿色框表示重要变量，红色框表示不重要的变量，黄色框表示可能重要的变量；

（B）Boruta算法的迭代过程；

（C）XGBoost算法，排序越小，变量就越重要；

（D）SVM-RFE算法，一个变量的排序越大，它被删除的时间就越晚

同时，研究团队还绘制了eGDR指数与参与者患CVD及其亚型风险的RCS曲线，结果均未发现存在非线性关联。

研究团队还进一步通过各种指标（如ROC曲线、校准曲线、DCA曲线等）评估模型的预测性能，结果均表明，完全调整模型的性能优于基本模型。

图3 （A）RCS曲线；（B）ROC曲线；（C）校准曲线；（D）DCA曲线

表2 净重新分类指数（NRI）和综合判别改善指数（IDI）

此外，研究团队还比较了eGDR指数与其他IR指标（包括TyG, TyG-WC, TyG-WHtR, HOMA-IR, HOMA-β, TG/HDL, QUICKI and METS-IR）之间的性能差异，结果表明，在基本模型中，eGDR指数的ROC曲线下面积（AUC）显著高于其他IR指标，而在完全调整的模型中略高。

而亚组分析的结果也与上述一致，表明结果的稳健性。

综上所述，在糖尿病或糖尿病前期人群中，eGDR指数与心血管疾病及其亚型之间存在负线性关联。并且在调整过经机器学习算法筛选出的变量后，预测模型更佳。此外，与其他IR替代指标（包括TyG、HOMA-IR、METS-IR等）相比，eGDR指数在评估与CVD及其亚型相关性方面表现更佳。

统计知识点汇总

一、数据来源

美国国家健康与营养调查（NHANES）数据库：

NHANES数据库是一项旨在评估美国成人和儿童的健康和营养状况的研究计划。该数据库涵盖了多种健康指标的数据收集和分析。

二、研究设计思路：

P（Population）参与者：从NHANES数据库1999-2016年的数据中，纳入的10,690名糖尿病或糖尿病前期的参与者；

E（exposure）暴露因素：估计葡萄糖处置率（eGDR）指数；

O（outcome）结局：心血管疾病（CVD）及其亚型，包括：冠状动脉疾病（CAD）、充血性心力衰竭（CHF）和中风；

S（Study design）研究类型：横断面研究。

三、统计方法

√机器学习算法筛选协变量

在这篇文章中，学者使用了三种机器学习方法（SVM-RFE、XGBoost和Boruta算法）来筛选与CVD及其亚型相关的重要变量。

SVM-RFE

支持向量机（SVM）：SVM是一种用于分类和回归的监督学习模型。它通过在特征空间中找到一个最优超平面来区分不同类别的数据点。SVM的核心思想是最大化两个类别之间的间隔，从而提高分类的准确性。
递归特征消除（RFE）：RFE是一种特征选择方法，通过递归地训练模型并移除最不重要的特征来选择最重要的特征。

XGBoost

XGBoost 是一种高效的梯度提升决策树（GBDT）算法的实现，其核心思想是通过加速树的构建过程，减少计算时间，避免过拟合，并提高模型的准确性。

Boruta算法

Boruta算法是一种基于随机森林的特征选择方法，通过引入“影子特征”（即随机生成的、与原始特征具有相同分布的噪声特征）来评估特征的重要性。

√logistic回归模型

本文中，研究团队通过单变量和多变量logistic回归分析，构建了3个模型来探究eGDR指数与CVD及其亚型患病风险的关联，并比较不同模型的预测性能。

模型1（基础模型）：未调整任何协变量；
模型2（最小调整模型）：调整了年龄、性别和种族；
模型3（完全调整模型）：调整了通过上述三个机器学习算法（SVM-RFE、XGBoost和Boruta算法）筛选出的重要变量。

此外，研究团队还通过多种评估方法，全面评估3个logistic回归模型模型的预测性能，确保研究结果的可靠性和实用性。

√本文评估模型性能的指标汇总

ROC曲线

用于评估模型的区分能力，通过比较不同模型的ROC曲线下面积（AUC）来评估哪个模型性能更好。通常，AUC值更高的模型被认为具有更好的区分能力。

C统计量

C统计量是AUC的量化指标，取值范围为0.5到1。值越接近1，表示模型的预测能力越强。

净重新分类指数（NRI）

NRI用于评估模型在重新分类方面的改进能力，即模型在预测风险分层时的准确性。它衡量新模型相对于旧模型在风险分类上的改进程度。

综合判别改善指数（IDI）

IDI用于评估模型在整体区分能力上的改进，可以衡量新模型在预测事件发生概率上的提升程度。

校准曲线

校准曲线用于评估模型的校准能力，即模型预测概率与实际发生率的一致性。理想情况下，校准曲线应接近45°对角线，表示预测概率与实际发生率高度一致。

决策曲线分析（DCA）曲线

DCA曲线用于评估模型的临床净效益，即模型在临床决策中的实际应用价值。它考虑了不同阈值概率下模型的净效益，帮助判断模型在临床实践中的适用性。

√限制性立方样条（RCS）曲线

在本文中，研究团队绘制了两次RCS曲线：

评估eGDR指数与CVD及其亚型的非线性关系；
探究其他胰岛素抵抗指标与CVD及其亚型的非线性关系。

√亚组分析

在本文中，研究团队根据年龄、性别、BMI、糖尿病状态等因素对患者分层，进行了亚组分析，探讨eGDR指数与心血管疾病之间的关联在不同亚组中的差异，揭示潜在的交互作用。

这种将机器学习算法筛选出的重要特征作为协变量纳入模型的方法，确实能让研究结果更加准确，使模型更具代表性，是一种极具参考价值的研究思路！

如果你也想用NHANES数据库进行类似操作，但却是个统计小白，不妨了解一下郑老师的NHANES一对一统计服务课程！专业统计师会带你从零开始，一步步掌握如何利用NHANES数据进行高质量的统计分析，让你也能轻松get同款操作！

欢迎关注“公共数据库与孟德尔随机化”公众号，我们将持续为你提供NHANES数据库优秀文章的思路剖析和方法解读！

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

扫码联系助教陈老师

微信号丨sas555777

公共数据库与孟德尔随机化

我们专门介绍公共数据库与孟德尔随机化，每周文献周报，呈现精品文献阅读

最新文章

不得不补，维生素D！研究表明，补充维D或可降低空气污染对青少年生长发育的影响

NHANES Online平台可直接分析的指标：体重调整后的腰围指数（WWI）

春节不动，肾受罪！中国学者建议，假期每天久坐时间别超过这个点

NHANES Online平台可直接分析的指标：尿酸与高密度脂蛋白胆固醇比值（UHR）

NHANES Online平台加权/非加权中介分析结果解读，一文搞定！

2025年统计服务！医院临床/护理数据分析，可预开发票

中国学者发文一区top（IF 8.5），logistic回归模型的协变量竟使用三种机器学习法筛选

NHANES Online平台可直接分析的第83个指标：虚弱指数（FRAILTY INDEX）

一边唱衰一边偷卷？2024年孟德尔随机化增长133.33%，中国学者超80%

NHANES Online平台可直接分析的第82个指标：血压升高（EBP）

NHANES又出新套路！中国学者联合机器学习＋孟德尔随机化，双重加持拿高分SCI

NHANES Online平台可直接分析的第81个指标：心血管-肾脏-代谢（CKM）综合征

完全相同，撞选题了？间隔6天，同一选题、同一研究对象发了两篇IF 6分+SCI

NHANES Online平台可直接分析的第80个指标：生命8要素（LE8）

NHANES Online平台可直接分析的第75~79个指标：糖尿病肾病、骨质疏松、睡眠障碍、高脂血症和中风

NHANES Online平台可直接分析的指标：内脏脂肪指数（VAI）

中国学者针对不同年龄定义，用GBD数据发文多篇二区 | GBD数据库周报（12.21-12.27）

NHANES Online平台可直接分析的指标：肝纤维化评分（FIB-4）

NHANES Online平台可直接分析的指标：血浆动脉粥样硬化指数（AIP）

国人友好期刊＋1，中国学者用MR一周发了10篇JAD期刊 | 孟德尔随机化周报（12.29-1.4）

IF=96.2！用WHS免费数据，探究新“三高”指标预测心血管病能力发文医学顶刊NEJM

NHANES Online平台可直接分析的指标：TyG、TyG-BMI、WHtR、TyG-WHtR

NHANES数据可以不加权吗？中国学者用LASSO回归筛选变量构建预测模型

本周六！零基础适用＋频发高分的网状Meta课程直播，欢迎报名

中国蝉联第一！GBD数据库2024年大盘点，发文量稳步上升中

NHANES Online平台常见问题答疑——森林图显示不完全？值标签怎么修改？

定量数据如何科学分类？1分钟教你快速、精准找到最佳拐点！

全程免费，30天就能打好统计学基础，在寒假超越他人。明天开课，欢迎报名

一周发文108篇，63篇二区以上！| NHANES数据库周报（12.28~1.3）

一区Top8.5分杂志发表中国学者机器学习论文，用“森林之神”方法筛选变量

NHANES Online平台可直接分析的第74个指标：健康状态指标汇总

NHANES Online平台可直接分析的第72个指标：胰岛素抵抗指数（HOMA-IR)

NHANES Online平台可直接分析的第71个指标：应激性血糖升高比值（SHR）

清华学者研究证明：PM2.5导致的2型糖尿病死亡率增加264.23%，发文Lancet子刊

NHANES Online平台可直接分析的第70个指标：中性粒细胞百分比与白蛋白比值（NPAR）

生存数据如何做中介分析？中国学者用NHANES数据库发文一区top（IF=8.5）

还在为毕业发愁？英国免费数据库ELSA发文JAMA子刊，你也可以试试

NHANES Online平台可直接分析的第68个指标：常见人口学变量大汇总

NHANES数据库2024年度发文大盘点，增长率高达88.65%！

NHANES Online平台可直接分析的第60个指标：预后营养指数（PNI）

中国学者用老牌数据库发文JAMA子刊，“年龄”取代“随访时间”成为Cox回归分析的时间变量

NHANES Online平台的整合指标下载后，文档中显示是空白的怎么办？

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

JAMA子刊！美国最大儿科数据库探究被虐待儿童的种族差异，拿下IF 10.5

NHANES Online平台可直接分析的第59个指标：肠道微生物群膳食指数（DI-GM）

上交大学者用GBD探索贫困相关传染病负担，三篇连发同一期刊！相似度高达90%

学思路，NHAENS如何做联合效应分析？中国学者用其拿下二区

NHANES Online平台可直接分析的第57个指标：全身免疫炎症指数（SII）

谁说旧选题就该被淘汰？看看这个小众不卷的NHANES选题赛道，拿下IF 25.4

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

中国学者发文一区top（IF 8.5），logistic回归模型的协变量竟使用三种机器学习法筛选

SVM-RFE

模型1（基础模型）：未调整任何协变量；

模型2（最小调整模型）：调整了年龄、性别和种族；

模型3（完全调整模型）：调整了通过上述三个机器学习算法（SVM-RFE、XGBoost和Boruta算法）筛选出的重要变量。

ROC曲线

C统计量

净重新分类指数（NRI）

综合判别改善指数（IDI）

校准曲线

决策曲线分析（DCA）曲线