一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

健康 2024-12-24 07:50 浙江

【欢迎你阅读浙中大郑老师团队撰写的统计科普文章】

今天分享的两篇文章，同一天发表在同一个一区杂志，统计学方法具有很高的相似性。两篇文章均使用了Cox回归和RCS分析暴露因素与结果之间的关系，并用森林之神Boruta算法筛选关键特征变量，构建并评估机器学习预测模型。

文章一

2024年12月18日，福建医科大学学者在期刊《Cardiovascular Diabetology》（医学一区top，IF=8.5）发表了一篇题为：“Association and predictive ability between significant perioperative cardiovascular adverse events and stress glucose rise in patients undergoing non-cardiac surgery”的研究论文，旨在探究应激性高血糖比率（SHR）与非心脏手术患者围手术期主要不良心血管事件（MACE）方面的关联和预测能力。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你想了解临床预测模型相关课程，请联系郑老师团队，助教微信：aq566665

在该项研究中，研究团队使用了来自INSPIRE数据库（版本1.1）的患者围手术期数据，经过纳排，最终纳入INSPIRE数据库2011年至2020年期间，5,609例接受非心脏手术年龄≥18岁的患者的数据，并根据SHR的三分位数被分为三组。

非心脏手术包括胃肠道、骨科、神经外科、产科、妇科、耳鼻喉科、胸外科和泌尿外科手术。

SHR的计算公式为：SHR = ABG /（28.7 × HbA 1c − 46.7），其中入院血糖（ABG）以mg/dL表示，糖化血红蛋白（HbA 1c）以百分比表示。

主要终点：术后30天内MACE的发生率，包括心源性死亡、围手术期心肌梗死、急性心力衰竭和围手术期卒中。

次要终点：不同的不良心血管事件（MACE）。

一、生存分析

√K-M曲线及log-rank检验

使用Kaplan-Meier生存曲线评估不同SHR三分位数的MACE发生率，并使用log-rank检验评估组间差异。

研究结果显示，随着SHR值的升高，围手术期MACE和心源性死亡的发生率逐渐增加。

√Cox比例风险回归分析

构建单变量和多变量Cox比例风险回归模型，进一步探究SHR作为连续及分类变量与MACE风险之间的相关性。

结果显示，SHR与围手术期MACE的风险之间存在显著关联，随着SHR的增加，围手术期MACE风险也相应增加；
在调整了多个协变量后，这种关联仍然显著。

模型1：未调整；

模型2：调整年龄、性别和BMI；

模型3：调整年龄、性别、BMI、ASA分级、急诊状态、手术类型、麻醉类型、糖尿病状态、高血压状态、高脂血症状态、颈动脉狭窄状态、瓣膜性心脏病状态、房颤状态、COPD、肾功能不全状态、肝功能不全状态、既往心肌梗死、IOH状态、β受体阻滞剂状态、胰岛素状态和降糖药物状态。

√非线性关系探索

同时，限制性立方样条（RCS）分析潜在非线性关联。结果显示，SHR与围手术期MACE和心脏死亡之间存在的J形非线性关联

MACE的拐点出现在SHR=0.81，而心脏死亡的拐点则为SHR=0.97。

二、评估SHR的预测价值

目前，RCRI在临床上经常用于评估非心脏手术患者的心脏并发症风险。

研究团队将SHR分别作为连续变量或由拐点确定的分类变量纳入RCRI模型，通过ROC曲线、AUC、C-统计量、NRI、IDI及似然比检验等方法评估SHR纳入是否能提升预测性能。

结果显示，SHR显著改善了RCRI模型对术后30天MACE的预测性能，将AUC从0.778增加至0.825。

机器学习构建预测模型

√数据处理

首先，数据缺失超过20%的变量直接剔除；对于数据缺失少于20%的变量，使用多重插补链式方程（MICE）进行插补，确保估计的无偏性。

√共线性

计算了方差膨胀因子（VIF）评估变量之间的多重共线性。

√特征筛选

基于“森林之神”Boruta算法进行特征筛选，重要变量（如绿色区域所示）被纳入机器学习模型的开发中。

√模型构建

在填补完缺失数据后，数据被随机分为训练集（70%）和验证集（30%），使用10机器学习算法构建预测模型，并用网格搜索和随机搜索方法进行超参数调整，优化模型性能。

10机器学习算法包括：分类提升（CatBoost）、决策树、梯度提升机（GBM）、k-最近邻（KNN）、轻梯度提升机（LightGBM）、神经网络（NN）、随机森林（RF）、支持向量机（SVM）和极端梯度提升（XGBoost）。

√模型性能评估

研究团队使用AUC值、DCA和校准曲线评估预测模型的性能，结果显示，纳入SHR后，模型的预测性能显著提升，AUC值有所增加。

其中决策树（AUC = 0.893）和随机森林（AUC = 0.889）模型预测性能最佳。

决策树的准确性比logistic回归（AUC = 0.547）提高了63.3%，比SVM（AUC = 0.628）提高了42.2%；
而随机森林的准确性分别提高了62.5%和41.5%。

√SHR的增量预测价值

模型的拟合显著改善。

SHR作为连续变量纳入RCRI模型后：

模型判别的关键指标c统计量从0.777提高到0.813(ΔC-statistic = 0.008, p<0.001），表明预测性能的提高具有统计学意义和临床意义；
模型拟合也有显著改善，连续NRI为0.067 (p<0.001)，IDI为0.305（P < 0.001），强调了这些增强的实际价值。

当SHR作为分类变量（> 0.81）加入时：

c统计量增加到0.785，ΔC-statistic为0.035 (P = 0.009)；
NRI为0.007 (P = 0.016)，IDI为0.076（P = 0.092）。

文章二

同一天，同一期刊《Cardiovascular Diabetology》（医学一区top，IF=8.5）发表了一篇题为：“Exploring the prognostic impact of triglyceride-glucose index in critically ill patients with first-ever stroke: insights from traditional methods and machine learning-based mortality prediction”的研究论文，旨在探索TyG与ICU全因死亡率和其他预后之间的关系，并开发机器学习（ML）模型来预测首次卒中患者的ICU全因死亡率。

在该项研究中，研究团队团队主要从eICU协作研究数据库纳入3173名符合条件的年龄≥17岁、ICU住院时间≥6h、首次卒中的患者。

主要结局：ICU全因死亡率；

次要结果：医院全因死亡率、ICU和住院时间、格拉斯哥昏迷评分（GCS）和GCS的单个要素（睁眼、言语反应、运动反应）。

一、生存分析

√非线性关联分析

使用限制性立方样条分析（RCS）评估变量TyG与ICU全因死亡率之间的整体和非线性关系，并将参考点设置为最佳截止点。

研究结果显示，TyG与ICU全因死亡率之间存在线性关系（P=0.020），但不存在非线性关系（P-non-linear=0.356）。

√K-M曲线及log-rank检验

根据最佳截止点对TyG进行分类，绘制Kaplan-Meier曲线以评估生存差异。

结果发现，高TyG组（TyG ≥ 9.265）与低TyG组（TyG < 9.265）之间的生存概率存在显著差异（log-rank P< 0.001）。

√多变量Cox比例风险回归分析

通过构建多元Cox模型，并调整潜在混杂因素，研究团队发现高TyG组与低TyG组相比，ICU（HR 1.92, 95% CI 1.38–2.66）和医院（HR 1.69, 95% CI 1.32–2.16）全因死亡率均显著升高。

模型Ⅰ：未经调整；

模型Ⅱ：调整人口统计学（年龄、性别、种族和BMI）和严重程度评分（APACHE IV）；

模型Ⅲ：进一步调整合并症（糖尿病、高血压、冠心病、慢性肾病、心力衰竭、心肌梗死、心房颤动、呼吸衰竭、急性肾损伤、肝硬化和败血症)、实验室检查（HDL-C和LDL-C）、治疗（抗血小板药物、抗凝剂、血管加压剂、溶栓和机械通气）。

这一结果揭示了TyG作为独立风险因子在预测卒中患者预后中的重要性。

√亚组分析

进一步在不同亚组[包括年龄（≥60岁和< 60岁）、性别、BMI(≥30和< 30 kg/m2)]中探讨TyG与ICU全因死亡率的关联，研究结果显示，在不同亚组，TyG与ICU全因死亡率之间无显著相互作用。

具体而言，随着TyG值增加，患者的住院时间延长，神经功能更差。

二、构建机器学习预测首次中风患者 ICU 全因死亡率

机器学习构建预测模型

√数据收集与处理

纳入缺失比例小于30%的协变量，并使用Python中的“miceforest”对缺失数据进行乘法插值。

在填补完缺失数据后，研究团队按照7:3的比例将主要队列划分为训练集和内部验证集。

此外，研究团队招募了2021年10月至2024年6月天津医科大学总医院神经内科ICU和综合ICU收治的、符合条件的201名首次脑卒中患者，用于预测模型的外部验证。

√预测因子的筛选

鉴于ICU死亡人数有限，通过Boruta法，最终选择了7个重要预测特征（MV、RFA、TyG、HDL-C、血管加压剂、性别和LDL-C），其中TyG被认为是第三个重要特征。

√共线性

Pearson相关性和方差膨胀因子检验表明它们之间没有强相关性或多重共线性

√模型的构建

使用七种机器学习算法构建预测模型（包括光梯度增强机、随机森林[RF]、逻辑回归、支持向量机、多层感知器、高斯朴素贝叶斯和k-最近邻），并用随机搜索和手动微调与5倍交叉验证，获得每个ML模型的最佳超参数。

考虑到队列中阳性和阴性事件的不平衡，我们在ML模型中应用了类别权重或合成少数过采样技术。

√模型性能评估

使用多个指标评估模型的性能，包括AUC值、DCA曲线、精确度、召回率、F1评分、G均值、灵敏度和特异性。

最终，在内部验证集中，随机森林（RF）预测性能最佳(AUC=0.900)，在外部验证集中RF仍有最佳的预测性能(AUC=0.776)。

√模型解释

使用SHAP法解释特征对预测模型性能的重要性，并绘制相关图以观察特定特征对ML模型结果的边际效应。结果显示前三位是：MV、TyG和RFA（TyG在内部验证队列和外部验证队列中分别为第二位和第三位）。

√网络应用

将RF嵌入到一个Web平台中，该平台具有易于使用的界面，其中包含与模型中的七个特征对应的输入（http://162.62.58.247:3030/）。

通过输入特定于特定患者的信息，将输出其结果发生的概率。

看下来诸位应该有感觉，两篇文章的思路如出一辙！所以，只要研究的套路是正确的，又有临床意义，就可以复制。

这两篇文章都用到了是“森林之神”-Boruta的方法，这个主题，老郑今年专门开设了一次公益直播，感兴趣的朋友可以去同名视频号看直播回放【第12期机器学习预测模型及“森林之神”方法的用途】。

【感谢你阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号

大型医学统计服务公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉