60万人构建的预测模型会是怎么样的？中国学者发文Lancet子刊，方法值得借鉴

健康 2025-01-16 11:51 中国台湾

引言

60万人构建的机器学习预测模型你见过吗？

老郑也是第一次看到。武汉大学研究团队使用超40万名患者数据对模型进行训练、内部验证和测试，另外使用MIMIC数据库20万人数据进行外部验证，使用三种机器学习算法开发最佳快速脓毒症筛查工具（qSepsis）。

下面让我们一起来看一下这篇文章！

2025年1月，武汉大学的学者在医学顶级期刊Lancet子刊《eClinicalMedicine》（医学一区top，IF=9.6）发表了一篇题为：“Development and validation of a screening tool for sepsis without laboratory results in the emergency department: a machine learning study”的研究论文。

在该项研究中，研究团队旨在基于三种机器学习算法，开发一种快速脓毒症筛查工具（qSepsis），无需等待实验室结果，实现快速分诊。并将其性能与已建立的临床评分：全身炎症反应综合征（SIRS）、脓毒症相关的快速序贯器官衰竭评分（qSOFA）和改良早期预警评分（MEWS）进行比较。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣，千万不要错过我们的基于R语言的机器学习构建临床预测模型课程！详情可咨询助教，微信号：aq566665

每年因脓毒症死亡的人数约占全球死亡人数的19.7%，而早期识别和及时干预可以改善患者的预后并大大降低死亡率。

数据收集与处理

该研究是一项回顾性研究，研究团队使用电子健康记录（EHR）系统获取患者病史和临床数据，仅分析每位患者首次入院的数据。

√数据收集

纳入2015年1月1日至2022年5月31日期间，武汉大学中南医院急诊科收治的414,864例年龄≥18岁符合条件的患者。
外部验证队列使用MIMIC-IV-ED version 2.2数据库，使用同样的纳排标准纳入200,089名患者。

研究团队使用所提取的数据计算了SIRS、qSOFA和MEWS评分，数据处理程序与主要数据集的处理一致，均使用多种方法对缺失数据进行填补。

图1 研究流程

√数据处理

使用合理性过滤器处理数值变量，确保数据的生理学有效性，异常值由空值代替。

√临床变量的选择

首先，进行初步筛选
根据感染病的特征，总结了可能相关的49种症状和体征，并由数据人员对涉及上述症状体征的病例数据进行标记，计算这些指标在数据中的比例。
其次，邀请专家评估
邀请5位临床经验丰富的专家评估被标记的49种症状和特征变量，移除了阳性率低于2%的9个指标，同时加入年龄、生命体征及格拉斯哥昏迷评分（GCS）等11个数值变量，最终得到51个候选变量。
接着，排除部分变量
排除了缺失值比例大于30%以及高度关联（>80%）的变量，剩下40个候选变量。
最后，进行递归特征消除
通过将特征重要性排序，每次迭代中去除最不重要的特征并重新拟合模型，最终选择了具有最佳AUROC的12个特征子集。
确定了特征子集后，临床专家再次审查这12个特征，确保没有排除具有重大临床意义的特征。

√缺失值处理

在临床变量选择时，排除了缺失值比例大于30%以及相关性高于80%的变量；

采用了多种非随机缺失策略来处理缺失值：

对于格拉斯哥昏迷评分（GCS），由于临床专家认为无意识改变的患者很容易被遗漏，所以用0来填充缺失值；
对于其他数值变量的缺失值，考虑到这些变量的非随机分布特性，用队列的中位数来填充。使用了多重插值密度图来展示每个数值变量在插值前后的数据情况。

分类变量缺失值的处理：

因为阴性症状在记录中被高度遗漏，将二分类的症状和体征变量编码为1（表示阳性症状或体征）和0（表示其他，包括缺失值）。
“到院方式”变量中，“救护车”标记为1，其余情况标记为0。

在分割数据后，独立地对训练集和测试集进行了插补处理。

√数据归一化

分别对训练集和测试集中的所有变量使用MinMax标量进行归一化处理。

开发并验证预测模型

√模型的选择

将40个特征纳入三个机器学习算法：包括逻辑回归[LR]、随机森林[RF]和极端梯度提升[XGB]，构建qSepsis模型。

在选定的训练数据集中进行了5折交叉验证，以避免过拟合。

数据集中的20%被用作测试集，不参与模型训练，其余80%被合并形成每一折的训练集和验证集，以进行进一步的微调。

由于脓毒症患者与非脓毒症患者数量之间存在极端的不平衡，我们采用了分层下采样方法，确保类别分布均匀。

使用AUROC对每个折叠的模型性能进行评估，并用最大的Youden's J指数来确定模型的最佳阈值。

通过评估AUROC等多种指标，选定表现最佳的机器学习算法，即LR。

√预测因子的筛选

特征的重要性通过模型的权重或增益（即决策树中将给定特征作为分支点所带来的准确率的提升）得出。

使用递归特征消除法，通过对特征重要性排序、丢弃最不重要的特征并重新拟合模型，将特征从40个减少到20个，然后再减少到12个。通过这种方法，我们能够以较少的指标构建qSepsis模型。

图3 qSepsis模型中12个特征的权重

√模型的构建和评估

最终，根据模型性能最佳的结果及急诊和重症医学专家的建议，将12个特征纳入LR模型，构建qSepsis模型。

研究结果显示，相较于RF和XGB，LR模型的性能最佳（AUROC为0.862）。

图2 逻辑回归、随机森林和极端梯度提升的模型性能

使用多个指标评估模型的预测能力，除了AUROC外，LR在灵敏度（0.763）和阴性预测值（NPV, 0.994）方面的表现也优于其他两个机器学习模型。

此外，研究结果显示，基于三种机器学习的模型在性能上优于现有的临床脓毒症筛查评分，包括qSOFA、SIRS和MEWS（AUC=0.862，AUPRC=0.213）。

图4 与已建立的临床评分相比，LR在qSepsis模型中的ROC曲线

图5 qSepsis模型和其他临床评分的PRC曲线

外部验证队列中，与其他模型相比，LR模型始终保持最佳性能，AUROC较高，为0.766 （95% CI 0.758-0.774）。

综上所述，与现有脓毒症临床评分相比，qSepsis的预测性能最佳，在实猃室检测手段有限的院前急救环境中以及急诊科，它可用于快速筛选脓毒症患者。

【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号

大型医学统计服务公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

最新！复旦学者发文BMJ（IF=93.6）

终于有人公开骂了，这篇Lancet中医药论文不对！但马上被撤稿了

不同凡响，2025年JAMA、BMJ顶刊发表的4篇中国学者论文都是阴性结果，他们怎么做到的？

NHANES数据可以不加权吗？LASSO回归筛选变量构建预测模型

导师：做预测模型快来看看这12条建议，你的论文不会差！

2025年我们提供统计服务！医院临床/护理数据分析，可预开发票

中山大学阴性结果发文BMJ (IF=93.6)，但交互作用分析可能是个亮点

阈值效应分析工具来了 !

就在本周六！网状Meta分析直播课，零基础易上手，欢迎参加

60万人构建的预测模型会是怎么样的？中国学者发文Lancet子刊，方法值得借鉴

可预开发票，郑老师团队25年统计新课预告

中国蝉联第一！GBD数据库2024年大盘点，发文量稳步上升中

一周发文108篇，63篇二区以上！| NHANES数据库周报（12.28~1.3）

厉害！中国学者21例患者小样本研究发文Lancet子刊，研究设计也比较新颖

郑老师寒假班SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

郑老师统计课程学习指南：看课方式、课程材料、怎么答疑、发票。。。

牛！陆军医大同日发表2篇JAMA论文，还全是阴性结果，杨清武、资文杰团队！

中国学者机器学习预测模型发文Lancet子刊，第一次看到10倍EPV计算样本量用公式展示

可预开发票，郑老师团队25年统计新课预告

四川大学稳居全球NO.1！Meta分析2024年论文大盘点，发文量近3.7万

就在本周六！2025年网状Meta课程直播，欢迎参加

浙一学者用超13万人的体检数据发表Lancet子刊，研究COVID-19感染前后健康状况的改变

一区Top！护理顶刊发表中国学者网状Meta论文

Lancet子刊：探讨影响因素，加入SHAP法解析关键影响因子。这个思路不错

NHANES Online平台加权/非加权中介分析结果解读，一文搞定！

Nature、BMJ等五大顶刊同时提醒，警惕“写”即出版的掠夺性期刊【附名单】

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

中国学者占多数！NHANES免费医学数据库2024年度发文大盘点，增长88%

机器学习方法：15分钟带你吃透决策树模型

昔日顶流重出江湖，网状Meta爆红！多篇BMJ、JAMA、lancet顶刊文章发表

【志愿者招募】浙江中医药大学公共卫生学院招募脂肪肝康复志愿者

一年发表10篇论文？浙大女生因“学术造假”被麻省理工退学，甩锅母校引起众怒

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

昔日顶流重出江湖，网状Meta爆红！多篇BMJ、JAMA、lancet顶刊文章发表

【机器学习系列】基于决策树的集成模型——随机森林方法介绍

临床预测模型，数据集按7:1:2拆分为训练集，验证集和测试集，这是为什么？

可预开发票，郑老师团队25年统计新课预告

困扰很多人的一个问题，数据缺失多少比例以内，方可填补？

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

仅一张图，中国学者Lancet子刊发表Meta文章。看来还得是网状Meta！

了解下？临床研究中，除了OR、RR、HR值、现在还有个概念：WR (win ratio）

1分钟零代码完成NHANES数据亚组森林图绘制，媲美顶刊水准

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉