这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

健康 2024-11-19 07:48 浙江

郑老师团队直播课

年底大课！零基础入门的“机器学习”R语言预测模型，欢迎报名

就在11月13日，Web of Science 运营方科睿唯安（Clarivate）宣布，将不再赋予中科院一区期刊 eLife 影响因子。不过，该期刊的部分论文仍然会被 Web of Science 收录。

今天我们将分享一篇发表在该期刊的机器学习临床预测模型文章，我们先来看一下它的研究设计与分析过程！

1.数据收集与处理：

缺失数据超过10%的指标被排除在外；
使用随机森林（RF）算法处理剩余缺失数据；
使用合成少数过采样技术结合编辑最近邻 (SMOTEENN)处理不平衡数据。

2.特征选择与模型构建：

使用LASSO回归方法从众多特征中选择了最重要的20个特征；
基于九种常用的机器学习法构建预测模型，包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升、多层感知器、XGBoost、LightGBM和K-最近邻。

3.模型评估与优化：

通过准确率、灵敏度、特异度、F1分数、阳性预测值和阴性预测值等指标来评估模型的性能；
使用ROC曲线、校准曲线和决策曲线（DCA）等图形工具直观地展示模型的性能；
通过网格搜索来优化模型的超参数，以提高其预测性能。

4.模型解释与验证：

使用SHAP值来解释模型的特征贡献和临床相关性；
通过一个包含536名患者的外部验证队列来验证模型的泛化能力。

目前，卒中已成为世界范围内致死的第二大原因。卒中后癫痫（PSE）作为其常见并发症，发病率达3-30%，尤其在卒中后第一年内最高，近50%患者发病。

在先前的研究中，研究团队大多基于传统临床预测模型和特定的风险因素预测卒中后癫痫（PSE）发病率，预测效果并不理想。因此，研究者们认为需要用更为准确、可靠的预测模型进行深入研究。

11月14日，重庆大学的学者在期刊《eLife》（中科院一区top，IF=6.4）发表了一篇题为：“Predictive models for secondary epilepsy in patients with acute ischemic stroke within one year”的研究论文。

在该项研究中，研究团队使用缺血性卒中患者的数据，基于9种机器学习法构建了卒中后癫痫（PSE）的预测模型。并用SHAP来解释模型并评估不同特征的贡献。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣，千万不用错过本月底的基于R语言的机器学习构建临床预测模型课程！详情可咨询助教，微信号：aq566665

数据收集与处理

在该项研究中，研究团队使用2017年6月至2022年6月重庆市急救中心收治的所有脑卒中患者的临床诊断数据（包括患者的病历、影像学报告和实验室检查结果），以建立预测模型。

研究团队从患者入院后进行的第一次检查中收集实验室检查指标。

数据缺失超过10%的指标被排除，剩余缺失值指标则采用随机森林算法，采用默认参数进行估算。

使用随机森林（RF）法插补缺失值，每次处理一个特征：

特征按缺失数据增加的顺序进行处理，以降低输入复杂度；
在插值过程中，将其他特征中的缺失值临时替换为0，并将预测值插入到原始特征矩阵中，然后再移动到下一个特征；
这个过程一直持续到所有的插补都完成。

最终纳入了21,459名年龄18~90岁的急性脑卒中患者，用于构建和验证预测模型。

图1 研究流程

在填补缺失数据后，研究团队将患者以7：3的比例分为训练集（n=15,021）和验证集（n=6,438），两个数据集中，PSE的发生率均为4.3%。

由于PSE的发生率较低且阳性病例比例较小，因此使用合成少数过采样技术结合编辑最近邻（SMOTEENN）处理不平衡数据，扩充了训练集中的阳性数据。

具体操作为使用默认参数应用imblearn Python包中的SMOTEENN方法，并将随机种子设置为42以确保结果可以重复。

特征的选择

在特征选择部分，研究者首先采用了单变量回归来分析每个特征与目标变量（即PSE的发生）之间的单独关系。

结果显示，脑积水、脑疝、深静脉血栓形成（DVT）等并发症，以及额叶、顶叶和颞叶等特定大脑区域的受损情况，均与PSE的发生显著关联。

此外，年龄、性别、NIH卒中量表（NIHSS）评分，以及包括白细胞（WBC）计数和D-二聚体水平在内的实验室检查结果等因素，也与PSE风险增加相关。

随后，基于单变量回归的分析结果，研究团队采用LASSO回归方法对特征进行了进一步的筛选，从而确定了用于构建预测模型的20个关键特征。

模型的构建与评估

√预测模型构建

基于九种广泛使用的机器学习方法构建预测模型（包括朴素贝叶斯，逻辑回归，决策树，随机森林，梯度提升，多层感知器，XGBoost，LightGBM和K最近邻），并通过网格搜索优化超参数，以提高模型性能。

√模型性能评估

使用ROC曲线、校准曲线和决策曲线（DCA）等图形工具直观展示模型性能。

使用准确度、灵敏度、特异度、F1评分、阳性预测值和阴性预测值等评估指标进行模型性能评估，由于各个模型AUC 面积普遍较高，阳性预测值（PPV）是本研究中最重要的指标。

√RF模型预测性能最佳

研究团队发现，在所有机器学习算法中，RF，XGBoost和LightGBM的AUC指数最佳，显著优于其他模型。

其中，RF达到了最高的阳性预测值（PPV），为0.864。

图2 训练集和测试集的六个部分（左侧为A1，A2，A3;右侧为B1，B2，B3）的模型性能曲线

√模型的外部验证

为评估模型的泛化能力，研究团队从三家外部验证中心--黔江区中心医院、璧山区人民医院、渝北区中医院纳入了536例符合条件的急性脑卒中患者，用于模型的外部验证和评估。

而在外部验证队列中，RF达到0.91的灵敏度和0.95的PPV，这同样说明RF模型的预测能力最佳。

模型特征的解释

研究团队将SHAP算法应用于性能最佳的RF模型，以解释特征贡献及其临床相关性。

最终得出APTT时间延长对PSE的贡献最大，其次是AST水平升高，而NIHSS较低对最终结果产生负面影响。

图3 SHapley加性解释（SHAP）值和特征重要性的描述

本研究中使用的所有代码可在https://github.com/conanan/lasso-ml上获取（副本存档于conanan， 2024）。

综上所述，研究团队使用重庆市大型医疗记录数据集，开发了一种可解释的机器学习模型来预测缺血性卒中住院患者的PSE风险，该模型对PSE表现出较强的预测性能。

通过该预测模型，研究团队确定了PSE的关键预测指标，包括NIHSS、d -二聚体、乳酸、WBC以及肝功能和心肌酶谱指标。

值得一提的是，该模型的AUC高于0.95，较传统临床预测模型，预测更加准确。

老郑小评

eLife 杂志部分不再有影响因子，很重要的原因它现在的策略是来稿不拒，科睿唯安在最新决定中表示，在 eLife 提供的内容中，被认为“不完整”或“不足”文章之外的合规论文会继续被 ESCI 合集收录，但是这类被部分索引的期刊无法获得期刊影响因子或其他任何期刊层面的引文指标。

那这篇文章呢?

现在机器学习模型看起来都是高大上的方法，其实我觉得并不见得加了SHAP可解释法，它就是一个好的方法。

像这篇文章，它用的随机森林方法是好方法吗？也不见得，所有方法AUC面积都挺大，而所有数据分析方法的校准度检验P值均小于0.05，所以校准度不行，显然该预测模型并非理想的模型，机器学习虽然能够通过调参让模型看起来美好，但是校准度不好，模型也并非好模型，而显然随机森林具有最差的校准度曲线。

不过有一点，很值得称赞，那就是作者构建的预测模型是预后模型，预后模型应该具有时间维度，这一点作者在标题中就明确了：One Year；这使得模型就有一定的应用价值。

公众号后台回复关键词“pdf”，即可获取原文！更多关于临床预测模型与机器学习统计服务，请联系郑老师团队，助教微信：sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号sas555777）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉