中国学者机器学习预测模型发文Lancet子刊，第一次看到10倍EPV计算样本量用公式展示

健康 2025-01-14 07:49 浙江

【欢迎阅读浙中大郑老师撰写的统计科普文】

预测模型文章中，我们一般用10倍EPV原则计算样本量，这也是目前公认的方法，但很少有学者会在文章中详细地解释。

老郑也是第一次在预测模型文章的正文中看到计算样本量的过程，并且是以公式来展示。接下来，一起来看看这篇中国学者发表在Lancet子刊的预测模型文章。

原文阅读

2025年1月，中国学者在顶级期刊Lancet子刊《eClinicalMedicine》（医学一区top，IF=9.6）发表了一篇题为：“Development and validation of a model to predict cognitive impairment in traumatic brain injury patients: a prospective observational study”的研究论文，研究者构建了一个用于早期预测认知障碍的可视化在线风险计算器，并使用前瞻性队列进行验证，证实了模型的准确性和一致性。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你也想尝试机器学习，来看看我们的基于R语言构建机器学习临床预测模型课程吧！详情可咨询助教，微信号：aq566665

本研究的数据来自苏州大学附属第三医院神经外科，纳入年龄≥ 18岁、首次发生颅脑创伤且出院时完全清醒的患者，共涉及两个队列：

训练集：包括234例患者（其中72.65%被确定为认知障碍），均于2017年5月至2020年4月在苏州大学附属第三医院神经外科住院；
验证集：包括84例患者（其中59.52%被确定为认知障碍），是根据同样的纳排标准，前瞻性收集的2024年3月1日至2024年8月30日在苏州大学附属第三医院神经外科住院的TBI患者。

在该项研究中，研究团队基于EPV（Events Per Variable ）原则提供了一个非常清晰的样本量计算公式。

具体来说，在训练集中，TBI后一个月认知障碍的发生率为0.72（Incidence Rate=0.72）；
研究者计划纳入6个预测变量（Number of Variables=6）
并将EPV设置为10（EPV=10）。

最终通过以下公式计算出所需的训练集样本量:

EPV原则是被广泛接受的样本量计算方法，诸位的文章也可以参考这种写法。

√数据处理

研究者使用R中的“mice”包中的md. pattern（）函数评估了缺失数据的模式，以确定缺失数据的机制。使用R语言的mice包进行多重插补。

√预实验

在预实验中，研究团队使用四种机器学习算法构建预测模型，包括训练支持向量机（SVMLinear）、随机森林（RF）、K近邻（KNN）和广义线性模型（GLM）。

分别在训练集和验证集中对模型的性能进行评估，评估指标包括AUC值、灵敏度、特异度、校准曲线和临床决策分析（DCA）曲线。

研究结果显示，在训练集中，SVMLinear、RF、KNN 和 GLM 模型的 AUC 分别为 0.91、0.99、0.92 和 0.91；而在验证集中，这些模型的 AUC 分别下降到 0.81、0.81、0.77 和 0.81。

基于上述研究结果，研究者认为在该项研究中，传统的logistic回归建模方法优于这四种机器学习算法。

√特征的选择

首先，使用最小绝对收缩和选择算子（LASSO）方法筛选出8个具有非零系数的自变量。

然后，使用多变量logistic回归分析得到6个最佳预测因子（P < 0.05）。

包括：年龄、受教育年限、肺部感染状态、癫痫状态、CSF渗漏状态和赫尔辛基评分。

√共线性分析

在模型开发阶段，研究者评估了变量之间潜在的共线性问题。结果表明，所有公差值均超过0.1，方差膨胀因子（VIF）均低于10，表明无显著共线性。

√交互作用分析

此外，研究团队分析了交互作用效应，发现自变量之间没有实质性的交互作用，交互作用的p值保持在0.1以上。

√模型的构建

基于6个预测因子，绘制列线图，构建脑外伤后认知障碍预测模型。

列线图的总得分是分配给每个风险因素的得分之和，得分越高表明发生认知障碍的风险越大。

√模型的评估

使用AUC值、灵敏度、特异度、DCA和校准曲线评估预测模型的性能。

研究结果显示，该预测模型的性能较好，训练集的AUC为0.90，截断值为0.71；验证集的AUC为0.87，截断值为0.63。

此外，对于验证集，研究团队预先定义了AUC的可接受性能差异（Δ）小于0.05。

根据上述结果，研究团队观察到训练集和验证集之间的AUC差异（Δ = 0.03）小于0.05，这意味着样本量足以评估模型的泛化能力及其在前瞻性验证中的适用性。

校准曲线与理想的对角线紧密对齐，反映了预测概率和实际结果之间的高度一致性。验证队列中的校准曲线也显示出很好的一致性。

此外，训练队列的决策曲线分析（DCA）显示，在广泛的阈值概率范围内，该模型的净收益始终大于两种极端策略（包括所有变量或不包括变量），表明其潜在的临床效用。验证队列也呈现相同的结果。

√可视化在线风险计算器

研究团队基于预测因子的回归系数创建了一个预测图，详情可在以下网站查询，所有人均可免费使用。该图提供了每个预测因子影响的可视化表示，帮助临床医生在临床实践中进行个体化风险评估。

https://yuanxiaofang.shinyapps.io/Predict_cognitive_impairment_in_TBI/

综上所述，在这项研究中，研究团队基于6个预测因子构建了一个TBI后认知功能障碍的预测模型，并在此基础上建立了一个可视化和个性化的TBI后认知障碍的在线风险计算器。

【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号

大型医学统计服务公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

最新！复旦学者发文BMJ（IF=93.6）

终于有人公开骂了，这篇Lancet中医药论文不对！但马上被撤稿了

不同凡响，2025年JAMA、BMJ顶刊发表的4篇中国学者论文都是阴性结果，他们怎么做到的？

NHANES数据可以不加权吗？LASSO回归筛选变量构建预测模型

导师：做预测模型快来看看这12条建议，你的论文不会差！

2025年我们提供统计服务！医院临床/护理数据分析，可预开发票

中山大学阴性结果发文BMJ (IF=93.6)，但交互作用分析可能是个亮点

阈值效应分析工具来了 !

就在本周六！网状Meta分析直播课，零基础易上手，欢迎参加

60万人构建的预测模型会是怎么样的？中国学者发文Lancet子刊，方法值得借鉴

可预开发票，郑老师团队25年统计新课预告

中国蝉联第一！GBD数据库2024年大盘点，发文量稳步上升中

一周发文108篇，63篇二区以上！| NHANES数据库周报（12.28~1.3）

厉害！中国学者21例患者小样本研究发文Lancet子刊，研究设计也比较新颖

郑老师寒假班SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

郑老师统计课程学习指南：看课方式、课程材料、怎么答疑、发票。。。

牛！陆军医大同日发表2篇JAMA论文，还全是阴性结果，杨清武、资文杰团队！

中国学者机器学习预测模型发文Lancet子刊，第一次看到10倍EPV计算样本量用公式展示

可预开发票，郑老师团队25年统计新课预告

四川大学稳居全球NO.1！Meta分析2024年论文大盘点，发文量近3.7万

就在本周六！2025年网状Meta课程直播，欢迎参加

浙一学者用超13万人的体检数据发表Lancet子刊，研究COVID-19感染前后健康状况的改变

一区Top！护理顶刊发表中国学者网状Meta论文

Lancet子刊：探讨影响因素，加入SHAP法解析关键影响因子。这个思路不错

NHANES Online平台加权/非加权中介分析结果解读，一文搞定！

Nature、BMJ等五大顶刊同时提醒，警惕“写”即出版的掠夺性期刊【附名单】

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

中国学者占多数！NHANES免费医学数据库2024年度发文大盘点，增长88%

机器学习方法：15分钟带你吃透决策树模型

昔日顶流重出江湖，网状Meta爆红！多篇BMJ、JAMA、lancet顶刊文章发表

【志愿者招募】浙江中医药大学公共卫生学院招募脂肪肝康复志愿者

一年发表10篇论文？浙大女生因“学术造假”被麻省理工退学，甩锅母校引起众怒

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

昔日顶流重出江湖，网状Meta爆红！多篇BMJ、JAMA、lancet顶刊文章发表

【机器学习系列】基于决策树的集成模型——随机森林方法介绍

临床预测模型，数据集按7:1:2拆分为训练集，验证集和测试集，这是为什么？

可预开发票，郑老师团队25年统计新课预告

困扰很多人的一个问题，数据缺失多少比例以内，方可填补？

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

仅一张图，中国学者Lancet子刊发表Meta文章。看来还得是网状Meta！

了解下？临床研究中，除了OR、RR、HR值、现在还有个概念：WR (win ratio）

1分钟零代码完成NHANES数据亚组森林图绘制，媲美顶刊水准

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉