机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

健康 2024-12-05 07:49 浙江

引言

机器学习构建预测模型的文章我们也看了不少了，今天我们分享一篇用集成机器学习法--Supper Learner，结合多个免费公共数据库构建机器学习疾病预测模型。

先来看看本文的研究设计吧：

1.数据收集与处理：23个缺失相关协变量数据的参与者被排除。

2.特征选择：使用了23个人口统计学和临床变量作为预测因子。

3.模型的构建与评估

NASH-CRN（非酒精性脂肪性肝炎临床研究网络）观察性研究的数据（n=648）作为训练集；
FLINT试验（n=270）和NHANES数据库中患有NAFLD（非酒精性脂肪性肝病）的参与者数据（n=1244）为验证集；
使用Supper Learner法结合多个基础模型构建预测模型；
通过ROC曲线、AUC评估指标比较Supper Learner模型与其他现有的无创纤维化评分系统（如APRI、BARD、FIB-4等）在独立验证数据集上的性能。

4.敏感性分析

众所周知，回归模型是构建临床预测模型的主力。事实上，过去十年里开发的用于预测肝纤维化的非侵入性的工具，大多都依赖于逻辑回归模型。

尽管机器学习方法功能强大，但研究者们无法准确把握哪种机器学习法性能最佳。这时，Super Learner便成为了一个有效的解决方案，它能够通过将多个模型合并为一个综合模型，从而提升预测的准确性。

2024年11月，期刊《Hepatology》（医学一区top，IF=12.9）发表了一篇题为：“Benchmarking clinical risk prediction algorithms with ensemble machine learning for the noninvasive diagnosis of liver fibrosis in NAFLD”的研究论文，旨在探讨Supper Learner在识别非酒精性脂肪肝病（NAFLD）患者中的显著肝纤维化（达2期及以上肝纤维化）的预测性能。

研究结果显示，Super learner作为“最佳机器学习预测器”，在检测纤维化的非酒精性脂肪肝病（NASH）方面表现优异。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣，千万不要错过本周六的基于R语言的机器学习构建临床预测模型课程！详情可咨询助教，微信号：aq566665

数据收集与处理

在该项研究中，为了构建和验证superlearner模型，研究团队采用了来自不同队列的有NAFLD患者数据的数据集。

NASH-CRN（非酒精性脂肪性肝炎临床研究网络）观察性研究队列（n=648）为训练superlearner模型；
FLINT试验（n=270）和NHANES数据库（n=1244）来验证superlearner模型。

此外，排除了23个缺失相关协变量数据的参与者。

图1 训练集和研究者的样本量筛选

特征筛选

选取三个数据集共有的23个人口统计学和临床变量训练superlearner，提高模型的预测能力。

表1 各数据集的特征

模型的构建与评估

√确定基础模型

首先使用训练集数据训练12个基础模型，每个模型都会尝试从数据中学习特征与目标变量的关系。

基础模型包括：贝叶斯广义线性模型（bayesglm）、多元自适应样条回归模型（earth）、广义加性模型（gam）、广义提升模型（gbm）、广义线性模型（glm）、正则化广义线性模型（glmnet）、套袋树（ipredbagg）、神经网络（nnet）、多元自适应多元样条回归（polymars ）、随机森林（randomForest）、递归分割树（rpart）、支持向量机（svm）。

所有12个基本模型都使用默认调优参数。

使用交叉验证（CV）技术拟合含所有可用的预测变量和上述的12个基础模型，生成Super Learner模型，用于后续验证集中模型性能的评估。

√ 模型评估

使用ROC曲线和AUC值在验证集中评估Super Learner的性能，并将Super Learner模型的性能与现有评分系统（Fibrosis-4 [FIB-4]、NAFLD纤维化评分、Forns评分、AST与血小板比率指数[APRI]、BARD评分和脂肪变性相关纤维化估计器[SAFE]）进行比较。

使用bootstrap法进行1000次重复抽样，计算AUC的95%Cls；
对于NHANES-NAFLD数据集，使用采样权重进行加权分析，以获得更准确的AUC和ROC曲线。

研究结果表明，在FLINT和NHANES验证集上，Super Learner预测性能较强，能够准确区分具有显著纤维化的患者和没有纤维化的患者。

FLINT验证集的AUC为0.79（95% CI：0.73-0.84），NHANES验证集的AUC为0.74（95% CI：0.68-0.79）。
同时，SAFE评分与Super Learner的性能相似，两者均优于FIB-4、APRI、Forns和BARD评分。

图2 验证集中，Super Learner（基于12个基本模型）、APRI、BARD、FIB-4、Forns、NFS和SAFE的ROC曲线

图3 验证集中，Super Learner（基于12个基本模型）、APRI、BARD、FIB-4、Forns、NFS和SAFE的AUC

敏感性分析

在敏感性分析中，研究团队比较了拟合的6个Super Learner的性能。

使用交叉验证（CV）技术拟合Super Learner模型，本研究共构建了六个Super Learner 它们的构建过程略有不同，但总体上都遵循以下步骤：

Super Learner 1：使用所有可用的预测变量和上述的12个基础模型进行拟合；
Super Learner 2：在Super Learner 1的基础上重新拟合到所有连续预测器都经过对数变换的训练数据中；
Super Learner 3：在Super Learner 2的基础上再次拟合到未变换和对数变换的数据中。
Super Learner 4~6：这三个Super Learner是基于90个基础模型构建的。它们分别拟合于未转换的、对数转换的、以及未转换+对数转换组合的数据上。

在拟合过程中，通过交叉验证来确定每个基础模型的预测性能，并根据这些性能为它们分配权重。

这些权重将用于组合基础模型的预测结果，以形成超级学习器的最终预测。

结果显示，所有模型的预测性能相似，这意味着Super Learner从12个基础模型中得出的结果与从90个基础模型中得出的结果一致。

综上所述，在检测纤维化的非酒精性脂肪肝病（NASH）方面，经过训练的Super Learner模型的预测性能显著优于现有模型。

研究团队认为，Super Learner模型可以在给定训练数据集的基础上得到“最佳预测”，即使在它没有优于现有简单模型的情况下，也可以将其用作评估现有临床风险预测模型性能的基准。

公众号后台回复关键词“pdf”，即可获取原文！更多关于临床预测模型与机器学习统计服务，请联系郑老师团队，助教微信：sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号sas555777）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

NASH-CRN（非酒精性脂肪性肝炎临床研究网络）观察性研究的数据（n=648）作为训练集；

FLINT试验（n=270）和NHANES数据库中患有NAFLD（非酒精性脂肪性肝病）的参与者数据（n=1244）为验证集；

使用Supper Learner法结合多个基础模型构建预测模型；

通过ROC曲线、AUC评估指标比较Supper Learner模型与其他现有的无创纤维化评分系统（如APRI、BARD、FIB-4等）在独立验证数据集上的性能。

√确定基础模型

所有12个基本模型都使用默认调优参数。

Super Learner 1：使用所有可用的预测变量和上述的12个基础模型进行拟合；

Super Learner 2：在Super Learner 1的基础上重新拟合到所有连续预测器都经过对数变换的训练数据中；

Super Learner 3：在Super Learner 2的基础上再次拟合到未变换和对数变换的数据中。

Super Learner 4~6：这三个Super Learner是基于90个基础模型构建的。它们分别拟合于未转换的、对数转换的、以及未转换+对数转换组合的数据上。