“森林之神”大放光彩！中国学者用公共数据库+机器学习强强联合，拿下两篇高分SCI

文摘科学 2024-07-30 17:35 浙江

直播预告

2024年“孟德尔随机化快速撰写SCI论文”高级班

‍

机器学习+公共数据库简直是天作之合！使用机器学习法自动化预测出疾病的关键影响因素和患病风险，不仅精确，创新性直接拉满！今天分享的两篇文章都是使用了近期较为火热的“森林之神”—Boruta算法，中国学者分别使用NHANES和MIMIC—IV配合分析，拿下两篇SCI高分文章！

接下来让我们一起来简单看看这两篇文章！

NHANES数据库

2024年7月10日，中国学者用NHANES 2001~2018年 数据库，在期刊《Cardiovascular Diabetology》（医学一区top，IF=8.5）发表题为：“Metabolic score for insulin resistance (METS-IR) predicts all-cause and cardiovascular mortality in the general population: evidence from NHANES 2001–2018 ”的研究论文，研究旨在评估胰岛素抵抗（IR）的替代指标对一般人群全因死亡率和心血管死亡率的预测价值，寻找最佳替代指数。

结合Boruta算法，结果显示与其他三种替代IR指数（TyG指数、TG/HDL-C和HOMA-IR）相比，METS-IR与美国人群的全因和心血管死亡率的相关性更显著，在65岁以下的个体中尤其明显。

本公号回复“ 原文”即可获得文献PDF等资料

近年来，随着生活水平的不断提高，肥胖逐渐成为威胁人类健康的“隐性杀手”。而随着肥胖人数的增加，与肥胖相关的胰岛素抵抗（IR）和心血管疾病（CVD）的患病率也随之增加。

用Boruta筛选变量

本项研究使用NHANES 2001~2018年数据，最终纳入14,653名年龄48~85岁符合条件的参与者，平均年龄为46岁，49.82%为男性，在116个月的中位随访期内，共记录了2085例（10.23%）全因死亡和549例（2.61%）心血管疾病（CVD）相关死亡。

四个胰岛素抵抗（IR）替代指标包括：甘油三酯葡萄糖指数（TyG指数），胰岛素抵抗代谢评分（METS-IR），甘油三酯/高密度脂蛋白胆固醇（TG/HDL-C比值）和胰岛素抵抗的稳态模型评估（HOMA-IR）。

Boruta算法是一种基于随机森林的监督分类特征选择方法，它可以最小化随机森林模型的误差，最终形成最小最优特征的子集。在本研究中，研究团队使用Boruta算法的结果结合实际临床意义来筛选要纳入多变量Cox回归的变量。

主要终点是全因死亡率，次要终点是心血管死亡率（包括高血压、糖尿病、高脂血症、CVD和代谢综合征（MetS））。

‍在116个月的中位随访期内，研究团队共记录了2085例（10.23%）全因死亡和549例（2.61%）心血管疾病（CVD）相关死亡。

初步分析发现，全因死亡率和心血管死亡率随着四个指数的上升而逐渐增加。

基于Boruta算法的筛选特征变量，经过500次迭代后，研究团队最终确定相关变量。

与全因死亡率最密切相关的6个变量为：年龄、CVD、Scr（血清肌酐）、SBP（收缩压）、BUN（血尿素氮）和高血压，

与心血管死亡率最密切相关的6个变量为：年龄、HbA1C（糖化血红蛋白）、FPG（空腹血糖）、Scr、ALT（丙氨酸氨基转移酶）和SBP。

进一步进行多因素Cox回归和RCS分析，结果显示，在4个指标中，仅METS-IR与全因死亡率和CVD死亡率显著相关，且均呈近似“U”型非线性相关。

具体而言，基线METS-IR低于拐点（41. 33）与死亡率呈负相关。而高于拐点（41.33）的基线METS-IR与死亡率呈正相关。

进一步对METS-IR进行分层，发现METS-IR水平与全因和心血管死亡率之间的显著相关性主要存在于年龄< 65岁的非老年人群中。

综上所述，研究团队发现结合Boruta算法得出，METS-IR与美国人群的全因死亡率和心血管死亡率的相关性比其他三个IR指标(TyG指数、TG/HDL-C和HOMA-IR)更显著，尤其是在65岁以下的人群中。

MIMIC-IV数据库

2024年7月22日，中国学者用MIMIC-III数据库，在期刊《Scientific Reports》（医学二区，IF=3.8）发表题为：“A two-tier feature selection method for predicting mortality risk in ICU patients with acute kidney injury ”的研究论文，研究旨在使用MIMIC-III数据集和机器学习的方法开发一个可预测因急性肾损伤(Acute kidney injury, AKI)入院的ICU患者的住院死亡率风险。

研究团队将可解释技术与因果推理相结合，分析特征与预测结果之间的因果关系。团队所开发的预测模型切实有效。

在先前的文章中，我们曾介绍过急性肾损伤（AKI）的危害，作为全球住院患者死亡率的重要因素，该疾病可影响影响约五分之一的住院患者。AKI的早期预测或检测具有重要的临床意义，但也带来了巨大的挑战。为了解决早期阿基预测的局限性，研究人员越来越多地转向机器学习方法。

用Boruta和XGBoost方法进行特征筛选

本项研究使用MIMIC-III数据集，最终纳入11,182名符合条件的参与者，这些数据构成训练集，其中30%分配用于内部验证。患者被分为死亡组和存活组。同时，采用相同标准检索MIMIC-IV（验证1）和eICU-CRD（验证2）的数据进行外部验证。

初步分析发现，在所有三个数据集中，诊断为AKI的男性比例超过女性，相应地，男性患者的死亡率也更高。此外，与其他年龄段的患者相比，60岁以上的AKI患者的死亡率显著升高。

本研究的特征选择使用两层特征两层特征选择法，第一层用Boruta算法进行初始筛选，第二层使用XGBoost进行细化。最终，研究团队共确定了24个相关特征。

接着分别根据Boruta算法和XGBoost算法筛选出的特征进行模型构建，并对模型的预测效果进行评价和比较。

此外，还对使用两层特征选择的叠加模型和使用单层特征选择的模型的性能进行了比较(XGBoost: 85;Boruta: 83;两层:0.91)。该分析显示，与单层方法相比，双层特征选择方法始终产生上级预测性能。

为了进一步验证所开发的两层特征选择模型的预测有效性，我们使用内部和外部验证集来评估模型的性能。将训练结果与验证结果进行比较显示，内部和外部验证集的AUC值均高于0.80(验证1:0.83;验证2:0.85)，这表明该模型在不同数据集上预测良好。

研究团队将构建的模型与传统的临床评分系统SOFA和APACHE IV进行了比较，结果表明，与传统的临床评分系统(SOFA: 0.65;Apach iv: 0.61)相比，所构建的模型(验证1:0.83;验证2:0.85)，具有更好的预测效果。

综上所述，研究团队基于机器学习法进行特征选择，基于此构建了比传统临床评分性能更佳的模型，该模型在预测因AKI入院的ICU患者的住院死亡率风险时更加精确。

机器学习+公共数据库可以说是最近发文的爆点，逻辑严谨，分析手段多样，选题新颖，审稿人怎能不爱？如果想要了解更多与“森林之神”相关的高分文章，不妨关注“公共数据库与孟德尔随机化”公众号！

后记

今天分享的这两篇文章的优势很明显，选题新颖，再加上机器学习法，为我们解锁了高分的新思路。

想挖掘公共数据的可别再犹豫，发文红利期可千万别错过！不知道怎么分析数据的来看看郑老师统计服务团队开展的课程！思路挖掘，数据分析，用我们的专业，助力你的科研路！！

我们团队提供“公共数据库挖掘”服务了

①公共数据库数据下载

②挖掘出具有发表级的结果

③包括SEER、NHANES、老年健康数据库、GBD数据库等

④提供规范的统计分析报告

⑤提供写作建议

联系李老师咨询（微信号sas555777）

公共数据库与孟德尔随机化

我们专门介绍公共数据库与孟德尔随机化，每周文献周报，呈现精品文献阅读

最新文章

北大学者挖掘GBD数据库，旧选题换个研究对象再登Lancet子刊

NHANES Online平台平台可直接分析的第55个指标：身体圆度指数（BRI）

超绝新思路！用NHANES数据库做出生队列研究，拿下JAMA子刊（IF=10.5）

王者归来！GBD数据库连发三篇Lancet主刊 | GBD数据库周报（12.7-12.13）

NHANES平台可直接分析的第54个指标：心脏代谢指数（CMI）

用NHANES横断面数据做队列研究，这个作者是懂挖掘的！

12.22直播课即将开始！欢迎参加零基础友好的“临床试验设计与数据分析课

SPSS公益课今天开课啦！零基础可入门＋全程免费＋助教答疑，欢迎报名

NHANES平台可直接分析的第53个指标：红细胞分布宽度与白蛋白浓度比值（RAR）

一区top！中南大学湘雅医院学者仅挖掘NHANES两年数据，拿下IF 8.2

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

中国学者用GBD研究特殊人群，不计算ASR也能发文Lancet子刊（IF=9.6）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

旧选题也能变废为宝！中国学者用孟德尔随机化验证NHANES探索性结果，发文二区top！

TyG指数依旧给力！中国学者结合MIMIC连发两篇二区 | MIMIC-IV数据库周报（11.16~11.22）

又一数据库免费共享癌症数据，中国学者用其探索卵巢癌负担发Lancet子刊！

NHANES平台可直接分析的第56个指标：尿白蛋白/肌酐比值和肾小球滤过率

首发！NHANES数据库2023年数据发文一区（IF=14）

12月22日！"临床试验设计与数据分析"直播课程开启，欢迎报名参加！

谁说GBD数据库不行？2019年数据照样拿来发BMJ子刊（IF=8.7）

JAMA子刊！中国学者用NHANES评估慢性肾病指标UACR，拿下IF 10.5

一区！孟德尔随机化＋四个数据库＋可成药基因发高分SCI| 孟德尔随机化周报（11.24-11.30）

孟德尔随机化和GBD结果相互验证，中国学者研究共病拿下二区top（IF=6.1）

30篇二区以上！NHANES指标LE8再拿一区（IF=5.0）| NHANES数据库周报（11.16~11.22）

一区IF 4.8！上海交大学者挖掘GBD数据，描述性分析出多张新图

一分钟教会你NHANES数据下载全流程，轻松解决变量难题！

我们整理了大概史上最全的NHANES的死亡与生存时间的数据

历史最高！一周之内，MIMIC数据库发了9篇二区以上！| MIMIC-IV数据库周报（10.26~11.01）

赢麻了！中南大学学者用NHANES四个TyG相关指标作中介，发文二区（IF=6.2）

神了！孟德尔随机化+机器学习也能构建预测模型 | 孟德尔随机化周报（11.17-11.23）

导师：NHANES数据库AIP二区文章发了这么多，你也去复现一篇

GBD新风向！中国学者预测2050年中风负担发文一区（IF=5.0）| GBD数据库周报（11.16-11.22）

IF=6.2！中国学者联合机器学习+NHANES，全新视角构建心血管预测模型

超强组合拳！中国学者用CHARLS+机器学习一周发两篇SCI | CHARLS等七大老年公共数据库周报（11.23 ）

思路起飞！浙大学者仅用双样本孟德尔随机化，拿下Lancet子刊（IF=9.7）

本周六！“机器学习”预测模型直播课程开课，发文后退款，超适合零基础！

杀疯了！中国学者联合8种机器学习法＋MIMIC多数据集，发文一区top（IF=8.8）

绝了！中国学者用8种孟德尔随机化方法发文二区（IF=4.9）| 孟德尔随机化周报（11.10-11.16）

IF=8.2！湘雅医院学者仅用NHANES两年数据拿一区 | NHANES数据库周报（11.9~11.15）

明天开课！全程免费＋助教答疑，让小白30天就能学会SPSS！

上分秘籍！中国学者探索3个NHANES高分指标，一举拿下8分+

一周两篇！GBD探究不同地区帕金森病负担，发文思路再＋1| GBD数据库周报（11.9-11.15）

IF=24.7！中国学者用GBD数据登JAMA子刊，探讨极端温度相关疾病负担发高分

发文没思路？MIMIC数据库！常规分析套路发一区 |MIMIC-IV数据库周报（10.19~10.25）

超绝搭配！孟德尔随机化＋队列研究＋Meta分析三角互证，发文一区top（IF=7.0）

年底大课！发文火爆的“机器学习”预测模型，零基础可入门，发文后可退款

快上车！中国学者用NHANES稀有指标UHR发文二区，可作为炎症或代谢新标志物

70%二区以上！看老牌数据库HRS如何发高分| CHARLS等七大老年公共数据库周报（10.27-11.2）

返璞归真！川大华西用简单双向孟德尔随机化发文二区（IF=8.4）| 孟德尔随机化周报（11.3-11.9）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉