“森林之神”大放光彩!中国学者用公共数据库+机器学习强强联合,拿下两篇高分SCI

文摘   科学   2024-07-30 17:35   浙江  

直播预告

2024年“孟德尔随机化快速撰写SCI论文”高级班

欢迎报名!8.3-4,组学MR!详情链接


机器学习+公共数据库简直是天作之合!使用机器学习法自动化预测出疾病的关键影响因素和患病风险,不仅精确,创新性直接拉满!今天分享的两篇文章都是使用了近期较为火热的“森林之神”—Boruta算法,中国学者分别使用NHANES和MIMIC—IV配合分析,拿下两篇SCI高分文章!

接下来让我们一起来简单看看这两篇文章!

1

NHANES数据库

2024年7月10日,中国学者用NHANES 2001~2018年 数据库,在期刊《Cardiovascular Diabetology(医学一区top,IF=8.5)发表题为Metabolic score for insulin resistance (METS-IR) predicts all-cause and cardiovascular mortality in the general population: evidence from NHANES 2001–2018 ”研究论文,研究旨在评估胰岛素抵抗(IR)的替代指标对一般人群全因死亡率和心血管死亡率的预测价值,寻找最佳替代指数。
结合Boruta算法,结果显示与其他三种替代IR指数(TyG指数、TG/HDL-C和HOMA-IR)相比,METS-IR与美国人群的全因和心血管死亡率的相关性更显著,在65岁以下的个体中尤其明显。

本公号回复“ 原文”即可获得文献PDF等资料

近年来,随着生活水平的不断提高,肥胖逐渐成为威胁人类健康的“隐性杀手”。 而随着肥胖人数的增加,与肥胖相关的胰岛素抵抗(IR)和心血管疾病(CVD)的患病率也随之增加。

用Boruta筛选变量

本项研究使用NHANES 2001~2018年数据,最终纳入14,653名年龄48~85岁符合条件的与者,平均年龄为46岁,49.82%为男性,在116个月的中位随访期内,共记录了2085例(10.23%)全因死亡和549例(2.61%)心血管疾病(CVD)相关死亡。
四个胰岛素抵抗(IR)替代指标包括:甘油三酯葡萄糖指数(TyG指数),胰岛素抵抗代谢评分(METS-IR),甘油三酯/高密度脂蛋白胆固醇(TG/HDL-C比值)和胰岛素抵抗的稳态模型评估(HOMA-IR)
Boruta算法是一种基于随机森林的监督分类特征选择方法,它可以最小化随机森林模型的误差,最终形成最小最优特征的子集。在本研究中,研究团队使用Boruta算法的结果结合实际临床意义来筛选要纳入多变量Cox回归的变量。
主要终点是全因死亡率,次要终点是心血管死亡率(包括高血压、糖尿病、高脂血症、CVD和代谢综合征(MetS))。

在116个月的中位随访期内,研究团队共记录了2085例(10.23%)全因死亡和549例(2.61%)心血管疾病(CVD)相关死亡。
步分析发现,全因死亡率和心血管死亡率随着四个指数的上升而逐渐增加。
基于Boruta算法的筛选特征变量,经过500次迭代后,研究团队最终确定相关变量。
与全因死亡率最密切相关的6个变量为:年龄、CVD、Scr(血清肌酐)、SBP(收缩压)、BUN血尿素氮)和高血压,
与心血管死亡率最密切相关的6个变量为:年龄、HbA1C(糖化血红蛋白)、FPG(空腹血糖)、Scr、ALT(丙氨酸氨基转移酶)和SBP。
进一步进行多因素Cox回归和RCS分析,结果显示,在4个指标中,仅METS-IR与全因死亡率和CVD死亡率显著相关,且均呈近似“U”型非线性相关。
具体而言,基线METS-IR低于拐点(41. 33)与死亡率呈负相关。而高于拐点(41.33)的基线METS-IR与死亡率呈正相关。
进一步对METS-IR进行分层,发现METS-IR水平与全因和心血管死亡率之间的显著相关性主要存在于年龄< 65岁的非老年人群中。
  
综上所述,研究团队发现结合Boruta算法得出,METS-IR与美国人群的全因死亡率和心血管死亡率的相关性比其他三个IR指标(TyG指数、TG/HDL-C和HOMA-IR)更显著,尤其是在65岁以下的人群中。

2

MIMIC-IV数据库

2024年7月22日,中国学者用MIMIC-III数据库,在期刊Scientific Reports(医学二区,IF=3.8)发表题为A two-tier feature selection method for predicting mortality risk in ICU patients with acute kidney injury ”研究论文,研究旨在使用MIMIC-III数据集和机器学习的方法开发一个可预测因急性肾损伤(Acute kidney injury, AKI)入院的ICU患者的住院死亡率风险。
研究团队将可解释技术与因果推理相结合,分析特征与预测结果之间的因果关系。团队所开发的预测模型切实有效。
在先前的文章中,我们曾介绍过急性肾损伤(AKI)的危害,作为全球住院患者死亡率的重要因素,该疾病可影响影响约五分之一的住院患者。AKI的早期预测或检测具有重要的临床意义,但也带来了巨大的挑战。为了解决早期阿基预测的局限性,研究人员越来越多地转向机器学习方法。

用Boruta和XGBoost方法进行特征筛选

本项研究使用MIMIC-III数据集,最终纳入11,182名符合条件的参与者,这些数据构成训练集,其中30%分配用于内部验证。患者被分为死亡组和存活组。同时,采用相同标准检索MIMIC-IV(验证1)和eICU-CRD(验证2)的数据进行外部验证。
初步分析发现,在所有三个数据集中,诊断为AKI的男性比例超过女性,相应地,男性患者的死亡率也更高。此外,与其他年龄段的患者相比,60岁以上的AKI患者的死亡率显著升高。
初步分析发现,在所有三个数据集中,诊断为AKI的男性比例超过女性,相应地,男性患者的死亡率也更高。此外,与其他年龄段的患者相比,60岁以上的AKI患者的死亡率显著升高。
本研究的特征选择使用两层特征两层特征选择法,第一层用Boruta算法进行初始筛选,第二使用XGBoost进行细化。最终,研究团队共确定了24个相关特征。
接着分别根据Boruta算法和XGBoost算法筛选出的特征进行模型构建,并对模型的预测效果进行评价和比较。
此外,还对使用两层特征选择的叠加模型和使用单层特征选择的模型的性能进行了比较(XGBoost: 85;Boruta: 83;两层:0.91)。该分析显示,与单层方法相比,双层特征选择方法始终产生上级预测性能。
为了进一步验证所开发的两层特征选择模型的预测有效性,我们使用内部和外部验证集来评估模型的性能。将训练结果与验证结果进行比较显示,内部和外部验证集的AUC值均高于0.80(验证1:0.83;验证2:0.85),这表明该模型在不同数据集上预测良好。
研究团队将构建的模型与传统的临床评分系统SOFA和APACHE IV进行了比较,结果表明,与传统的临床评分系统(SOFA: 0.65;Apach iv: 0.61)相比所构建的模型(验证1:0.83;验证2:0.85),具有更好的预测效果。
综上所述,研究团队基于机器学习法进行特征选择,基于此构建了比传统临床评分性能更佳的模型,该模型在预测因AKI入院的ICU患者的住院死亡率风险时更加精确。
机器学习+公共数据库可以说是最近发文的爆点,逻辑严谨,分析手段多样,选题新颖,审稿人怎能不爱?如果想要了解更多与“森林之神”相关的高分文章,不妨关注“公共数据库与孟德尔随机化”公众号!

后   记

今天分享的这两篇文章的优势很明显,选题新颖,再加上机器学习法,为我们解锁了高分的新思路。

想挖掘公共数据的可别再犹豫,发文红利期可千万别错过!不知道怎么分析数据的来看看郑老师统计服务团队开展的课程!思路挖掘,数据分析,用我们的专业,助力你的科研路!

我们团队提供“公共数据库挖掘”服务了


①公共数据库数据下载

②挖掘出具有发表级的结果

③包括SEER、NHANES、老年健康数据库、GBD数据库等

④提供规范的统计分析报告

⑤提供写作建议

联系李老师咨询(微信号sas555777)






公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章