9种机器学习模型飞上《Lancet》大子刊!东南大学团队最新成果,ML结合MIMIC数据库,简直是太赞了!

文摘   2024-10-29 19:01   上海  

生信路看着日历上近在咫尺的国庆假期,恨不得立马将时间拨到30号下午下班那一刻,谁懂?脑海里已经想象了多个假期计划,恨不能立马放假开始实施,谁懂?呜呜呜,一身“班味”的生信路已经开始玩抽象了,可是看着手头上没有完成的任务,天又塌了!!只好埋头接着苦干,撑到放假前一秒。

话不多说(省得你们嫌生信路烦哈哈哈哈),那就开启今天的学习吧。在此之前,生信路已经分享过很多关于机器学习的文章,因为它太热门、太好发文章了,生信路必定竭尽全力将它安利给每一个刚开始生信分析的小伙伴,因为它真的太“香”了!
今天生信路分享的研究IF=9.6,题目为“Machine-learning-derived online prediction models of outcomes for patients with cholelithiasis-induced acute cholangitis: development and validation in two retrospective cohorts”,旨在建立机器学习模型来预测胆石症性急性胆管炎患者的预后。大家跟随生信路的脚步来学习一下吧!
1.研究创新。研究首次在同一项研究中结合并应用了三个要素:在线数据库、离线收集的真实临床数据和ML方法。
2.多维临床要素。研究涉及到各种客观的实验室检查指标,临床治疗和护理过程,以及需要人工计算的几种疾病评分。通过加入这些临床方便的数据,进一步提高了模型预测的准确性。
3.模型性能好。研究的患者来自不同的国家,虽然这些模型是基于单一的MIMIC数据库建立的,但当使用来自中国患者的数据进行外部验证时,仍然取得了令人满意的结果。    
PS:机器学习已经是生信人的必备技能了,如果你还不会利用机器学习来发文章,那就错过1个亿。如果思路或者技术受限,那就抓紧来联系生信路吧,超多个性化的课题思路助您早日发文!


定制生信分析

云服务器租赁

加微信备注99领取使用

期刊:eClinicalMedicine
影响因子:9.6
发表时间:20249
研究背景
胆石症性急性胆管炎(CIAC)是一种预后不良的急性炎症性疾病。本研究旨在建立机器学习(ML)模型来预测CIAC患者的预后。
数据来源
ML模型构建中使用的训练集和内部验证集数据检索自Beth Israel Deaconess Medical Center (BIDMC)数据库,该数据库记录了200161日至20221116日期间BIDMC的住院患者,包括MIMIC IIIIV版本所有CIAC患者住院期间的详细信息。    
研究思路
采用Logistic回归、极限梯度增强(XGBoost)、轻梯度增强机、自适应增强、决策树等9ML方法预测住院死亡率、出院后30天内再入院率、出院后180天内死亡率。纳入201911日至2023730日来自东南大学附属中大医院的患者作为外部验证集。受试者工作特征曲线下面积(AUROC)是评价模型性能的主要指标。
主要结果
1.基线特征
根据纳入标准,共纳入1203例CIAC患者。在应用排除标准后,遗漏了47例患者,最终纳入1156例患者。其中住院期间死亡52例(4.5%),出院后30天内需再入院262例(22.7%),出院后180天内死亡166例(14.4%)。
表1 所有患者的基线特征
2.特征选择
使用SelectFromModel算法进行特征选择,通过对所有患者的综合分析,发现13个关键变量对院内死亡率的发生影响最大。这些变量按显著性顺序依次为:总胆红素(TBil) _min、白细胞(WBC)_avg、TBil_avg、WBC_min、乳酸脱氢酶(LD)_avg、红细胞分布宽度(RDW)_max、Phosphate_max、RDW_avg、PTT_max、PTT_avg、ICU住院时间、尿素氮_avg、尿素氮_min。
1 基于SelectFromModel算法的特征选择
3.模型性能比较
模型的预测效果由受试者工作特征(ROC)和精确召回率(PR)曲线表示。在预测所有患者的住院死亡率时,XGBoost模型的判别性能最好,训练集AUROC值为0.996,AUROC值最高(0.967),准确率最高(0.968),灵敏度最高(0.964),特异性为0.899,NPV为0.983。同样,在预测出院后30天内再入院时,XGBoost模型在训练集中的AUROC值最高,为0.886,并且与其他ML模型相比,在各种指标上表现领先,包括准确性(0.813)、灵敏度(0.808)、特异性(0.816)。
图2 9种型号的受试者工作特性曲线和查准召回率曲线
4.XGBoost模型的验证
选择中大医院2019年1月至2023年7月共61例患者作为外部验证队列,其中5例院内死亡,15例出院后30天内再入院,12例出院后180天内死亡。根据14 ~ 16个排名靠前的危险因素对XGBoost模型进行验证,得到AUROC值分别为0.741 (95% CI 0.725 ~ 0.763)、0.812 (95% CI 0.798 ~ 0.824)、0.848 (95% CI 0.841 ~ 0.859),证明了我们的模型具有良好的推广能力。
5. 模型的应用
我们开发了一系列在线平台(表2),提供针对CIAC患者分类和目标结局事件定制的网络工具。通过将临床特征数据直接输入到网页上指定的文本字段中,用户可以方便地获得所需的预测结果(图3)。    
表2 链接到预测CIAC患者不同结果的网络工具
图3 一个web工具使用的例子
文章小结    
总之,本研究表明XGBoost模型可能是预测CIAC患者预后发生的有希望的工具。未来应该进行多中心验证和大规模前瞻性研究来帮助验证本研究的发现。通篇阅读,小伙伴们有没有什么新的收获呢?看了生信路分享的这么多期的生信文章,有没有觉得生信分析是真的香,可以帮助我们0实验0成本收获一篇SCI。那么感兴趣的小伙伴就快快行动起来吧,如果你还没有思路,可以来和生信路聊一聊哦,生信路这有丰富的学习资源,一定能帮到你!

生信路有话说



生信路还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询生信路,竭诚为您的科研助力!


定制生信分析

思路评估

服务器租赁

往期推荐

1.三个Python代码=20分文章?!康奈尔大学团队新发表:随机森林+多源数据,这顶破天的性价比,十分钟看完代码冲Top!

2.孟德尔随机化正值“当打之年”!疾病亚型分析,创新思路大进阶!首都医科大学团队一招斩获7分+!快快码住~

3.玩转NHANES数据库,TOP团队有妙招!北京大学团队10.5分横断面研究,生信小白也可轻松复现,赶紧码住!

4.高福院士主编的“国产”第一神刊《Science Bulletin》拳打PNAS,脚踢Nature、Science?真实水平如何?


参考资料:
[1] Huang S, Zhou Y, Liang Y, et al. Machine-learning-derived online prediction models of outcomes for patients with cholelithiasis-induced acute cholangitis: development and validation in two retrospective cohorts. EClinicalMedicine.(2024).doi: 10.1016/j.eclinm.2024.102820. PMID:39290635.    

生信路
小途持续给大家分享最新生信热点思路,提供专业生信分析服务:思路设计、生信分析、文献复现、数据库搭建等。助力您的科研之路!
 最新文章