9种机器学习模型飞上《Lancet》大子刊!东南大学团队最新成果,ML结合MIMIC数据库,简直是太赞了!

学术   2024-10-06 10:01   安徽  


看着日历上近在咫尺的国庆假期,恨不得立马将时间拨到30号下午下班那一刻,谁懂?脑海里已经想象了多个假期计划,恨不能立马放假开始实施,谁懂?呜呜呜,一身“班味”的小云已经开始玩抽象了,可是看着手头上没有完成的任务,天又塌了!!只好埋头接着苦干,撑到放假前一秒。
话不多说,那就开启今天的学习吧。在此之前,小云已经分享过很多关于机器学习的文章,因为它太热门、太好发文章了,小云必定竭尽全力将它安利给每一个刚开始生信分析的小伙伴,因为它真的太“香”了!
今天分享的研究IF=9.6,题目为“Machine-learning-derived online prediction models of outcomes for patients with cholelithiasis-induced acute cholangitis: development and validation in two retrospective cohorts”,旨在建立机器学习模型来预测胆石症性急性胆管炎患者的预后。大家跟随小云的脚步来学习一下吧!
1.研究创新。研究首次在同一项研究中结合并应用了三个要素:在线数据库、离线收集的真实临床数据和ML方法。
2.多维临床要素。研究涉及到各种客观的实验室检查指标,临床治疗和护理过程,以及需要人工计算的几种疾病评分。通过加入这些临床方便的数据,进一步提高了模型预测的准确性。
3.模型性能好。研究的患者来自不同的国家,虽然这些模型是基于单一的MIMIC数据库建立的,但当使用来自中国患者的数据进行外部验证时,仍然取得了令人满意的结果。    
PS:机器学习已经是生信人的必备技能了,如果你还不会利用机器学习来发文章,那就错过1个亿。如果思路或者技术受限,那就抓紧来联系小云吧,超多个性化的课题思路助您早日发文!

定制生信分析

云服务器租赁

(加微信备注99领取试用)

期刊:eClinicalMedicine
影响因子:9.6
发表时间:2024年9月
研究背景
胆石症性急性胆管炎(CIAC)是一种预后不良的急性炎症性疾病。本研究旨在建立机器学习(ML)模型来预测CIAC患者的预后。
数据来源
ML模型构建中使用的训练集和内部验证集数据检索自Beth Israel Deaconess Medical Center (BIDMC)数据库,该数据库记录了2001年6月1日至2022年11月16日期间BIDMC的住院患者,包括MIMIC III和IV版本所有CIAC患者住院期间的详细信息。    
研究思路
采用Logistic回归、极限梯度增强(XGBoost)、轻梯度增强机、自适应增强、决策树等9种ML方法预测住院死亡率、出院后30天内再入院率、出院后180天内死亡率。纳入2019年1月1日至2023年7月30日来自东南大学附属中大医院的患者作为外部验证集。受试者工作特征曲线下面积(AUROC)是评价模型性能的主要指标。
主要结果
1.基线特征
根据纳入标准,共纳入1203例CIAC患者。在应用排除标准后,遗漏了47例患者,最终纳入1156例患者。其中住院期间死亡52例(4.5%),出院后30天内需再入院262例(22.7%),出院后180天内死亡166例(14.4%)。
表1 所有患者的基线特征
2.特征选择
使用SelectFromModel算法进行特征选择,通过对所有患者的综合分析,发现13个关键变量对院内死亡率的发生影响最大。这些变量按显著性顺序依次为:总胆红素(TBil) _min、白细胞(WBC)_avg、TBil_avg、WBC_min、乳酸脱氢酶(LD)_avg、红细胞分布宽度(RDW)_max、Phosphate_max、RDW_avg、PTT_max、PTT_avg、ICU住院时间、尿素氮_avg、尿素氮_min。
图1 基于SelectFromModel算法的特征选择
3.模型性能比较
模型的预测效果由受试者工作特征(ROC)和精确召回率(PR)曲线表示。在预测所有患者的住院死亡率时,XGBoost模型的判别性能最好,训练集AUROC值为0.996,AUROC值最高(0.967),准确率最高(0.968),灵敏度最高(0.964),特异性为0.899,NPV为0.983。同样,在预测出院后30天内再入院时,XGBoost模型在训练集中的AUROC值最高,为0.886,并且与其他ML模型相比,在各种指标上表现领先,包括准确性(0.813)、灵敏度(0.808)、特异性(0.816)。
图2 9种型号的受试者工作特性曲线和查准召回率曲线
4.XGBoost模型的验证
选择中大医院2019年1月至2023年7月共61例患者作为外部验证队列,其中5例院内死亡,15例出院后30天内再入院,12例出院后180天内死亡。根据14 ~ 16个排名靠前的危险因素对XGBoost模型进行验证,得到AUROC值分别为0.741 (95% CI 0.725 ~ 0.763)、0.812 (95% CI 0.798 ~ 0.824)、0.848 (95% CI 0.841 ~ 0.859),证明了我们的模型具有良好的推广能力。
5. 模型的应用
我们开发了一系列在线平台(表2),提供针对CIAC患者分类和目标结局事件定制的网络工具。通过将临床特征数据直接输入到网页上指定的文本字段中,用户可以方便地获得所需的预测结果(图3)。    
表2 链接到预测CIAC患者不同结果的网络工具
图3 一个web工具使用的例子
文章小结    
总之,本研究表明XGBoost模型可能是预测CIAC患者预后发生的有希望的工具。未来应该进行多中心验证和大规模前瞻性研究来帮助验证本研究的发现。通篇阅读,小伙伴们有没有什么新的收获呢?看小云分享的这么多期的生信文章,有没有觉得生信分析是真的香,可以帮助我们0实验0成本收获一篇SCI。那么感兴趣的小伙伴就快快行动起来吧,如果你还没有思路,可以来和小云聊一聊哦,小云有丰富的学习资源,一定能帮到你!

定制生信分析


云服务器租赁

热点推荐

孟德尔随机化

临床公共数据分析

单细胞测序

肿瘤免疫与微环境

机器学习

单基因分析

生信云服务器

代码合集(点击查看)

培训班系列(点击查看)


云生信学生物信息学
专注生信10余年,原创文章数千篇; 公号资料免费领,寻求服务找小云; 长期学习加关注,生信干货更不停。
 最新文章