9种机器学习模型飞上《Lancet》大子刊！东南大学团队最新成果，ML结合MIMIC数据库，简直是太赞了！

学术 2024-10-06 10:01 安徽

看着日历上近在咫尺的国庆假期，恨不得立马将时间拨到30号下午下班那一刻，谁懂？脑海里已经想象了多个假期计划，恨不能立马放假开始实施，谁懂？呜呜呜，一身“班味”的小云已经开始玩抽象了，可是看着手头上没有完成的任务，天又塌了！！只好埋头接着苦干，撑到放假前一秒。

话不多说，那就开启今天的学习吧。在此之前，小云已经分享过很多关于机器学习的文章，因为它太热门、太好发文章了，小云必定竭尽全力将它安利给每一个刚开始生信分析的小伙伴，因为它真的太“香”了！

今天分享的研究IF=9.6，题目为“Machine-learning-derived online prediction models of outcomes for patients with cholelithiasis-induced acute cholangitis: development and validation in two retrospective cohorts”，旨在建立机器学习模型来预测胆石症性急性胆管炎患者的预后。大家跟随小云的脚步来学习一下吧！

1.研究创新。研究首次在同一项研究中结合并应用了三个要素:在线数据库、离线收集的真实临床数据和ML方法。

2.多维临床要素。研究涉及到各种客观的实验室检查指标，临床治疗和护理过程，以及需要人工计算的几种疾病评分。通过加入这些临床方便的数据，进一步提高了模型预测的准确性。

3.模型性能好。研究的患者来自不同的国家，虽然这些模型是基于单一的MIMIC数据库建立的，但当使用来自中国患者的数据进行外部验证时，仍然取得了令人满意的结果。

PS:机器学习已经是生信人的必备技能了，如果你还不会利用机器学习来发文章，那就错过1个亿。如果思路或者技术受限，那就抓紧来联系小云吧，超多个性化的课题思路助您早日发文！

定制生信分析

云服务器租赁

(加微信备注99领取试用)

期刊：eClinicalMedicine

影响因子：9.6

发表时间：2024年9月

研究背景

胆石症性急性胆管炎(CIAC)是一种预后不良的急性炎症性疾病。本研究旨在建立机器学习(ML)模型来预测CIAC患者的预后。

数据来源

ML模型构建中使用的训练集和内部验证集数据检索自Beth Israel Deaconess Medical Center (BIDMC)数据库，该数据库记录了2001年6月1日至2022年11月16日期间BIDMC的住院患者，包括MIMIC III和IV版本所有CIAC患者住院期间的详细信息。

研究思路

采用Logistic回归、极限梯度增强(XGBoost)、轻梯度增强机、自适应增强、决策树等9种ML方法预测住院死亡率、出院后30天内再入院率、出院后180天内死亡率。纳入2019年1月1日至2023年7月30日来自东南大学附属中大医院的患者作为外部验证集。受试者工作特征曲线下面积(AUROC)是评价模型性能的主要指标。

主要结果

1.基线特征

根据纳入标准，共纳入1203例CIAC患者。在应用排除标准后，遗漏了47例患者，最终纳入1156例患者。其中住院期间死亡52例(4.5%)，出院后30天内需再入院262例(22.7%)，出院后180天内死亡166例(14.4%)。

表1 所有患者的基线特征

2.特征选择

使用SelectFromModel算法进行特征选择，通过对所有患者的综合分析，发现13个关键变量对院内死亡率的发生影响最大。这些变量按显著性顺序依次为:总胆红素(TBil) _min、白细胞(WBC)_avg、TBil_avg、WBC_min、乳酸脱氢酶(LD)_avg、红细胞分布宽度(RDW)_max、Phosphate_max、RDW_avg、PTT_max、PTT_avg、ICU住院时间、尿素氮_avg、尿素氮_min。

图1 基于SelectFromModel算法的特征选择

3.模型性能比较

模型的预测效果由受试者工作特征(ROC)和精确召回率(PR)曲线表示。在预测所有患者的住院死亡率时，XGBoost模型的判别性能最好，训练集AUROC值为0.996，AUROC值最高(0.967)，准确率最高(0.968)，灵敏度最高(0.964)，特异性为0.899，NPV为0.983。同样，在预测出院后30天内再入院时，XGBoost模型在训练集中的AUROC值最高，为0.886，并且与其他ML模型相比，在各种指标上表现领先，包括准确性(0.813)、灵敏度(0.808)、特异性(0.816)。

图2 9种型号的受试者工作特性曲线和查准召回率曲线

4.XGBoost模型的验证

选择中大医院2019年1月至2023年7月共61例患者作为外部验证队列，其中5例院内死亡，15例出院后30天内再入院，12例出院后180天内死亡。根据14 ~ 16个排名靠前的危险因素对XGBoost模型进行验证，得到AUROC值分别为0.741 (95% CI 0.725 ~ 0.763)、0.812 (95% CI 0.798 ~ 0.824)、0.848 (95% CI 0.841 ~ 0.859)，证明了我们的模型具有良好的推广能力。

5. 模型的应用

我们开发了一系列在线平台(表2)，提供针对CIAC患者分类和目标结局事件定制的网络工具。通过将临床特征数据直接输入到网页上指定的文本字段中，用户可以方便地获得所需的预测结果(图3)。

表2 链接到预测CIAC患者不同结果的网络工具

图3 一个web工具使用的例子

文章小结

总之，本研究表明XGBoost模型可能是预测CIAC患者预后发生的有希望的工具。未来应该进行多中心验证和大规模前瞻性研究来帮助验证本研究的发现。通篇阅读，小伙伴们有没有什么新的收获呢？看了小云分享的这么多期的生信文章，有没有觉得生信分析是真的香，可以帮助我们0实验0成本收获一篇SCI。那么感兴趣的小伙伴就快快行动起来吧，如果你还没有思路，可以来和小云聊一聊哦，小云这有丰富的学习资源，一定能帮到你！

定制生信分析

云服务器租赁

热点推荐

代码合集（点击查看）

http://mp.weixin.qq.com/s?__biz=MzAwNjE0MDY3MQ==&mid=2650806838&idx=1&sn=3bcd17b00df7dc657ec48c6aa53b7163

云生信学生物信息学

专注生信10余年，原创文章数千篇；公号资料免费领，寻求服务找小云；长期学习加关注，生信干货更不停。

这不就是你们一直在找的“ABCD”设计思路吗？国自然黑马“糖酵解”联合“m6A修饰+乙酰化”，王炸组合发文就是容易！慕了慕了~

浙江大学研究团队发文有高招！“单细胞+空转+巨噬细胞”这个“王牌套路” 学会，发它个10篇，普通青椒/医生晋升的路这不就通了吗！

这对热点“搭子”错过悔一年！搭配上机器学习+预后模型，一区SCI近在咫尺，临床医生们还在等啥？

孟德尔随机化就应该这样用，不仅更容易中还能发高分！

这泼天的富贵还是轮到网络毒理学了！西交大附属医院团队发大招：网毒+机器学习联手拿Q1，这波热度一定得蹭上！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

不是吹牛，是真牛！1图发10分+JAMA子刊？！NHANES数据库解锁科研新玩法！临床人速来，0实验复现=躺赢！

江山代有才人出！本科生发Molecular Cancer（IF27.7）！一起观摩基于11,093例样本的多组学如何登上顶刊！

远离F刊，发文没烦恼！孟德尔随机化又一波梦幻联动登顶一区12.5分！MR+蛋白组学+代谢组学强势三重奏！

生信分析结果用qPCR或WB验证不出来，我该怎么办？

从临床到生信：医生们 “躺平式” 发文新打法，干湿结合的侧重点该如何把握？

不愧是顶流！乳酸化一登场，9分+轻松到手！无需测序，盛京医院团队仅凭单细胞公共数据+空间转录组+少量实验，顺利拿下一区Top！

Q1/IF 12.5，四川大学华西医院团队也太有实力了！研究受到多个基金支持，靠挖掘SEER数据库就能做到？

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

年底KPI神器，单细胞+巨噬细胞！新疆医科大学团队教你零成本高效发文，热点拉满，强势助攻！抓紧上车，轻松冲刺!

十投九中+纯生信友好=神刊！复旦肿瘤医院李大卫团队2区6分模板文，单细胞数据挖掘+乳酸化修饰，科研人错过血亏！

几乎不退稿的“毕业神刊”再上大分！山西医科大学：“国自然前三”的发文和中标利器“线粒体”+经典预后思路，2个月拿下纯生信好文！

赢麻了！高分文章“流量密码”！用别人的数据，发自己的文章！孟德尔随机化只会越来越火！

IF21.7，机器学习开挂了！传统分析模型OUT，新风险分层模型IN！2024年顶刊带你玩转数据分析，临床想发高分看这篇就够了！

万没想到，院士坐镇的1区也能水？录用率高达75%，要发得赶紧！附一篇浙大团队的范文，代谢组+机器学习，思路简单而有效！

这篇Nature Communications真的很适合临床人读！顶级非肿瘤纯生信数据库+机器学习+多组学，不愧是高分助推器

立即行动！租赁服务器，享受额外好礼

竟然还能这么用？网络药理学反其道而行拿下11+Top期刊！中国医学科学院肖然团队这篇干湿结合文，创新满满，同门都快馋哭了！

分子对接还能这样做？不要小瞧了分子对接与分子动力学模拟之间的羁绊!

IF12.5，50天接受？！SEER数据库真有这么神！华科协和团队用数据库玩出学术新高度，0实验思路，赶紧码住！

浙江大学研究团队发文有高招！“单细胞+空转+巨噬细胞”这个“王牌套路” 学会，发它个10篇，普通青椒/医生晋升的路这不就通了吗！

新鲜出炉的烫手SCI！瑞金医院毕宇芳&王卫庆&郑捷等团队：MR+Cox比例风险模型+前瞻性队列拿下11分cell子刊，含金量够

单细胞又发了NC！代码公开！中南大学湘雅医院团队最新力作：成纤维细胞出马，没有“空转”助力的单细胞也能发光发热！

这个思路能发7+，我做梦都不敢想！掌握西安交大团队的这篇单基因分析套路，你的第一篇SCI就到手了！

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘科研生

入门天花板！小白不容错过的无实验套路！温州医科大学团队“单细胞+单基因+WGCNA”香的嘞！宝藏思路全程高能别眨眼睛！！

IF:16.6震撼登场！重庆医科大学：孟德尔随机化数据库——DMRdb，专治不会MR的你！傻瓜式操作，分析不再求人！

生信分析结果用qPCR或WB验证不出来，我该怎么办？

代码公开！复旦大学冯建峰团队“高分收割机”，挖掘UKB数据库，基于机器学习的预后模型构建，这样做还怕发不了高分？

强者从不抱怨环境！郑大史长河团队结合UKBB+多基因风险评分+表型关联+双样本孟德尔随机化拿下1区！

IF：11.4！双1区顶刊中的“水刊”，巨好投！青岛农大张西峰团队：铁元素切入，多组学加持，4个月拿下！这波操作赢麻了！

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘科研生

临床医生首选科研福利！“铁死亡”果然威武！南方医科大学团队“机器学习+预后模型”，0实验搞定5分！本科生都能行！

“单基因研究”费钱？那是你还不懂生信套路！天津医大团队这波“单基因+单细胞”的操作绝了，省钱又省事！拓展一下就是一篇国自然！

分高不卷，这才是临床科研该有的样子！李兰娟院士团队都在用的NHANES数据库“老树开新花”~发文就是这么简单！

IF 16.7！高质量、综合GBD数据库炸裂登场！武大中南医院&湖北医科大襄阳医院携手，3图3表拿下高分，简直美滋滋~

论如何不错过明年国自然！中性粒细胞陷阱会带你突出重围！哈医大李永利团队“NETs +单细胞”干湿结合完爆9分+Q1牛刊！

卷出天际的免疫微环境如何杀出重围？“单基因”分析联合“多组学”教你一招制敌！

西湖大学这也太有钱！1000多个样本的蛋白质组测序构建中国EOC蛋白质组图谱，膜拜大佬！

赢麻了！高分文章“流量密码”！用别人的数据，发自己的文章！孟德尔随机化只会越来越火！

单细胞在此，恭迎各位天命人！单细胞分析遇上肿瘤转移直接“封神”，6分+纯生信模板思路这不就来了，拿去复现！

AI在诺奖上杀疯了，不出意外，这本AI、机器学习为主的12+神刊IF将大涨！北协和陈有信团队最近这篇深度学习+影像组学值得一学！

中山大学林华亮团队赢麻了！孟德尔随机化高分发文根本没有瓶颈，仅凭3图2表0实验，喜获10分+！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉