清华大神发布Nat commun,代码大方公开,复现so easy!机器学习 “巅峰” 时刻!双诺奖护航,速速冲!

文摘   2024-11-09 19:02   上海  


诺奖的颁布结果都看了吧,化学、物理学奖今年都盯上了人工智能、机器学习领域,都这么火了,怎么说咱们也得蹭上这波热度,抓紧上车啊~

上车的门找不着咋上车啊?来来来,大麦今天又挖到了一篇代码全公开的14分+的牛文!利用机器学习,给大家打开思路设计,懂得小伙伴们已经收藏抓紧复现啦~

清华大学药学院团队在《Nature Communications》发表研究论文,提出了一种基于代谢组学机器学习的胃癌诊断和预后预测模型,其准确性和敏感性上超越了传统的基于蛋白质标志物的方法。特别是,研究团队开发了一个包含10种代谢物的诊断模型(10-DM模型)和一个包含28种代谢物的预后模型(28-PM模型),这些模型在外部测试集上显示出了高灵敏度和优越的性能

前面9月份,大麦还发过一篇厉害的文章:牛掰啊!本科生一作0实验发Top纯生信!“代谢重编程+机器学习”就这点东西做完直接毕业!,这2篇一下就能看出来“代谢组学+机器学习”组合屡试不爽,不仅本科生轻松拿捏5分+,就连NC也能顺利拿下!这等好方法,想发文的朋友。跟着大麦速速看下去!PS:诺奖这波机器学习东风,肯定还会吹一阵,发文量也会上涨,想复现的朋友,可要抓紧时间实操了,想学习方法找大麦了解课程呀!还缺选题和创新,大麦也能帮你精准解决~快来试试吧!

定制生信分析

云服务器租赁

(加微信备注99领取试用)

题目:代谢组学机器学习预测胃癌的诊断和预后

杂志:Nature communications

影响因子:IF=14.7

发表时间:2024年2



研究背景



胃癌(GC)是全球癌症相关死亡的主要原因之一,早期诊断和预后预测对于改善临床结果至关重要。非侵入性生物标志物的识别用于早期诊断和患者风险分层仍然是一个未充分探索的领域,研究旨在开发基于代谢组学和机器学习的胃癌诊断和预后预测模型。



数据来源



数据来源:多中心采集的702例血浆样本,包括389例胃癌患者和313例非胃癌对照

数据类型:血浆样本的代谢组学数据



研究思路



从多中心采集血浆样本,采用液相色谱-质谱(LC-MS)技术进行靶向代谢组学分析,检测147种代谢物。引入机器学习算法,使用LASSO回归和随机森林算法进行特征选择和模型构建,包括诊断模型(10-DM模型)和预后模型(28-PM模型)。



研究结果



1.胃癌代谢重编程

通过主成分分析(PCA)区分胃癌和非胃癌样本,发现45种代谢物在胃癌中存在显著差异。这些差异代谢物呈现出3种不同的趋势,与疾病进展相关。KEGG通路富集分析显示,谷胱甘肽代谢和半胱氨酸及蛋氨酸代谢等通路在胃癌中受到显著影响

2.诊断模型

基于10种代谢物构建的10-DM模型在测试集1和测试集2中均表现出良好的诊断性能,AUC分别为0.967和0.920。该模型在区分早期胃癌(IA和IB期)方面也具有较高的准确性,优于传统的肿瘤标志物(如CA19-9、CA72-4和CEA)。

3.预后模型

基于28种代谢物构建的28-PM模型在预测胃癌患者预后方面表现出良好的性能,AUC为0.832,C-index为0.83。该模型优于传统的临床参数(如TNM分期、大体形态和血管肿瘤栓子),能够有效将患者分为不同的风险组    



文章小结



常规的预测模型是基于关键基因做的,而该研究的创新之处在于利用关键代谢物构建诊断/预后模型,揭示了胃癌的代谢景观,确定了两个不同的生物标志物组合,分别用于早期检测和预后预测。机器学习在分析代谢组学数据和开发潜在生物标志物方面具有独特优势,为胃癌的精准医学提供了新的工具和方法。这么一篇NC,思路、分数兼得,还不快冲?PS:热点知道了,该怎么结合还没想法?贴心的大麦一直在线等你来评估哦~在做数据分析前,记得要把自己的电脑硬件准备到位哦,比如试试大麦的服务器?一步到位!

推荐阅读


大麦有话说

大麦还提供服务器租赁、思路设计、定制生信分析、文献思路复现、临床数据库挖掘;有需要的小伙伴欢迎直接扫码咨询大麦,竭诚为您的科研助力!

尔云间meta分析
分享meta分析学习方法、医学统计基础知识、meta分析软件操作技巧、SCI论文发表经验等精彩内容。
 最新文章