清华大神发布Nat commun,代码大方公开,复现so easy!机器学习 “巅峰” 时刻!双诺奖护航,速速冲!

文摘   2024-10-26 18:00   陕西  

诺奖的颁布结果都看了吧,化学、物理学奖今年都盯上了人工智能、机器学习领域,都这么火了,怎么说咱们也得蹭上这波热度,抓紧上车啊~

上车的门找不着咋上车啊?来来来,阿星今天又挖到了一篇代码全公开的14分+的牛文!利用机器学习,给大家打开思路设计,懂得小伙伴们已经收藏抓紧复现啦~

清华大学药学院团队在《Nature Communications》发表研究论文,提出了一种基于代谢组学机器学习的胃癌诊断和预后预测模型,其准确性和敏感性上超越了传统的基于蛋白质标志物的方法。特别是,研究团队开发了一个包含10种代谢物的诊断模型(10-DM模型)和一个包含28种代谢物的预后模型(28-PM模型),这些模型在外部测试集上显示出了高灵敏度和优越的性能

前面9月份,阿星还发过一篇厉害的文章:牛掰啊!本科生一作0实验发Top纯生信!“代谢重编程+机器学习”就这点东西做完直接毕业!,这2篇一下就能看出来“代谢组学+机器学习”组合屡试不爽,不仅本科生轻松拿捏5分+,就连NC也能顺利拿下!这等好方法,想发文的朋友。跟着阿星速速看下去!PS:诺奖这波机器学习东风,肯定还会吹一阵,发文量也会上涨,想复现的朋友,可要抓紧时间实操了,想学习方法找阿星了解课程呀!还缺选题和创新,阿星也能帮你精准解决~快来试试吧!

定制生信分析

云服务器租赁

(加微信备注99领取试用)


题目:代谢组学机器学习预测胃癌的诊断和预后

杂志:Nature communications

影响因子:IF=14.7

发表时间:2024年2



研究背景



胃癌(GC)是全球癌症相关死亡的主要原因之一,早期诊断和预后预测对于改善临床结果至关重要。非侵入性生物标志物的识别用于早期诊断和患者风险分层仍然是一个未充分探索的领域,研究旨在开发基于代谢组学和机器学习的胃癌诊断和预后预测模型。



数据来源



数据来源:多中心采集的702例血浆样本,包括389例胃癌患者和313例非胃癌对照

数据类型:血浆样本的代谢组学数据



研究思路



从多中心采集血浆样本,采用液相色谱-质谱(LC-MS)技术进行靶向代谢组学分析,检测147种代谢物。引入机器学习算法,使用LASSO回归和随机森林算法进行特征选择和模型构建,包括诊断模型(10-DM模型)和预后模型(28-PM模型)。



研究结果



1.胃癌代谢重编程

通过主成分分析(PCA)区分胃癌和非胃癌样本,发现45种代谢物在胃癌中存在显著差异。这些差异代谢物呈现出3种不同的趋势,与疾病进展相关。KEGG通路富集分析显示,谷胱甘肽代谢和半胱氨酸及蛋氨酸代谢等通路在胃癌中受到显著影响

2.诊断模型

基于10种代谢物构建的10-DM模型在测试集1和测试集2中均表现出良好的诊断性能,AUC分别为0.967和0.920。该模型在区分早期胃癌(IA和IB期)方面也具有较高的准确性,优于传统的肿瘤标志物(如CA19-9、CA72-4和CEA)。

3.预后模型

基于28种代谢物构建的28-PM模型在预测胃癌患者预后方面表现出良好的性能,AUC为0.832,C-index为0.83。该模型优于传统的临床参数(如TNM分期、大体形态和血管肿瘤栓子),能够有效将患者分为不同的风险组    



文章小结



常规的预测模型是基于关键基因做的,而该研究的创新之处在于利用关键代谢物构建诊断/预后模型,揭示了胃癌的代谢景观,确定了两个不同的生物标志物组合,分别用于早期检测和预后预测。机器学习在分析代谢组学数据和开发潜在生物标志物方面具有独特优势,为胃癌的精准医学提供了新的工具和方法。这么一篇NC,思路、分数兼得,还不快冲?PS:热点知道了,该怎么结合还没想法?贴心的阿星一直在线等你来评估哦~在做数据分析前,记得要把自己的电脑硬件准备到位哦,比如试试阿星的服务器?一步到位!




阿星有话说




生信星持续为大家带来最新生信思路,更多创新性分析思路请点击下方链接。想复现这种思路或者定制更多创新性思路欢迎直接call阿星,生信星团队竭诚为您的科研助力!




往期精选





生信星
生信星提供专业生信分析服务,助您把握科研最新动态;思路设计、生信分析,就来找阿星~
 最新文章