Nature“嫡水刊”!年发文量2万+,刚升中科院二区值得投!广西医科大学10种机器学习的纯生信,临床医生没时间也能狂发10篇!

文摘   2024-11-14 10:16   上海  

为了应广大粉丝朋友的需求,生信湾之前给着急毕业的小伙伴推荐过很多“毕业神刊”,今天继续给大家带来一本综合类神刊,堪称Nature的“嫡水刊”——Scientific Reports(中科院二区,IF=3.8)!

为什么说Scientific Reports是“嫡水刊”呢?主要有以下几个特点:

1、发文量大:该期刊的年发文量巨大,2022年发文量已超过2万篇,2023 - 2024年的年发表文章数量也达到了22037篇

2、录用率相对较高:相比一些顶级的科学期刊,Scientific Reports的录用率较高,接受文章的门槛相对较低,对新颖性和创新性的要求不是特别高,手上有难发表的文章试试这本期刊~

3、费用较高:该期刊是开放获取期刊,需要作者支付较高的版面费。较高的费用可能会让一些人认为,只要愿意花钱,就能够在该期刊上发表文章,从而给人一种“水刊”的印象。

这样看来,Scientific Reports确实有一些“水刊”的性质哈哈!不过作Nature旗下的子刊,大概率不会有预警的风险,不仅没预警,今年还跃升到中科院二区了!着急评职称/毕业的朋友们大胆冲吧!    

接下来,给大家分享一篇近期发表在该期刊上的文章,思路非常值得借鉴,各位小伙伴们快来学习!学会了之后,明天组会的时候就可以汇报给导师啦,说不定毕业课题就有着落了呢~再配上这样的水刊,一篇SCI可能也就到手了,多美的一件事啊~

该论文由广西医科大学等多个团队共同合作完成,作者运用机器学习算法,利用SEER数据库数据,构建并评估了用于预测胃神经内分泌肿瘤(gNENs)患者生存率风险分层的模型话不多说,接下来咱们就开始进入今天的主题,一起来研读这篇文章吧~

PS:无论你是刚踏入科研大门的新手小白,还是在科研界摸爬滚打多年的“老江湖”,都需要文章来为科研事业增光添彩。选择适合自己的方案才能让研究事半功倍,快来联系生信湾定制专属于你的方案吧!    

l题目:用于胃神经内分泌肿瘤风险分层和生存预测的随机生存森林算法

l杂志:Scientific Reports

l影响因子:IF=3.8

l发表时间:202411

(注:公众号后台回复“123”获取文献全文!文献编号:20241114

胃神经内分泌肿瘤(gNENs)发病率上升且临床意义重大,但缺乏理想预测模型。准确预测其生存率对临床决策至关重要,而传统预测模型效果有限。因此,本研究旨在利用机器学习算法构建更有效的gNENs预后预测模型,以提升临床治疗和管理水平。

本研究的数据来源于SEER数据库(Surveillance, Epidemiology, and End Results database),其涵盖约28%美国人口,包含癌症发病率和死亡率等综合数据。研究通过SEER*Stat软件识别2000 - 2019年确诊为gNENs的患者,并随机分配至训练集和验证集。    

1. 数据获取与处理:从SEER数据库提取gNENs患者数据,随机分训练集和验证集,处理缺失数据。

2. 模型构建与筛选:用10种算法及101种组合建生存预测模型,用LOOCV法筛选,确定最优RSF模型。

3. 模型评估与应用:评估RSF模型性能,进行风险分层,对比AJCC分期系统,分析模型优劣及应用前景。

1. 患者特征分析

本研究分析了775例gNENs患者,其中543例入训练集,232例入验证集。两组在种族、性别、治疗情况、肿瘤特征等方面无显著差异。训练集1、3、5年累积死亡率分别为40.0%、48.6%、54.0%,中位随访42个月;验证集对应死亡率为29.1%、43.5%、53.2%,中位随访48个月,累积死亡率无显著差异。    

表1:训练集和验证集患者的各项人口统计学及临床特征数据

 2. RSF模型构建与评估(训练集)

基于训练集数据,通过LOOCV框架拟合101个预测模型,计算AUC值后确定RSF模型最优,其平均AUC为0.839。该模型包含11个特征,在预测1、3、5年生存情况时,AUC值均高于第8版AJCC分期系统,且校准曲线显示出可接受的一致性。    

图1A:训练集RSF模型与AJCC分期系统预测1、3、5年生存的时间依赖性ROC曲线对比

图2A - C:训练集1、3、5年生存概率的校准曲线。

3. RSF模型评估(验证集)

在验证集中,RSF模型预测1、3、5年生存的AUC值分别为0.88、0.92、0.89,除1年外,3年和5年时显著优于AJCC分期系统。校准曲线也呈现出可接受的一致性,校准截距和斜率在合理范围。    

图1B:验证集RSF模型与AJCC分期系统预测1、3、5年生存的时间依赖性ROC曲线对比。

图2D - F:验证集1、3、5年生存概率的校准曲线。

4. 风险分层结果

根据训练集确定将患者分为高低风险组的阈值为53.84,高风险组患者死亡风险更高。验证集按此阈值分组后,Kaplan - Meier曲线显示两组生存时间有显著差异,高风险组1、3、5年累积死亡率分别为54.1%、76.2%、84.4%,低风险组为0.9%、6.5%、17.8%。    

图3:根据预后风险评分对患者进行风险分层的分布情况。

图4:高低风险组的Kaplan - Meier生存曲线。

5. 基于AJCC分期的亚组生存分析

基于AJCC分期系统进行亚组生存分析,按风险评分分层后,AJCC I期高低风险组生存差异显著,低风险组结局更好;AJCC II期高低风险组生存差异也显著;AJCC III期高风险组生存率虽低但差异无统计学意义;AJCC IV期患者均在高风险组。    

图5:分别展示了AJCC I期、II期、III期高低风险组的生存曲线对比。

综上,本研究基于SEER数据库数据,通过多种机器学习算法构建模型,为gNENs的预后预测提供了新的潜在工具。随着诺奖这波浪潮,机器学习在医学研究中的应用如今备受关注!此外,利用大数据构建预测模型也是当前的热门科研方向,与临床数据相结合更是能为研究增添亮点。把握这个趋势,何愁发不了高分?思路设计、生信分析都可以找生信湾哦,期待与你一起在科研道路上前行~

合集 · 推荐

机器学习

孟德尔随机化

网络药理学

临床公共数据库分析

注:本文为原创编译,非声张版权,侵删!         

 

    

生信湾
持续分享最新生信热点思路,提供专业生信分析服务:思路设计、生信分析、文献复现、数据库搭建等。助力您的科研之路!欢迎朋友们沟通交流与合作~
 最新文章