机器学习不愧“高分收割机”!复旦大学冯建峰团队新作,UKB数据库+预后模型,代码也公开了,临床人做这个准没错!

文摘   2024-11-04 19:00   上海  

老铁们,爱分享临床医药干货的生信路又来了!

预后模型是临床研究的重要类型,但是要怎么才能玩出新意,发出高分了?生信路今天带来了一篇机器学习大杂烩,主打一个分析的完整度,定能为你的科研工作提供新方向!

本报道由复旦大学冯建峰团队完成,作者开发了一个基于血浆蛋白和临床-人口学变量的帕金森病高风险预测模型,通过机器学习技术筛选关键蛋白,预测精准度相当高!更酷的是,他们不仅验证了模型的稳定性,还发现这些蛋白质在确诊前10多年就开始发生变化!是不是很棒?各位科研伙伴们赶紧看看,说不定能给你的研究带来全新启发哦~(ps:模型数据和代码也公开啦,感兴趣的不要错过!)

1.本文首次结合多种血浆蛋白与临床-人口学变量,通过机器学习算法建立帕金森病高风险预测模型,显著提升了预测准确性;

2.通过使用PPMI数据集验证模型的稳定性,证明了该模型在不同人群中具有良好的泛化能力;

3.研究发现某些关键蛋白质在确诊前10年以上已出现变化,提供了帕金森病的早期检测机会,有助于尽早干预并延缓疾病进展;

4.本研究应用LightGBM等多种机器学习算法筛选关键蛋白,采用前向选择策略构建最佳蛋白质组合,极大提升了帕金森病的预测效果。想要发表高分SCI的小伙伴们也可以借鉴一下本文的研究思路哦~ (ps:机器学习还在发光发热,而且数据还好搞!方法还很容易复现,分析方法学到手,还愁发不了这么好的刊嘛!赶紧来和生信路一起试试呀~)。


定制生信分析

云服务器租赁

加微信备注99领取使用

l题目:利用血浆蛋白结合临床人口统计学指标预测未来帕金森氏症

l杂志:Neurology

l影响因子:IF=7.7

l发表时间:2024年4月

研究背景

帕金森病(PD)是继阿尔茨海默病之后第二常见的神经退行性疾病,其早期非运动症状包括自主神经功能障碍、抑郁、焦虑等,可能持续长达二十年。由于PD早期神经元损失不可逆,建立基于血液生物标志物的预测模型至关重要。

数据来源

本研究的数据来源于两个主要数据库:英国生物样本库(UK Biobank,UKB)和帕金森病进展标志物计划(PPMI)。UKB提供了52,503名无帕金森病参与者的血浆蛋白质数据,用于模型构建;PPMI则提供227名参与者的数据,用于外部验证。

研究思路    

本研究首先选取UKB队列中52,503名无帕金森病参与者,使用血浆蛋白质进行分析,排除基线患病者。通过LightGBM等机器学习算法,筛选出重要蛋白质,并结合临床-人口学变量,构建帕金森病高风险预测模型。随后,使用PPMI数据集进行外部验证,分析15年内的预测趋势,并通过时间序列回归和Cox比例风险模型评估蛋白质与帕金森病的关系(图1)。

图1 研究流程图

主要结果

1.人群特征

本研究纳入了52,503名无帕金森病的UKB参与者,其中54.0%为女性,93.7%为白人,基线时的中位年龄为58岁。经过中位14年的随访,共识别出751例新发帕金森病病例,其中593例发生在10年内。诊断为帕金森病的患者年龄较大,中位年龄为65岁,女性占比37.4%(表1)。

表1 英国生物样本库的参与者特征    

2. 对未来PD风险的预测

本研究通过机器学习筛选出22种血浆蛋白作为帕金森病预测的关键标志物,模型的AUC为0.800,APR为0.079。整合其他临床变量后,最终模型的AUC提升至0.832,APR提升至0.140。关键蛋白质如NfL、EDA2R等与帕金森病风险增加相关,模型具备良好的预测能力和广泛的适用性(图2)。    

图2 预测器的预测性能和SHAP值

3. 将预测的PD风险分层分为高风险组和低风险组

本研究将参与者按照预测模型的最佳阈值0.017分为高风险和低风险组,结果显示26.1%的参与者被归为高风险组,其患帕金森病的风险显著增加,HR为4.30(95% CI 3.53–5.22,p = 2.12 × 10−48)。PDRP模型能有效区分不同风险组,具有较高的预测准确性(图3)。    

图3 分层风险组的Kaplan-Meier图

4. PPMI中的验证

通过PPMI数据对模型进行了验证,227名参与者中72名已确诊帕金森病,58名处于帕金森病前期。使用筛选出的蛋白质面板并整合其他表型变量后,预测帕金森病前期的AUC提升至0.754,进一步证明了模型的泛化性和准确性(表2)。

表2 英国-生物样本库和PPMI的预测性能指标    

5. PDRP中预测因子的时间趋势

研究显示帕金森病患者在确诊前12年,NfL水平开始高于对照组,且持续升高。大多数其他蛋白质水平低于对照组。EDA2R和LXN在确诊前15年低于对照组,并在确诊前10年和8年后分别开始上升,WARS的趋势相反。此外,肌酐在确诊前9至5年间呈倒U型上升趋势(图4)。

图4 PD诊断前预测因素的时间趋势

文章小结

本研究通过结合多种血浆蛋白和易获取的临床-人口学变量,使用机器学习算法可有效识别帕金森病高风险人群。年龄、教育年限、脑外伤史等是显著预测因子,血浆蛋白和肌酐水平的加入进一步提升了预测精度。部分蛋白质在确诊前10年以上出现变化,提示早期检测和干预有助于预防或延缓神经退行性过程,为未来的预防和治疗策略提供了机会。机器学习算法更优秀,更准确,更潮流,更高分!如果您计划复现本研究或在数据分析上需要帮助,欢迎随时联系生信路!我们致力于为您的科研提供全方位支持,助您取得卓越成果。

生信路有话说



生信路还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询生信路,竭诚为您的科研助力!


定制生信分析

思路评估

服务器租赁

往期推荐

1.三个Python代码=20分文章?!康奈尔大学团队新发表:随机森林+多源数据,这顶破天的性价比,十分钟看完代码冲Top!

2.孟德尔随机化正值“当打之年”!疾病亚型分析,创新思路大进阶!首都医科大学团队一招斩获7分+!快快码住~

3.玩转NHANES数据库,TOP团队有妙招!北京大学团队10.5分横断面研究,生信小白也可轻松复现,赶紧码住!

4.高福院士主编的“国产”第一神刊《Science Bulletin》拳打PNAS,脚踢Nature、Science?真实水平如何?




生信路
小途持续给大家分享最新生信热点思路,提供专业生信分析服务:思路设计、生信分析、文献复现、数据库搭建等。助力您的科研之路!
 最新文章