【NC】血液蛋白质组+机器学习非套路分析流程发14.7分,一起审判审判这篇神文的“脑回路”!

文摘   2024-07-19 10:02   山东  


一说到蛋白质组学,别管什么血液蛋白质组还是肿瘤蛋白质组,只要对生信有些了解脑海里是否瞬间浮现出一般套路化流程?只要是拿去测序公司做的如果需要原始数据+分析服务那一般会收获差异表达蛋白,功能注释,GO/KEGG聚类分析等非常流程化的分析。但是吧一般我们有钱拿去做测序,目的就是发高分文章啦,这些套路化的内容着实不够看,也不够个性化。

下面船长分享一篇来自伦敦大学/德国哥廷根大学医学中心研究团队发表于自然子刊Nature Communications(IF=14.7)上面的一篇血液蛋白质组学相关的文章,这篇文章的核心虽然是通过血液蛋白质组学+机器学习识别特定疾病的血液生物标记物,但是在文章架构上非常去套路化,它将研究结果分为第0(发现阶段)、1(验证阶段)、2(应用阶段)三个阶段来呈现,在文本上就区别于一般的研究论文,看着就与众不同(有时候文本也很加分的~)。

而最终的结果也表明机器学习鉴定的八种血液生物标志物,能100%特异性区分帕金森病和健康人,并提前7年识别出近80%的高风险患者。    

看着就很厉害,但是是你是否怀疑它的准确性?船长也看过这篇文章的同行评审文件,审稿人也提出过需要进行纵向分析以确认iRBD患者样本的PD预测准确性,需要更多关于血浆生物标志物与中枢神经系统PD病理和神经退行性变的联系的讨论等关键问题。作者也进行了回应,进行了更多的样本分析,包括146个样本的纵向研究等,添加了更多讨论。虽然NC总被说是顶刊中的水刊,但是发一篇也很难的好吧!

下面还是和船长一起看看这篇文献的主要内容吧!(ps:如果有小伙伴拿到了海量的测序原始数据和一般分析结果,但是发现需要进一步个性化分析,而测序公司无法给出满意答复可以考虑下船长这边哦,我们专做生信个性化方案定制以及个性化分析,已经帮助很多小伙伴解决难题啦!


定制生信分析

云服务器租赁

加好友备注“99”领取试用


题目:Plasma proteomics identify biomarkers predicting Parkinson’s disease up to 7 years before symptom onset(血浆蛋白质组学可在症状出现前 7 年内识别出可预测帕金森病的生物标志物)

杂志:Nature Communications |

影响因子:IF=14.7

发表时间:2024年6月

公众号回复“321”领取原文PDF,文献编号:240719    

研究背景

帕金森病的发病率越来越高。它从前期运动阶段(以快速眼动睡眠行为障碍等非运动症状为特征)发展到致残的运动阶段。需要客观的生物标志物来介入早期/前运动疾病阶段,以减缓潜在的神经退行性过程。在这里,作者验证了一种针对最近被诊断为运动期帕金森病患者(99例)、有孤立快速眼动睡眠行为障碍的前运动期个体(两个队列:18例和54例纵向研究)以及健康对照组(36例)血液样本的靶向多重质谱检测方法。

研究思路

研究首先利用质谱技术在早期PD患者中鉴定出潜在的血液生物标志物,然后通过高通量目标蛋白质组学方法在独立队列中验证这些标志物。通过机器学习,从这些标志物中筛选出八个能够以100%特异性区分PD患者和健康人的血液生物标志物,并能在7年前预测79%的iRBD患者发展为DLB或运动型PD。这些发现为NSD的早期筛查和预防试验中的受试者分层提供了潜在的生物标志物。

研究结果

1.蛋白质组学发现阶段0

对血浆进行了自下而上的蛋白质组学分析,这些血浆已经去除了主要的血液蛋白,使用二维在线液相色谱分级成十个组分,并通过QTOFMSE进行无标记的质谱分析发现队列由十名随机选择的未用药的PD患者和十名来自新发帕金森病(DeNoPa10)队列的健康对照(HC)组成。当限制鉴定每个蛋白至少来自一个肽段,并且每个肽段至少有两个片段时,这种分析鉴定出了1238个蛋白。排除了少于两个独特肽段或鉴定分数低于设定阈值的蛋白后,剩下895个不同的蛋白。在这些蛋白中,有47个在新发PD和对照组之间差异性表达,在95%的名义显著性水平上。通路分析表明富集在几个炎症通路上。    

图1研究的总体工作流程。本研究包含三个阶段。第0阶段通过非靶向质谱法的蛋白质组学发现来鉴定潜在的生物标志物第1阶段,将发现阶段的目标转移到针对性的质谱多反应监测(MRM)方法上,并应用于一个新的、更大的样本队列。第2阶段,针对性MRM方法被进一步优化,并对更多的样本进行了分析,以评估目标蛋白质组的临床可行性    

图2在新发帕金森病(PD)患者的血浆样本(n = 10)和健康对照组(n = 10)的发现阶段,通过火山图表示,展示了PD患者与对照组之间蛋白质表达差异(阶段0)

2.针对蛋白质组学检测的目标蛋白质选择

开发了一种基于发现阶段结果的目标蛋白质组学检测方法,包括121种蛋白质,旨在验证潜在的生物标志物并探索相关通路。该方法结合了现有科学研究和团队初步发现,纳入了与PD、AD和衰老相关的蛋白质以及已知的炎症相关蛋白。

图3靶向蛋白质组学分析的工作流程和结果概述    

3.人群统计学-目标蛋白质组学验证阶段(第一阶段)

在目标蛋白质组学分析中,使用了来自99名最近被诊断为新发帕金森病(PD)的个体(48名男性,50%,平均年龄67岁)和36名健康对照(HC;20名男性,57%,平均年龄64岁)的血浆样本,这些样本与蛋白质组学发现阶段无关。这是主要的队列,还向其中添加了进一步验证的样本,包括41名患有其他神经系统疾病(OND)的患者(29名男性,71%,平均年龄70岁)和18名通过视频多导睡眠图(vPSG)确认的iRBD患者(10名男性,56%,平均年龄67岁)。

表1靶向检测(第一阶段)中分析的样本的人口统计数据

4.新发帕金森病患者与健康对照之间显著差异表达的生物标志物的鉴定-目标蛋白质组学验证阶段(第一阶段)

该目标蛋白质组学检测方法原本是为121种蛋白质开发的,其中32种在血浆中被一致可靠地检测到。在这32个标记物中,有23个被确认在帕金森病(PD)和健康对照(HC)之间有显著差异表达。在iRBD患者与HC以及OND与HC的比较中,鉴定了6种差异表达的蛋白质(图3)。新发PD和iRBD组都显示出丝氨酸蛋白酶抑制剂SERPINA3、SERPINF2和SERPING1的表达上调,以及中央补体蛋白C3的表达上调。颗粒蛋白前体在所有三组患者(PD、iRBD和OND)中相比HC显示出下调。OND和PD组共有的上调表达蛋白包括PTGDS、CST3、VCAM1和PLD3。    

图4控制组与不同疾病组之间显著不同的蛋白质:新发帕金森病(DNP)、iRBD和OND(第二阶段)

5.差异表达蛋白质的生物学意义-目标蛋白质组学验证阶段(第一阶段)

在目标蛋白质组学验证阶段,研究者利用通路分析评估了帕金森病与健康对照间差异表达蛋白质的生物学意义。分析揭示了与炎症反应、蛋白质折叠、ER应激、热休克蛋白等相关的通路。特别是,补体系统和急性期反应通路显示出显著的富集分数,表明这些通路在帕金森病中可能扮演关键角色。研究还提出了基于观察到的蛋白质表达的潜在有害和保护机制,这些机制可能导致α-突触核蛋白在神经元中的聚集和多巴胺能神经元的丢失。    

图5神经突触核蛋白病中差异表达蛋白的潜在参与

6.多变量分析显示帕金森病与对照组之间的蛋白质组差异-目标蛋白质组学验证阶段(第一阶段)

在目标蛋白质组学验证的第一阶段,通过主成分分析(PCA),研究者发现帕金森病患者与健康对照在蛋白质表达上形成明显分开的簇。iRBD患者位于两者之间,而OND患者由于疾病异质性没有明显聚类。PD患者表现出某些蛋白质表达下调,而其他蛋白质表达上调,这些差异可能与疾病的发展有关。

补充图2目标蛋白质组学数据的主成分分析,显示了新发帕金森病(DNP)、孤立性快速眼动睡眠行为障碍(iRBD)、其他神经系统疾病(OND)和对照组(阶段I)的分组情况    

7.使用多重蛋白质组的蛋白质生物标志物预测新发帕金森病-目标蛋白质组学验证阶段(第一阶段)

在目标蛋白质组学验证的第一阶段,研究者使用机器学习构建了OPLSDA模型,以区分帕金森病和健康对照样本。模型准确预测了iRBD样本中可能发展为PD的个体,并识别出对分类影响最大的蛋白质。进一步构建的SVM模型通过递归特征消除,确定了8个最有区分度的蛋白质,实现了100%的分类准确率。ROC和PR曲线分析显示了模型的高度准确性和稳健性。此外,研究还评估了年龄和性别对模型分类能力的影响,结果表明这些因素不影响模型的准确性。

图6帕金森病和对照组受试者的线性支持向量分类(阶段I)

8.快速且精细的LC-MS/MS方法的开发和独立纵向iRBD队列的评估(独立复制队列-第二阶段)

开发了一种快速精细的LC-MS/MS方法,用于评估独立纵向iRBD队列的生物标志物。通过深入表型分析,研究人员发现这些iRBD患者中有一定比例出现了RBD、低嗅觉和α-突触核蛋白阳性。在长达10年的随访中,部分受试者发展为PD或DLB。研究还比较了血浆、血清和脑脊液中蛋白质的相关性,并应用机器学习模型对iRBD样本进行了PD风险预测,显示出较高的预测准确性。    

图7来自新获得的一组前驱孤立性快速眼动睡眠行为障碍(iRBD)样本的预测结果(阶段II)

9.目标蛋白质组验证阶段(第一阶段)中差异表达蛋白质生物标志物与患者临床数据之间的相关性

在目标蛋白质组验证的第一阶段,研究者分析了帕金森病患者蛋白质表达与临床评分之间的相关性。发现特定蛋白质与运动障碍和认知功能评分呈负相关,而其他蛋白质与这些评分呈正相关。这些相关性可能揭示了疾病严重程度与蛋白质表达水平之间的联系,为理解帕金森病的分子机制提供了重要信息。    

图8通过靶向质谱测量的蛋白质与对照组和帕金森病患者的临床评分之间的相关性和聚类热图(阶段I)

表2通过靶向质谱测量的蛋白质与帕金森病患者和健康对照组的临床帕金森病评估评分之间的斯皮尔曼相关性p值(阶段I)    

10.纵向iRBD队列的临床结果和测量的比较-独立复制队列第二阶段

在独立复制队列的第二阶段,研究者使用线性混合效应模型分析了iRBD样本的纵向表达,发现BCHE随时间显著降低,TUBA4A表达有所增加。临床测量如H&Y分期、UPDRS评分与时间显著相关,非运动症状与运动进展强烈相关。此外,胆固醇与特定蛋白质表达正相关,而非运动症状总分与TUBA4A及生活质量问卷得分与某些蛋白质表达负相关。    

文章小结

篇文章其实还是得有经费才能发。不过船长也了解基本每个接触过生信的课题组手里都有一些测序的原始数据,或者转录组用过的数据静静放在角落里。那课题组的新生到来以后也基本会为了不浪费把边角数据丢给他们去分析。不过有时候真的两眼一蒙不知道怎么把这些数据整合成一篇文章,哪怕发个3分也好。嘿嘿,下面知道我要说啥了吧,船长这里就贴心提供了科研服务,咱们把测序数据凑上公共数据再设计几篇SCI也不成问题!感兴趣可以直接加船长微信哦!    

船长寄语


船长可以为您提供以下服务哦:评估思路(免费)、生信分析、方案设计、服务器租赁、特色数据库搭建等!欢迎大家扫码咨询,有问必答!

生信分析

思路设计

服务器租赁

扫码咨询船长

往期推荐



1、来稿就收的新“四大水刊”之一,我真的心动了!这篇纯生信文章一个月就接收了你敢信
2、代码公开可复现!贝勒医学院单细胞+空转+机器学习轻松拿下8.7分1区,三大组合技想不发高分都难
3、【Nature Communications】干湿结合5张图拿下!泛癌研究IF14.7还得看深圳湾实验室李磊课题组!
4、Docker镜像部署无忧,服务器租赁服务一站式解决!

生信海
怕错过生信热点?来生信海,船长日更不落伍!船长擅长思路设计、个性化生信分析、高分文献复现、特色数据库搭建等,欢迎来撩~
 最新文章