机器学习不愧是高分“秘诀”!中山大学附属第七医院“机器学习+多组学”双管齐下,一举斩获11分+TOP期刊,高分思路值得拥有!!!

文摘   2024-09-08 18:00   上海  

“生信人发文必备的好东西,劲爆来袭!介绍一下阿星团队的服务器:服务器租赁续费不涨价还倒送你时间?是的,快来!

嘿,亲爱的朋友们!你们的超级助手阿星又来啦!最近听到不少小伙伴抱怨生信文章难发?别担心,别怕,我这有些小妙招,保管你听完眼前一亮,科研路上不再迷茫!今天给大家分享一篇机器学习结合多组学的文章,相信大家一定会有收获哦!这篇文章采用多组学结合机器学习筛选关键蛋白标志物,构建高准度外泌体相关机器学习诊断模型,实现结直肠癌非侵入性早期诊断。想知道更多精彩的宝子们,请看下文哦~

1、多维度分析研究结合机器学习单细胞测序等科研方法,从大量数据中提取关键特征并构建诊断模型,提高CRC诊断特异性和灵敏度

2、多方面验证通过单细胞分析ELISA检测对筛选出的蛋白质特征进行验证,确保研究结果可靠性和临床应用的可行性,为CRC的早期诊断提供了有力的证据支持

3、公开数据利用利用公开数据库高效整合丰富数据,不仅加速研究步伐,还确保结果可靠,强化了研究的科学论证,增强了结论的说服力。而且用别人的数据自己的文章,性价比简直不要太高哦!

PS:想拿生信论文高分却一头雾水?别急,找阿星就对了!扫个码,聊以聊,阿星懂高分论文那套,传你高分“秘籍”,复制粘贴成功模式,科研路上嗖嗖跑,高分轻松到手!  

题目:基于机器学习的分析可识别和验证血清外泌体蛋白质组学特征以诊断结直肠癌

杂志:Cell Rep Med

影响因子:IF=11.7

发表时间:2024年8

公众号回复“888”领取原文PDF,文献编号:240908

研究背景

结直肠癌(CRC)高发且早期症状隐匿,诊断晚期生存率低,急需非侵入性早期诊断方法。现有筛查手段如结肠镜检查和生物标志物检测存在局限。液体活检因其无创特性成为研究热点,其中外泌体(EV)非编码RNA和蛋白质具有诊断潜力。然而,蛋白质组学技术局限及标志物筛选挑战突出。本研究旨在利用先进蛋白质组学结合机器学习,挖掘血清EV中的关键蛋白质标志物,以开发高灵敏度和特异性的CRC早期诊断模型,提高临床检测效率。

数据来源

数据集/队列

数据库

数据类型

详细信息

GSE178341        

GEO

scRNA-seq数据

181例结直肠癌患者细胞样本

GSE132465

GEO

scRNA-seq数据

23例原发性结直肠癌和10例匹配的正常粘膜细胞样本

TCGA-CRC

TCGA

RNA-seq数据

结直肠癌患者样本

研究思路

本研究采用四维独立数据采集(4D-DIA)技术分析血清EV蛋白质组学,结合机器学习(ML)方法,挖掘并验证对结直肠癌(CRC)诊断有价值的蛋白质特征。通过ELISA检测进一步验证这些特征,旨在开发基于EV相关蛋白质特征的RF模型,以提高CRC早期诊断的准确性和灵敏度,为非侵入性CRC筛查提供新方法。

研究结果

1.通过机器学习筛选血清外泌体中的蛋白质组学生物标志物以诊断结直肠癌

首先利用4D-DIA蛋白质组学技术揭示了CRC与HC间显著的蛋白质表达差异(图1A、B)。通过VIPpred分析筛选出12种关键外泌体蛋白作为CRC诊断标志物(图1C)。随后发现在五种ML算法中,RF模型在分类精度、AUC及PRAUC上表现最优(图1D)。RF变量重要性分析指出PF4、AACT、KLDB、CP135和KV315最关键变量(图1E)。Lasso逻辑回归分析进一步确认PF4和AACT最具诊断价值的蛋白(图1F-H)。(图1I、J)验证PF4与AACT组合在RF模型中的卓越诊断效能,展现出高准确性和可靠性,为CRC的精准诊断提供了有力支持。    

图1 通过机器学习流程筛选外泌体衍生的生物标志物以诊断结直肠癌

2.开发和验证用于结直肠癌诊断的与外泌体相关的随机森林诊断模型

首先通过构建RF诊断模型,对比了外泌体蛋白PF4和AACT与常规CRC标志物CEA和CA19-9的诊断效能(图2A)显示,PF4与AACT组合获得了高达0.950的AUC值,显著优于CEA和CA19-9。PR曲线分析进一步确认了PF4和AACT在PRAUC上的优势,其组合模型PR AUC值高达0.969(图2B)。ALEs分析直观展示了PF4和AACT预测CRC上的显著效果,远超CEA和CA19-9(图2C)。Shapley值分析指出,高PF4和AACT水平是区分CRC与HC的关键因素(图2D)。最后,(图2E)重要性分析再次验证PF4和AACT在CRC诊断中的核心地位,与Shapley值结果相吻合。    

图2 与EV相关的用于CRC检测的RF诊断模型的构建与验证

3.外泌体来源的PF4和AACT的功能富集分析

首先对在CRC中的外泌体PF4进行GSEA分析,结果发现其在细胞分化、发育及跨膜运输通路富集,且与脂质定位、胆固醇外流负相关(图3A、B),TCGA数据支持此发现。通过EnrichmentMap分析,显示PF4低表达脂质、胆固醇稳态及外流等通路紧密相关(图3C)。然后构建了PF4核心基因(如APOA1、APOA2、APOE)PPI网络,暗示其相互作用(图3D)。(图3E、F)则表明外泌体AACT蛋白水解代谢负相关,在EnrichmentMap中进一步确认了此关系(图3G)。最后,PPI网络揭示了AACT可能与TGF-β1、ACTB及PTPRC相互作用,提示AACT在炎症、细胞骨架及蛋白质代谢中的潜在角色(图3H)。    

图3 外泌体(EV)来源的PF4和AACT的功能预测

4.破译释放外泌体(EV)来源PF4和AACT的特定细胞类型

研究采用单细胞分析确定外泌体(EVs)中PF4和AACT释放的细胞类型。(图4A)显示,在结直肠癌(CRC)正常组织对比中,CRC上皮细胞PF4显著升高。进一步指出,PF4在CRC的髓系、基质及T细胞中也有轻微上调(图4B、C)。随后重申了PF4在CRC上皮细胞中的高表达,同时基质、髓系和T细胞中有轻度增加(图4D-F)。针对AACT,GSE132465(图4B、C)与GSE132257(图4E、F)数据集均显示,CRC上皮细胞AACT表达显著高于正常。最后通过单细胞转录组数据验证,CRC上皮细胞PF4与AACT表达异常高,与邻近正常细胞相比具有显著差异(图4G、H),揭示了CRC特异的分子变化。    

图4 scRNA-seq分析显示CRC上皮细胞是EV衍生的PF4和AACT产生的主要来源    

文章小结

这篇文章采用4D-DIA分析血清EV蛋白质组,结合机器学习筛选关键蛋白,通过ELISA验证,旨在构建高准度EV相关RF模型,实现结直肠癌非侵入性早期诊断。这篇文章采用机器学习结合多组学的方法,不仅赶上了研究热点,还利用公开数据库,用他人数据发自己的高分文章,宝子们也可以学起来哦!创意匮乏的伙伴们,快来与阿星交流!获取专属科研秘籍,携手前行,科研之旅畅通无阻,挑战变机遇,让科研梦想闪耀舞台!



阿星有话说




生信星持续为大家带来最新生信思路,更多创新性分析思路请点击下方链接。想复现这种思路或者定制更多创新性思路欢迎直接call阿星,生信星团队竭诚为您的科研助力!



往期精选

8 September 2024



生信星
生信星提供专业生信分析服务,助您把握科研最新动态;思路设计、生信分析,就来找阿星~
 最新文章