生信界“万金油”!上海海洋大学:MR联手单细胞+机器学习,小小1区轻松拿下

文摘   2024-07-23 10:00   上海  


各位宝子们大家好,船长又来给大家分享文献啦。今天咱来看点孟德尔随机化。孟德尔随机化最近实在是太火了,想不关注都不行,啥病都能用,简直“万金油”。为了给大家码住可以发高分的MR新思路,船长是“博览群书,孜孜不倦”,虽然它分数不高(IF6.1),但性价比足呀。本文逻辑严密、思路清晰,提醒大家告别繁琐实验,纯生信也能冲高分~让我们一起来看看一篇优秀的MR是怎么练成的:

1、机器学习与单细胞测序:利用多个独立队列的基因表达数据进行综合分析,并使用多种机器学习算法(如随机森林和逐步回归)构建了预测急性心肌梗死(AMI)的模型,通过单细胞RNA测序深入解析了AMI中中性粒细胞的动态变化

2、统计分析与实验验证:采用贝叶斯网络分析构建了基因调控网络,运用孟德尔随机化方法探索了基因表达与AMI之间的因果关系,结合药物靶点预测和分子对接技术,发现了针对NPCDS的潜在治疗药物,最后通过Mdm2基因敲除小鼠模型的体内实验,验证了NPCDS在调控中性粒细胞凋亡和活化中的作用。ps:这篇文章生信含量极高,非常推荐生信小白阅读。而且这篇文章用到的十个数据集全部来自公共数据库,大数据时代,科研人拿公开数据,发自己的文章!数据挖掘就应当提上日程,想感受手握大把数据的朋友,速速扫码联系船长吧!船长这里有超值的个性化方案设计生信分析服务,小小SCI手拿把掐! 

题目:利用中性粒细胞衍生的 PCD 特征预测急性心肌梗死患者并对其进行分层:从人工智能预测到生物学解释

杂志:Journal of Translational Medicine

影响因子:IF=6.1

发表时间:2024年06月

后台回复321获取原文献,文献编号20240723


研究背景

急性心肌梗死(AMI)的诊断和治疗中存在许多挑战,特别是在现有生物标志物如心脏肌钙蛋白(cTn)的特异性不足,以及传统心电图(ECG)在诊断AMI时的敏感性和特异性较低。尽管cTn是诊断AMI的金标准,但其在非AMI条件下也可能升高,限制了其特异性。此外,中性粒细胞在AMI中的早期反应和其通过程序性细胞死亡(PCD)机制的调控尚未充分理解。    

研究思路

本文通过综合机器学习、单细胞转录组学和分子对接等方法,探索了急性心肌梗死(AMI)中中性粒细胞衍生的程序性细胞死亡(PCD)基因作为新型生物标志物的潜力。首先从外周血的基因表达数据中筛选并构建了一个基于中性粒细胞相关PCD基因的预测模型(NPCDS),并通过多独立队列验证其预测性能。进一步,利用非负矩阵分解技术将AMI患者分为不同的分子亚型,并结合单细胞转录组学分析揭示了中性粒细胞在AMI进展中的动态变化和异质性。此外,通过贝叶斯网络分析和孟德尔随机化研究,阐明了NPCDS基因在AMI中的生物学机制和药物靶点潜力,最终开发了一个结合临床信息的列线图模型,为AMI的诊断、风险评估和个体化治疗提供了新的思路和工具。下面为研究流程图:

   

数据来源

数据集/队列

数据库

数据类型

详细信息

GSE123342

GEO

微阵列

65份AMI样本,22份对照,训练集

GSE29532

GEO

微阵列

8份AMI样本,6份对照,测试集

GSE60993

GEO

微阵列

17份AMI样本,7份对照,测试集

GSE61144

GEO

微阵列

7份AMI样本,10份对照,测试集

GSE97320

GEO

微阵列

3份AMI样本,3份对照,测试集

GSE48060

GEO

微阵列

31份AMI样本,21份对照,外部验证

GSE194388

GEO

RNA-seq

10份AMI样本,5份对照,外部验证

GSE34198

GEO

微阵列

49份AMI样本,48份对照,外部验证

GSE163465

GEO

ScRNA-seq

3份AMI样本,1份对照

GSE151571

GEO

微阵列

5份AMI样本,3份对照,体内实验

主要结果  

1.通过综合筛选鉴定25个关键的中性粒细胞相关PCD基因

从1554个与17种PCD模式相关的基因开始,通过单样本基因集富集分析(ssGSEA)和SOM聚类,筛选出与AMI相关的基因(图2A-C)。在AMI和对照组之间识别出435个DEGs,包括388个上调和47个下调基因(图2D)。之后计算了PCD模式相关基因与中性粒细胞相关基因之间的皮尔逊相关系数,筛选出801个与中性粒细胞相关的PCD基因(图2E)。通过交集分析,从SOM聚类、AMI上调基因和与中性粒细胞相关的PCD基因中,确定了58个重叠基因(图2F)。接着使用Boruta算法进一步筛选,最终确定了25个与AMI更相关的基因(图2G-H)。最终展示了这25个基因在AMI中的上调表达,并进行了疾病本体(DO)、基因本体(GO)和京都基因与基因组百科全书(KEGG)的富集分析,揭示了这些基因与AMI相关的生物学过程和途径(图2I-J)。    

   

图2 鉴定嗜中性粒细胞相关的 PCD 基因以构建 NPCDS。    

2.基于 ML 的综合框架生成的中性粒细胞相关 PCD 特征

研究者从五个独立队列中筛选出20个与中性粒细胞相关的PCD基因(图3A)。并使用12种机器学习算法的113种模型组合,最终确定随机森林(RF)和逐步回归(Stepglm)的组合为最优模型,平均AUC得分为0.94(图3B)。RF算法选出9个关键基因(MDM2, PTK2B, MYH9, IVNS1ABP, MAPK14, GNS, MYD88, TLR2, CFLAR),并利用Stepglm算法构建回归模型(图3C-D)。NPCDS在训练和测试队列中表现出高准确度、敏感度、特异性和F1分数,证明其在区分AMI和对照组中的诊断性能(图3E-F)。而在AMI进展过程中,NPCDS的表达模式显示出早期阶段的关键作用,特别是在AMI后30天和一年后的病例中,NPCDS基因表达下调(图3G-H)。    

图3 基于ML的集成框架开发了具有诊断意义的中性粒细胞相关PCD特征

3.NPCDS与已发表基因表达特征的比较

研究者从文献中筛选出63个AMI预测特征,最终保留41个与独立队列基因匹配度高的特征。在所有队列和元队列中估算并比较了每个特征的AUC得分(图4)。在多数队列中,NPCDS的AUC得分排名第一,显示出卓越的预测性能。    

在GSE60993队列中,NPCDS排名第十九,但在其他队列中表现优异。在GSE48060和GSE194388两个外部验证队列中,NPCDS的预测表现依然强劲,分别排名第一和第二。尽管某些特征(如特征10)在特定队列中表现良好,但在其他队列中表现不佳,显示出泛化能力不足。

图4 NPCDS与已发表基因表达特征的比较

4.NPCDS 的稳健预测性能和开发结合临床特征的列线图

研究者在包含48个对照和49个AMI病例的GSE34198队列中验证了NPCDS,显示出其强大的预测性能(图5B)。之后将GSE34198队列随机分为训练和测试队列,比例为6:4(图5A)。结合临床特征和NPCDS,构建了一个基于逻辑回归的列线图,用于预测AMI(图5C)。列线图在训练队列中的诊断能力优于单独使用NPCDS(AUC = 0.804 vs. AUC = 0.720)(图5D-E)。列线图预测的概率与实际概率在训练和测试队列中一致,表明预测准确(图5F-G)。随后,通过决策曲线分析(DCA)评估,列线图在高风险阈值范围内显示出比“无”和“全部”基线更高的净收益,表明其在临床决策中的潜在价值(图5H-I)。    

图5 NPCDS的外部验证和开发包含临床信息的列线图

5.利用NPCDS上的NMF聚类建立了两种分子亚型

研究者通过NMF聚类技术在三个数据集(GSE123342、GSE60993、GSE34198)上识别出两个分子亚型(图6A-C)。并生成共识热图(图6D-F)和三维PCA图(图6G-I),验证了聚类结果的稳定性和两个亚型之间的差异。接着通过ssGSEA分析了NPCDS相关的PCD模式和中性粒细胞过程在两个亚型中的富集情况(图6J)。发现亚型1在NETosis、中性粒细胞、中性粒细胞脱颗粒和中性粒细胞外渗的基因集富集中显著更高(图6K-M)。而GSEA分析显示亚型1中NETosis、中性粒细胞和中性粒细胞脱颗粒的正相关性显著(图6N-P)。所以研究者推测亚型1中的AMI患者可能具有更高的中性粒细胞浸润和活跃的NETosis及中性粒细胞脱颗粒活动,这可能与较差的临床预后相关(图6Q)。    

图6 利用NPCDS上的NMF算法构建AMI分子亚型

6.ScRNA-seq分析揭示了中性粒细胞转化过程中NPCDS的不同动态模式

研究者使用了GSE163465数据集,该数据集包含在AMI模型建立后不同时间点(0, 3, 7, 14天)从小鼠心脏分离的Cd45+细胞。经过质量修剪和过滤,共获得17,384个高质量表达Cd45的细胞。通过无监督聚类和t-SNE降维,识别出六个细胞簇,并利用已知的心脏免疫细胞标记基因进行注释(图7A-B)。之后观察到AMI进展过程中,中性粒细胞在第3天显著增加,而在第14天后显著减少(图7C)。研究者定义了两个中性粒细胞亚群(N1和N2),N1亚群在AMI后第3天显著增加,而N2亚群在第7天增加(图7D-E)。N1亚群显著表达Myd88和Myh9,而N2亚群显著上调Cflar和Mdm2(图7F)。随后使用AUCell算法评估NPCDS、NETosis和中性粒细胞脱颗粒在中性粒细胞亚群中的富集情况,发现凋亡特征在N2亚群中显著富集,而NETosis和中性粒细胞脱颗粒在N1亚群中显著富集(图7G-I)。    

接着,研究者推断了中性粒细胞的分化轨迹,N2主要出现在轨迹的末端,表明从N1到N2的转变(图8A-B)。通过聚类分析,发现NPCDS在中性粒细胞转化过程中表现出不同的动力学模式,其中Mapk14、Myd88、Myh9、Ptk2b和Tlr2在N1亚群中早期表达,而Gns、Mdm2和Cflar在N2亚群中晚期表达(图8C)。随即进行了GO和KEGG富集分析,揭示了从N1到N2转变的分子程序,涉及白细胞激活、迁移、氧化磷酸化、蛋白质翻译以及凋亡相关过程(图8C)。

   

图7 以单细胞分辨率研究 AMI 进展过程中 NPCDS 的表达模式

图8 AMI进展中中性粒细胞的多样性和动态揭示了NPCDS在中性粒细胞转变中的表达动力学

7.网络推断揭示了 AMI 中 NPCDS 的生物学机制

研究者利用贝叶斯网络分析构建了包含NPCDS及其交互基因的基因调控网络(图9A)。发现TLR2与MAPK14和MYD88存在显著相互作用,与NETosis和凋亡的已知机制一致。MDM2和CFLAR在凋亡过程中的相互作用,MDM2调节TP53,TP53进一步作用于CASP8。GNS对MDM2和MYD88的调节作用表明,GNS可能通过促进凋亡来扩展其在溶酶体之外的功能。

通过结合单细胞RNA测序(scRNA-seq)分析,推测了NPCDS在AMI中性粒细胞转化过程中的生物学机制(图9B)。最后,研究者认为NPCDS调控的通路可能代表了从N1到N2亚型转化的分子程序,影响AMI的进展。    

图9 KEGG数据库和贝叶斯推理的结合揭示了AMI中NPCDS主导的分子特征

8.MDM2对AMI的因果关系和药物敏感性

研究者利用两样本孟德尔随机化(MR)分析,评估了MDM2基因表达与AMI风险之间的因果关系(图10A)。选择了八个显著的SNPs作为分析工具变量,其中rs2279744是MDM2基因座的关键SNP(图10B-C)。MR分析显示MDM2基因表达与AMI风险正相关,表明MDM2基因表达增加可能提高AMI风险(图10D-F)。通过Enrichr数据库预测了可能针对MDM2的小分子药物,选择了利多卡因、异甘草素和千金藤素作为候选药物(图10G-I)。随后使用AutoVina软件对选定药物与MDM2进行分子对接,并通过PyMOL软件可视化了药物与MDM2的结合模式,证实了MDM2的药物靶点潜力(图10J-L)。    

图10 通过孟德尔随机化和计算机模拟分析,MDM2 被认为是AMI的前瞻性靶标

文章小结

本文采用了包括基因筛选、机器学习建模、功能富集分析、单细胞RNA测序、基因调控网络构建、孟德尔随机化分析、药物靶点预测、分子对接以及体内实验等一系列技术方法,全面探究急性心肌梗死(AMI)中的分子机制,并开发了基于中性粒细胞程序性细胞死亡签名(NPCDS)的诊断和治疗策略。如果你也想为你的研究增加深度和广度,如果你也对单细胞测序、孟德尔随机化和机器学习感兴趣,或是有进一步需求的小伙伴,欢迎来后台滴滴船长哦,这里有一大波高分文章套路可复现!    

船长寄语


船长可以为您提供以下服务哦:评估思路(免费)、生信分析、方案设计、服务器租赁、特色数据库搭建等!欢迎大家扫码咨询,有问必答!

生信分析

思路设计

服务器租赁

扫码咨询船长

往期推荐



1、来稿就收的新“四大水刊”之一,我真的心动了!这篇纯生信文章一个月就接收了你敢信
2、可是导师,人生是旷野!仅凭单细胞转录组拿下14.7分的Nature Communications什么水平!
3、一招鲜,吃遍天!10种机器学习算法+101种组合出手即二区,这个屡试不爽的套路你掌握了吗!
4、先天科研圣体!西南医科大学这篇数据挖掘+机器学习+单细胞,超经典数据挖掘套路SCI拿到手软!         

 

    

生信海
怕错过生信热点?来生信海,船长日更不落伍!船长擅长思路设计、个性化生信分析、高分文献复现、特色数据库搭建等,欢迎来撩~
 最新文章