单细胞强强联合人工神经网络,两大当红炸子鸡助力大连医科大学纯生信发Q1,这对科研CP我先磕了

文摘   2024-07-10 19:00   山东  

各位小伙伴们大家好,这里是准时给大家带来文献分享的船长~随着ChatGPT以前所未有的速度火出圈,曾经遥不可及的大模型也迅速走到了我们身边,并迅速成为科技圈的新宠,生物医药界也乘上了发展东风,但凡沾点大模型SCI是咔咔的发。

今天,硬核且专业的船长就给大家带来一篇单细胞联合人工神经网络的文章,先来介绍今天的主角——急性髓系白血病。骨髓就像农田,白细胞、红细胞和血小板如同小麦、水稻和玉米。如果种子有缺陷,农田会长出杂草,即白血病细胞,这些杂草会迅速繁殖,导致急性白血病。根据杂草的种类和数量,急性白血病分为急性髓细胞白血病和急性淋巴细胞白血病。其中,急性髓细胞白血病分为M0到M7几种类型。科普完毕,咱这就上车~

1、综合生物信息学分析:利用单细胞测序技术、WGCNA和hdWGCNA深入探究AML的细胞异质性,并通过CellChat工具分析细胞间通讯,为理解AML的免疫微环境提供了新的视角。

2、机器学习模型的开发与验证:设计并实施了中等规模的人工神经网络(ANN)模型,用于模拟AML患者的生存概率。采用系统化的超参数优化方法,提高了模型的预测准确性。并通过列线图和校准曲线验证了模型的临床应用潜力,进行了内外部验证,增强了模型的普适性和可靠性。        

综合来看,研究者运用多种生物信息学和统计学方法来提高对AML病理机制的理解,并开发出具有临床应用潜力的预后工具~ ps:这篇文章还是干货满满,工作量和逻辑都在线,编辑看了直点头。机器学习涉及的数据量较大,特别是调参的时候,笔记本可能都忙不过来啦。这个时候可以看看我们提供的服务器租赁服务!旨在解放你的精力,让你专注于科学研究。感兴趣的宝子欢迎后台戳戳船长哦~

定制生信分析

云服务器租赁

加好友备注“99”领取试用

后台回复321获取原文献,文献编号20240709

题目:揭示急性髓系白血病的线粒体和核糖体基因失调及肿瘤微环境动态变化

杂志:CANCER GENE THERAPY

影响因子:IF=4.8

发表时间:2024年05月

研究背景

急性髓系白血病(AML)的治疗面临诸多挑战,包括疾病的高异质性、当前治疗策略难以实现的完全缓解、免疫细胞数量和功能的降低、免疫细胞与白血病细胞之间的复杂相互作用、T细胞和B细胞的功能障碍、NK细胞的逃避和功能受损,以及如何将单细胞测序技术所揭示的高分辨率信息转化为临床上可行的个性化治疗方案。这些因素共同构成了AML治疗的临床困难,需要进一步的研究和创新以提高治疗效果和患者预后。

研究思路

作者通过深入分析急性髓系白血病(AML)的异质性和免疫微环境,利用单细胞测序技术捕捉细胞层面的复杂性,结合先进的生物信息学工具和机器学习算法来整合和分析数据,进而识别关键的细胞亚群和细胞间通讯模式,特别是对NK细胞的作用进行深入研究,最终构建并验证新的预后模型。

数据来源

数据集/队列

数据库

数据类型

详细信息

BEAT-AML

GEO

Bulk RNA seq

共380份样本

TCGA-LAML

TCGA

Bulk RNA seq

共140份样本

CSC

作者之前的研究数据

scRNA-seq

共19份样本

G20

作者之前的研究数据

scRNA-seq

共42份样本

主要结果

1.AML scRNA-seq 数据的再分析        

作者初步使用CSC队列数据测试了数据处理流程,使用scVI-tools进行数据整合,展现了良好的准确性和效率(图1A)。并利用scANVI对G20队列中的细胞进行参考映射,选择了基于3000个高度可变基因的特征。结果显示,AML患者中观察到的细胞类型与健康供体相似,但也存在一些细胞类型与健康供体细胞有显著差异(图1C和1D)。在没有SNV或CNV信息的情况下,研究采用了基于转录组景观变异性的策略来区分正常和白血病细胞群体,该策略在CSC队列数据集上表现出满意的准确性(图1E)。scVI-tools在整合数据以消除批次效应的同时,保留了生物学变异(图1F)。最后基于细胞聚类中正常细胞的比例,将细胞聚类分类为健康白血病(图1G)。

    

图1 重新分析来自CSC和G20队列的scRNA-seq数据

2.hdWGCNA对髓系细胞群的影响

作者使用WGCNA分析CSC队列数据,识别了19个模块(图2A)。M1和M8模块之间观察到相关性(图2B)。MCT-M1和MCT-M8在AML患者的所有髓系细胞类型中显著上调(图2C)。其中MCT-M1包含大量参与线粒体能量产生的基因。

在HSCs & MPPs群体上应用hdWGCNA,定义了16个模块(图2D)。PROG-M14与抗原处理和呈递外源肽抗原相关。PROG-M1主要与细胞质翻译和内源肽抗原处理呈递相关。PROG-M11包含多个与线粒体相关的基因,涉及线粒体翻译和基因表达,以及线粒体呼吸链复合体。PROG-M1和M11显示出高度正相关(图2E),表明细胞质翻译和线粒体翻译过程可能以协调的方式进行调控。

作者发现恶性HSCs & MPPs与PROG-M1、M11、M12和M3中的基因高度正相关(图2F)。NPM1突变状态可能影响核糖体生物发生相关基因的表达模式。PROG-M1与NPM1突变状态呈弱正相关,而PROG-M8和M11与NPM1突变状态呈负相关(图2F)。同时,PROG-M8和M11的表达在具有NPM1突变的HSCs & MPPs中似乎表达水平较低(图2G)。

     

图2 WGCNA对多种细胞类型和造血干细胞及造血干细胞群中的hdWGCNA的影响

3.hdWGCNA对NK细胞的影响

作者利用hdWGCNA技术对CSC队列中自然杀伤(NK)细胞的基因表达进行了分析。在NK细胞中共识别出10个基因表达模块,其中NK-M1与抗原通过MHC-I的处理和呈递相关,而NK-M4与RNA PolIII的正向转录调控和有丝分裂过程相关(图3A)。NK-M5和NK-M7模块富含与基因表达和细胞质翻译相关的基因。NK-M1和M4模块可能存在正向共表达关系(图3B)。在AML患者来源的NK细胞中,NK-M1、M4和M5模块表达上调(图3C)。        

CD56brightCD16− NK细胞中,NK-M1、M2、M4、M5、M6和M9模块与AML患者样本正相关,并且这些模块也与携带NPM1突变的患者正相关(图3E)。

在CD56dimCD16+ NK细胞中,除了NK-M1、M2、M4、M5和M9,NK-M7模块也与AML患者正相关,并且M1至M4、M6和M9NPM1突变状态正相关(图3F)。

NK-M1、M4、M5、M9、M8和M2模块在与CD56dimCD16+ NK细胞相关的患者中上调(图3G)。

NK-M1、M5、M4和M9模块在CD56brightCD16− NK细胞中的基因表达变化幅度更高,这可能与AML中CD56dimCD16+ NK细胞数量和功能的降低有关(图3D和3G)。

    

图3 使用hdWGCNA对CSC细胞群中的NK细胞进行分析

4.使用 CellChat 对造血干细胞队列进行细胞间通讯分析

作者使用CellChat工具对CSC队列中AML患者的细胞间通讯进行了分析。发现MHC-I信号与CD8+ T细胞密切相关,在AML患者自分泌信号显著增强,特别是对于某些类型的B细胞和T细胞(图4A, B)。HLA-E-KLRK1(NKG2D)配体-受体对预测的受体包括两种NK细胞和CD8+细胞群,这可能与NK细胞的抗肿瘤反应有关(图4C)。HLA-E-CD94:NKG2A信号在NK细胞和其他细胞类型之间存在,可能与免疫耐受有关(图4F)。TGF-信号通路在AML患者中靶向CD56dimCD16+ NK细胞,通过自分泌旁分泌途径发挥作用(图4G)。MIF信号通路在免疫和非免疫细胞中普遍存在,在AML患者样本中整体信号强度显著上调,MIF-CD74:CD44配体-受体对主要靶向树突细胞、HSCs & MPPs和早幼粒细胞(图4H)。        

图4 使用CellChat从CSC队列中识别急性髓细胞性白血病患者的相互作用模式转变

5.预后模型的建立与验证

作者基于NK细胞和白血病干细胞特征构建和验证预后模型,首先从高表达NKG2A的免疫抑制性NK细胞和白血病HSCs & MPPs中选取了共有的347个上调基因。这些基因通过单因素Cox分析筛选,发现其中30个基因与BEAT-AML队列患者的预后显著相关。将筛选的基因重新输入逐步回归分析(图5A),最终确定FAM207A、IFITM3、SNHG6、CDC42、PSMB8、TSPAN2、SNHG14、TMEM41B、GSTP1和TSTA3等11个基因纳入模型。        

在BEAT-AML队列(内部验证)和TCGA-LAML队列(外部验证)中,根据3年生存ROC曲线分析得到的风险评分截断值,将患者分为高风险或低风险组(图5B)。BEAT-AML 队列中风险评分较低的患者较多,而 TCGA 队列中风险评分较高的患者比例较大(图5C和E)。用PCA对两个队列进行降维处理表明,按风险评分分层的样本得到很好的分离(图5D和F)。Kaplan-Meier生存分析显示,高风险评分组的患者生存概率较低(图5G, I)。BEAT-AML队列1年、2年和3年总生存预测的AUC值分别为0.75、0.76和0.77(图5H),TCGA-LAML队列分别为0.78、0.78和0.74(图5J)。

       

图5 预后模型的内部和外部验证

6.ANN预测模型的构建与验证

作者使用多种基于机器学习的工具,尤其是人工神经网络(ANN),来进行二元分类或模拟连续时间至事件分布(图6)。使用BEAT-AML队列数据,通过"mlr3tuning"包调优超参数,并通过"mlr3benchmark"对模型进行基准测试,Logistic-Hazard、Cox-Time和PC-Hazard模型展现出最高的C-index值(图6B)。C指数用于评估模型在BEAT-AML队列(训练集)和TCGA-LAML队列(外部验证集)上的表现(图6C)。作者随后对模型性能进行评估,Logistic-HazardPC-Hazard模型在两个队列中表现满意,而Cox-Time模型表现不佳(图6D、E)。尽管Logistic-Hazard模型在基准分析中排名第一,但PC-Hazard模型在C-index和AUC值上表现更优(图6C、图6H)。        

单因素(图7A)和多因素(图7B)Cox回归分析表明,正常Cox模型和PC-Hazard模型的风险评分是独立的预后因素。随后基于PC-Hazard模型和正常Cox比例风险模型开发了列线图,用于1年、2年和3年死亡概率的预测(图7C)。校准曲线显示预测生存概率与实际生存概率之间有良好的一致性(图7D)。决策曲线分析(DCA)显示,基于PC-Hazard和正常Cox模型的列线图提供了比单独基于单个预后因素的模型更高的净收益(图7E–G)。

图6 ANN预测模型的构建与验证

       

图7 PC风险模型列线图的构建与验证

文章小结

这篇文章通过结合单细胞测序技术和机器学习工具,深入分析了AML细胞的异质性和细胞间通讯,构建并验证了基于人工神经网络的预后模型。研究者首先利用WGCNA和hdWGCNA识别关键基因模块,然后通过CellChat工具分析细胞间通讯的变化。在模型构建阶段,使用"mlr3tuning"对超参数进行调优,并通过基准测试确定最佳模型。最终,通过C指数、ROC分析、时间依赖ROC曲线和列线图验证了模型的预测准确性和临床应用潜力,同时使用多变量Cox回归分析确认了风险评分作为独立预后因素的有效性。        

船长持续给大家带来最新的文献分析和生信思路~如果你也对机器学习、铁死亡、孟德尔随机化感兴趣,或是有进一步需求的小伙伴,欢迎来后台滴滴船长哦,还有一大波可复现生信思路等着你~~

船长寄语


船长可以为您提供以下服务哦:评估思路(免费)、生信分析、方案设计、服务器租赁、特色数据库搭建等!欢迎大家扫码咨询,有问必答!

生信分析

思路设计

服务器租赁

扫码咨询船长

往期推荐



1、这也太city了吧!北京大学詹思延教授团队整合蛋白质组+转录组+孟德尔随机化,纯生信拿下1区10分+!这个框架大有搞头!
2、【NC】经费足直接冲:复旦大学郁金泰等团队:全外显子组关联分析(UKB可申请数据)+孟德尔随机化一举拿下14.7分!
3、可复现性极强的nature子刊思路!泛凋亡+机器学习果然是生信统治区~
4、先天科研圣体!西南医科大学这篇数据挖掘+机器学习+单细胞,超经典数据挖掘套路SCI拿到手软!

         

 

   

生信海
怕错过生信热点?来生信海,船长日更不落伍!船长擅长思路设计、个性化生信分析、高分文献复现、特色数据库搭建等,欢迎来撩~
 最新文章