Adv Sci丨李向涛团队使用双图对比学习为空间转录组学提供准确的空间异质性解析和基因调控解释

学术   2024-12-04 14:30   四川  

空间转录组学的最新进展使能够同时获取高通量基因表达谱和空间背景信息,从而能够高分辨率探索组织中不同的区域特征。为了有效地了解组织微环境中的潜在生物学机制,需要能够准确捕获外部空间异质性并从空间转录组学数据中解释内部基因调控的方法。然而,目前的区域鉴定方法往往缺乏空间结构和基因调控的同时表征,从而限制了空间解剖和基因解释的能力。

近日,吉林大学人工智能学院李向涛教授课题组在Advanced Science 杂志在线发表了题为Accurate Spatial Heterogeneity Dissection and Gene Regulation Interpretation for Spatial Transcriptomics using Dual Graph Contrastive Learning的研究工作。该研究为应对上述问题,提出了stDCL,这是一种双图对比学习方法,用于识别空间域并解释空间转录组学数据中的基因调控。stDCL 通过图嵌入自动编码器自适应地整合基因表达数据和空间信息,从而在潜在嵌入表示中保留关键信息。此外,提出了双图对比学习来训练模型,确保潜在嵌入表示与实际空间分布非常相似,并表现出集群相似性。


1. stDCL概述

stDCL 通过双图对比损失从空间信息和基因表达信息中学习低维潜在嵌入表示 (图1)。stDCL 的工作流程包括四个主要阶段:(1)构建基于转录组学概况的空间图,该图融合了来自空间转录组学(ST)数据的基因表达和空间数据;(2)使用图卷积自动编码器推导低维潜在表示;(3)通过空间感知对比学习使空间相邻点更近并分离非相邻点;(4)利用簇级特征对比学习,基于从读出函数得出的簇级表示来增强同源维度基因之间的相关性。

图1  stDCL整体框架

2. stDCL在空间转录组分析中准确识别空间异质性

为了评估 stDCL 的空间聚类性能,作者在来自脑组织的人类背外侧前额叶皮层(DLPFC)数据集上与八种最先进的方法(Seurat,SpaGCN,stLearn,BayesSpace,SEDR,CCST,STAGATE,和GraphST)进行比较。结果显示,stDCL在12个数据集中的8个数据集上都获得了最高的ARI分数,并且平均值(ARI = 0.61)和中位数(ARI = 0.61)都为最高,在评估方法中表现出最小的方差。总体而言,stDCL可以有效地识别DLPFC数据集中的皮层结构,在多个切片上具有稳定性和稳健性。

3. stDCL在复杂空间域和组织结构上提供更好的聚类性能

作者将stDCL应用于两个具有更复杂组织结构的数据集(小鼠前脑数据集和人类乳腺癌数据集),并将其与其他最先进的聚类方法进行比较。对于前脑数据集,只有stDCL成功地准确捕获了'CPu'结构域并完全识别了'St'结构域,而其他方法则产生了异常的组织结构或杂乱无章的斑点分布。对于乳腺癌数据集,对于区域'IDC 5'和'Healthy 1',只有stDCL清楚地将大部分 空间点捕获为一个集群,而其他方法则失败了。

4. stDCL的潜在嵌入表征聚合了可解释的空间表达信息

作者使用小鼠前脑数据集对stDCL的潜在嵌入表示进行了基因组可解释性分析。最初,stDCL根据手动注释确定了两个区域,即MOB::ONL和VL(图2)。然后,作者利用一种可解释的基因选择方法,该方法由 GNN 权重矩阵的标准差排名提供信息,从 stDCL的潜在嵌入表示中选择前1000 个表达最高的基因。对于嗅球(MOB)嗅神经层(ONL)MOB::ONL 区域,stDCL 和手动注释都发现了高表达基因 S100a5,而其他方法均失败。最近的研究还表明,S100a5 主要在嗅球和嗅觉感觉神经元(OSN)中表达,在嗅觉刺激下表达显著上调。为了进一步评估 stDCL 聚合和表征数据空间表达信息的能力,作者对这些邻域的基因表达数据进行平均,以产生去噪的基因表达矩阵,并发现通过潜在嵌入表示鉴定的可解释基因Igf2和S100a5的表达水平在各自的区域升高,并且它们的富集水平更高。这些实验结果表明,stDCL 的潜在嵌入表征可以揭示重要的可解释基因并聚合其空间表达信息,从而深入了解组织的分子结构和功能。

5. stDCL能够有效恢复基因表达和表征空间层次结构

为了评估通过原始空间信息重建层次结构的性能,作者将STAGATE、GraphST和stDCL应用于STARmap数据集来比较(图3)。结果表明stDCL的插补空间与原始空间的相关性明显更高,并且stDCL的插补空间保留了 L1-L6层之间的相对位置,即到L1层的距离从内到外逐渐增加。作者还评估了stDCL插补对去噪和增强差异基因表达结果的性能。具体来说,作者专注于四个层特异性差异基因,Pcp4(L6)、Rprm(L6)、Tmsb10(L5) 和Mapk3(L1),并比较了它们在原始表达矩阵和插补表达矩阵中的空间表达水平。stDCL的插补空间有效地保留了基因沿层轴的大部分表达模式,与在原始空间中观察到的模式非常相似。stDCL的插补不仅成功地重建了空间转录组学数据的层次结构,而且阐明和加强了层特异性差异基因的鉴定,以解开小鼠视觉皮层中的空间复杂性。

6. stDCL在单细胞分辨率下揭示大脑中的分子和空间异质性

为了评估stDCL是否可以探索分子和空间异质性,作者应用stDCL以单细胞分辨率分析来自小鼠大脑的空间转录组学数据。实验结果表明,stDCL的性能明显优于其他方法,并且识别出的空间域更接近真实注释。stDCL可以更有效地区分第4层和白质,并且发现第4层锥体神经元的标记基因Rolb 表现出预期的高表达。此外,还发现Flt1和Slc32a1等标记基因在各自的空间位置内按预期表达。这些发现共同强调了 stDCL 阐明分子和空间异质性的能力,进一步揭示了空间基因表达模式。stDCL推断的轨迹从白质投射到第4层,与由内而外的既定皮质发育模式一致,其中新神经元沿着放射状神经胶质纤维垂直迁移到皮质外围的边缘区域,在现有层的顶部形成新的皮层。

7. stDCL揭示了多个小鼠胚胎切片之间的生物学联系

作者对来自E9.5胚胎的四个不同的胚胎切片进行了广泛的聚类分析,探究了stDCL在这些胚胎切片上鉴定的簇之间的相关性。值得注意的是,stDCL 揭示了大脑内发现的区域与所有四个切片上脊髓内存在的区域之间存在一致的相关性(图5)。为了研究潜在的生物学意义,作者汇总了这些区域,用于整合区域内差异表达基因的KEGG通路分析,发现上调的差异表达基因都富集了轴突引导和Wnt信号通路。这一观察强调了它们在神经元发育的复杂过程中轴突导向和Wnt信号传导中的关键作用,特别是在形成连接 CNS 内大脑和脊髓的连合回路中的作用。作者通过对E10.5胚胎的切片进行类似的聚类和相关性分析来扩展研究,并发现该切片上的大脑和脊髓区域之间存在一致的相关性,并且相关区域的面积更大。这表明这个阶段的胚胎具有更密集的脊髓区域,对于在CNS内连接大脑和脊髓的连合回路的形成很重要。这些发现验证了stDCL能够揭示小鼠胚胎中大脑和脊髓之间的生物联系。

8. stDCL揭示了阿尔茨海默病的潜在调节机制

阿尔茨海默病(AD)是一种进行性神经退行性疾病,其特征是脑组织出现不同的病理,包括反应性星形胶质细胞变化。为了说明潜在的调节机制,作者将stDCL应用于STARmap PLUS数据集,其中包括AD和对照小鼠大脑(图6)。作者整合了stDCL鉴定的所有星形胶质细胞并进行了亚聚类分析,以获得三个不同的亚群Astro1、Astro2和Astro3。值得注意的是,Astro3在AD中的比例高于对照组,并且Astro3在AD中从8个月到13个月显着增加,表明AD进展中存在动态细胞反应。与其他星形胶质细胞亚型相比,Gfap、Vim、Cd9和Igfbp5在Astro3中显著上调,这与文献中报道的疾病相关星形胶质细胞(DAA)表型一致。为了进一步验证Astro3与DAA样细胞群的关联,作者使用来自sNuc-seq数据集的星形胶质细胞进行了多模态交叉分析(MIA),结果表明Astro3亚群与AD具有很强的相关性,证实了它与DAA 样群体的一致性,并表明随着病理进展,它在AD细胞内增殖。此外,作者还对三种星形胶质细胞亚型进行了伪时间轨迹推断,揭示了Astro1和Astro2,它们与疾病无关,代表星形胶质细胞的初始状态,并逐渐合并到DAA样亚型Astro3的分支中,这与疾病进展的趋势一致。

综上所述,stDCL是一种基于双图对比学习的通用方法,可以同时考虑基因表达和空间分布,共同分析不同区域的空间转录组学数据集。在复杂的空间结构中,stDCL展示了识别空间域、增强基因可解释性、恢复空间层次结构、阐明空间异质性、揭示发育模式和阐明疾病调控机制的能力。

原文链接:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202410081

制版人:十一


BioArt

Med

Plants

人才招聘

会议资讯



BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)




转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。


BioArtMED
BioArt姊妹号。关注医学最前沿,提高科学新认知,聚焦人类大健康。
 最新文章