罗元团队开发深度学习模型STdGCN解析空间转录组细胞类型组分 | Genome Biology

学术   2024-08-20 18:10   北京  

作者:李亚威(Yawei Li,第一作者),罗元(Yuan Luo,通讯作者)


美国西北大学费恩伯格医学院预防医学系 (Department of Preventive Medicine, Feinberg School of Medicine, Northwestern University, Chicago, IL 60611, USA)。



空间转录组学(Spatial Transcriptomics)技术的发展提升了我们对组织内部空间组织和基因表达异质性的理解。它在保持组织空间背景的同时测量转录组,为疾病病理学研究提供了重要见解然而,这项技术仍存在一些局限性。例如,一些空间转录组学技术由于受到空间分辨率的限制,无法精确到每个测序位点的单个细胞。因此,需要算法来评估每个测序位点的细胞类型比例。虽然近年来已经发表了一些统计学模型或机器学习模型来尝试解决这一问题,但这些方法通常不考虑空间转录组数据中测序位点之间的空间相邻关系,而只是独立预测每个点的细胞类型比例,从而丢失了一些信息,影响模型的准确性。


近日,美国西北大学的李亚威博士和罗元教授在《Genome Biology》发表了一篇题为“STdGCN: spatial transcriptomic cell-type deconvolution using graph convolutional networks”的论文,解析了空间转录组学中的细胞类型组成。该模型基于深度学习的图卷积网络(Graph Convolutional Networks, GCN),能够同时整合来自单细胞RNA测序(scRNA-seq)数据的表达谱和来自空间转录组数据的空间定位信息,进行细胞类型解卷积(deconvolution),从而预测空间转录组数据中的细胞类型比例。


STdGCN 的初始步骤包括识别细胞类型标记基因(marker gene),并使用 scRNA-seq 数据生成大量模拟的空间转录组测序位点(pseudo-spots)(图A)。随后,利用真实测序位点(real-spots)和模拟伪空间位点的表达图谱,构建了一个RNA表达邻接矩阵图(adjacency matrix graph)和基于空间转录组中真实空间点之间的欧几里得距离信息构建的空间邻接矩阵图(图B~C)。在 STdGCN 的训练过程中,输入特征矩阵分别通过表达图卷积网络层和空间图卷积网络层进行前向传播。然后将两个图卷积网络层的输出拼接成一个矩阵,并输入到全连接层(fully-connected layers)中。为了训练模型,将伪空间点划分为训练数据集和验证数据集。只有训练数据集中的伪空间点用于反向传播,而验证数据集则用于筛选最优模型参数。通过这种方法,真实空间点的细胞类型比例也可以随着伪空间点的训练得到学习和更新(图D)。


为了评估STdGCN的性能,作者将其与17种已发表的模型进行了基准测试。在四个基于真实单细胞精度的空间转录组数据集中,STdGCN的表现均优于这些基准模型,突显了STdGCN的优越性。特别是在一个人类发育中的心脏空间转录组数据集中,STdGCN是少数能够分辨出心室肌细胞(ventricular cardiomyocytes)和Myoz2富集心肌细胞(Myoz2-enriched cardiomyocytes)的方法。在一个人类乳腺癌Visium数据集中,STdGCN通过细胞类型分布描绘了基质(stroma)、淋巴细胞(lymphocytes)和癌细胞(cancer cells)之间的联系,这有助于研究人员进一步了解肿瘤微环境。


综上所述,STdGCN是解开复杂组织环境中细胞组成与空间组织之间复杂关系的强大工具。该工具在推进我们对空间转录组学的理解及其对各种生物过程和疾病状态的影响方面具有巨大的潜力。




李亚威

Yawei Li,第一作者



罗元

Yuan Luo,通讯作者

罗元博士现任西北大学费恩伯格医学院(Northwestern University, Feinberg School of Medicine)教授,首席人工智能研究员 (Chief AI Officer)。其实验室主要研究多模态机器学习、深度学习、视觉/图像处理、自然语言处理和多组学在生物医学和临床的应用,同时探索人工智能在社会、经济和文化方面的影响。近期,实验室的工作集中在利用多模态机器学习(包括深度学习)模型,更好地理解复杂疾病、指导针对性治疗、改善患者结果以及减少医疗保健中的偏见和差异。这些工作的共同主题是通过探索每种数据模态中的关系信息,构建能够提高预测准确性和可解释性的人工智能/机器学习模型。


Genome Biology

doi:10.1186/s13059-024-03353-0


2023 Journal Metrics

Citation Impact


2023 IF:10.1

2023 下载量:6,688,476

Altmetric 提及:12,515

投稿到初审意见:22天(中值)

基因和遗传学 | JCR Q1


BMC旗舰刊Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象,研究生物学和生物医学各个领域的重大研究突破。

点击“阅读原文”阅读英文原文

STdGCN: spatial transcriptomic cell-type deconvolution using graph convolutional networks

BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、MicrobiomeBMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。

点个“在看”,下次更新不错过⇣⇣

BMC科研永不止步
Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。 定期更新期刊资讯、论文解析、投稿建议等实用信息。
 最新文章