摘要:
近年来高速发展的空间转录组技术使人们对转录组的研究更为深入,利用该技术可以在组织原位同时获得基因表达特征和空间分布信息,进一步推进了对组织原位细胞真实基因表达的研究。获得这些数据的具有生物学意义的低维表示对于下游分析至关重要。该研究提出了一个用于空间转录组学分析和揭示空间模式的框架(STAMP),该模型可以返回生物学相关的低维空间主题和相关的基因模块。在肺癌样本中,STAMP以比原始注释更高的分辨率描绘了支持标记的细胞状态,并准确识别了集中在肿瘤边缘外部的癌症相关成纤维细胞。在小鼠胚胎发育的时间序列数据中,STAMP揭示了肝脏内的红髓造血和肝细胞发育轨迹。此外,STAMP性能十分强大可以处理超过500,000个单元。
介绍:
空间转录组学是一种强大的实验技术,它通过保留基因表达数据的空间信息为研究组织结构和功能提供了新的视角。这项技术能够揭示基因表达在不同组织区域内的表达,对于理解复杂的生物学过程至关重要。然而,空间转录组数据的高维度和对空间信息的整合需求,给数据分析带来了挑战。传统的降维方法,如主成分分析和非负矩阵分解,虽然在单细胞分析中广泛使用,但它们通常缺乏对空间信息的考虑,这限制了它们在空间转录组数据上的应用。
为了克服这些限制,研究人员开发了专门的空间转录组分析方法,这些方法通常采用复杂的模型,如图神经网络,以整合空间信息。尽管这些方法在处理空间数据方面表现出了灵活性,但它们返回的嵌入通常需要额外的聚类和差异表达分析来解释,这增加了分析的复杂性。此外,这些方法在计算上可能成本较高,且在生物学上可能不够直观。
针对这些挑战,文章介绍了一种名为STAMP的新方法,它结合了深度生成模型和主题建模,以实现可解释的空间感知降维。STAMP利用简化的图卷积网络来整合空间信息,并且通过使用结构化的稀疏先验,促进了基因模块的可解释性和稳健性。这种方法不仅能够处理来自不同技术的数据,还能够分析单一切面、多切面以及时间序列数据,返回与已知生物学领域相匹配的主题和相关基因模块。在实际应用中,STAMP在肺癌样本和小鼠胚胎发育的时间序列数据中,展现了其在高分辨率下描绘细胞状态和发育轨迹的能力。此外,STAMP的可扩展性使其能够处理大规模的数据集,这对于应对日益增长的空间转录组数据集至关重要。总的来说,STAMP提供了一种强大的工具,可以对空间转录组数据进行深入的分析。
STAMP的工作流程
在初步处理阶段,STAMP运用其核心的深度生成模型,对高维数据进行降维,提取出低维的空间topics,这些topics在后续的分析中将发挥关键作用。在降维过程中,STAMP特别强调了空间信息的整合。通过使用简化的图卷积网络(SGCN)捕捉细胞间的局部空间联系,并将这些空间模式融入到降维后的topics中。STAMP的输出的空间topics与基因模块的紧密关联。每个topics都与一组特定的基因相关联,这些基因在形成该topics中起到了关键作用。通过引入结构化稀疏性,STAMP进一步确保了基因模块的清晰度和可解释性,使得每个基因只参与到与之密切相关的topics中。整个STAMP模型采用端到端训练策略,使用变分推断来最大化证据下界(ELBO),从而学习模型参数。除了单样本分析,STAMP还具备处理多样本数据的能力。通过引入批次校正项,STAMP能够处理不同样本间的变异,这对于跨不同实验条件或技术平台的数据整合尤为重要。此外,STAMP还能够处理时间序列数据,通过允许基因模块在不同时间点上变化,捕捉细胞状态的动态变化。最终,STAMP的输出为每个细胞提供了topics比例和基因模块得分,这些输出可以直接用于后续的分析,如聚类、差异表达分析或更深入的生物学解释。通过这种方式,STAMP不仅提供了一种强大的工具来分析空间转录组数据,也揭示了细胞如何在空间中组织和相互作用,为生物学研究提供了新的视角。
结果:
研究人员通过应用STAMP方法深入分析了小鼠海马体的空间域、肺癌相关成纤维细胞(CAFs)的topics、以及不同技术获取的数据集,甚至还扩展到了小鼠胚胎发育的时间序列数据。STAMP在小鼠海马体数据中的应用揭示了其在解析精细空间结构方面的强大能力。与传统方法相比,STAMP能够更准确地识别出海马体内部不同区域的基因表达模式,包括CA1、CA2、CA3、齿状回等关键区域。这种高分辨率的解析能力得益于STAMP在模型中整合了空间信息,并采用了结构化稀疏性来增强基因模块的解释性。这些基因模块不仅与已知的解剖区域相吻合,而且还能够对应到特定的生物学功能和细胞类型。
在肺癌相关成纤维细胞(CAFs)的研究中,STAMP进一步展现了其在复杂肿瘤微环境中的分析能力。STAMP不仅能够识别出CAFs的空间分布,而且还揭示了这些细胞在肿瘤边缘的特定富集模式。通过分析与CAFs相关的基因模块,研究人员发现这些细胞在肿瘤微环境中可能发挥着促炎和促进肿瘤进展的作用。这些发现为理解CAFs在肿瘤发展中的角色提供了新的见解。此外,在处理来自不同技术平台的数据时,STAMP展现了出色的数据整合能力。研究人员使用STAMP分析了小鼠大脑前后部分的数据,这些数据来自不同的实验平台。STAMP不仅能够识别出跨样本的共同topics,而且还能够对齐不同样本的空间结构。
在小鼠胚胎发育的时间序列数据中,STAMP的应用揭示了其在解析动态生物学过程中的潜力。STAMP能够追踪不同组织和器官的发育轨迹,包括肝脏、心脏、皮肤等。通过分析这些空间-时间topics,研究人员能够观察到胚胎发育过程中的连续变化,例如肌肉的发展和血液生成的转变。
综上所述,这些部分的研究结果共同证明了STAMP在空间转录组数据分析中的广泛适用性和强大能力。无论是在解析精细的大脑结构、揭示肿瘤微环境中的细胞动态,还是在整合跨平台数据和追踪胚胎发育过程中,STAMP都展现了其在提供深入生物学见解方面的潜力。
结论
本文介绍了STAMP:一种创新的空间转录组数据分析方法,它通过深度生成模型结合图卷积网络,有效地整合了基因表达数据和空间信息。研究结果表明,STAMP在多个数据集上表现出色,能够以高分辨率揭示细胞状态,识别出与生物学结构相匹配的基因模块,并在时间序列分析中展现出卓越的性能。此外,STAMP在处理多样本和跨平台数据方面也显示出了强大的数据整合能力。尽管STAMP在当前形式下无法支持条件间比较分析,但未来的改进可能会使其能够整合先验知识,处理多组学数据,甚至扩展到包括图像数据在内的更多数据类型。总体而言,STAMP为空间转录组数据的分析提供了一种新的、强大的工具,有助于推动在这一领域的研究进展。