Nature Methods:基因水平的单细胞轨迹对齐

文摘   2024-09-27 19:00   江苏  

这篇文献主要探讨了基因对齐以及在单细胞轨迹分析中的应用,具体介绍了G2G框架及其方法论。研究中提到,使用最小消息长度推断(Minimum Message Length Inference)的方法来实现基因级对齐,具有重要的统计意义和有效性。

在研究结果部分,显示了3,500个基因的对齐过程,强调了不同对齐模式的捕捉能力,并提供了相关的数据展示。特别是在模拟数据中,研究者观察到了与早期收敛相关的模式,这意味着在基因对齐的早期阶段,相关参数的预期匹配长度是一个关键因素,分别标识为0.25(早期收敛)、0.5(中期收敛)和0.75(后期收敛)。文章还详细描述了在高分辨率聚类结构下,采用0.37的距离阈值可以有效划分994个高度变异基因,这对于后续的生物实验和分析具有实际的指导意义。

总结来说,文献从理论与实践相结合的角度,探讨了基因对齐在单细胞分析中的应用,强调了早期收敛高分辨率聚类的重要性。这一研究不仅为遗传学和生物信息学领域的研究提供了新的视角,也为相关的实验设计和数据分析提供了实用的参考和指导。

仓库地址:

https://github.com/Teichlab/G2G_notebooks?tab=readme-ov-file

这篇文章,我给的定义是属于一种方法,而不是一件工具

生信工具的话,简单来说是输入—处理—输出

而方法则是用一系列的脚本去实现一个目标

摘要

单细胞数据分析可以推断细胞群体的动态变化,例如在时间、空间或应对扰动时,从而导出伪时间轨迹。当前比较轨迹的方法通常使用动态编程,但受到诸如存在明确匹配等假设的限制。在这里,我们描述了Genes2Genes,这是一种基于贝叶斯信息论的动态编程框架,用于对齐单细胞轨迹。它能够捕捉参考轨迹和查询轨迹之间个别基因的顺序匹配和不匹配,突显出不同的对齐模式簇。在真实世界和模拟数据集上,它准确推断了对齐,并展示了其在疾病细胞状态轨迹分析中的实用性。在一个概念验证应用中,Genes2Genes揭示了体外分化的T细胞与缺乏与TNF信号传导相关基因表达的未成熟体内状态相匹配。这表明精确的轨迹对齐可以指明与体内系统的偏离,从而指导体外培养条件的优化。

主要结果

Genes2Genes 使用动态规划对轨迹进行对齐

(1)动态规划算法的应用:G2G实现了基因轨迹的精准对齐,采用了动态规划(DP)算法,兼顾了匹配和不匹配的情况。这种方法创新性地结合了Gotoh的三态算法与动态时间规整(DTW),为基因匹配提供了一种统一的方法。

(2)基因级精度:G2G在处理单细胞参考和查询的数据时,可以在基因级别上生成最佳的时间点序列,以捕捉基因表达的动态变化。每个基因都有五种不同的对齐状态,合理评估基因表达分布之间的距离,以推导出最佳对齐方案。

(3)数据集表现:G2G在实际与模拟数据集上的表现显示,它能够准确推断对齐,并且在分析疾病状态细胞的轨迹时展现出其有效性。例如,通过分析体外分化的T细胞,G2G发现它们与未成熟的体内状态相匹配,表明在TNF信号相关基因的表达上存在差异,这帮助优化体外培养条件。

(4)对比分析:与现有的对齐工具(如CellAlignTrAGEDy)相比,G2G展示了更高的准确性。在对三个主要对齐模式(匹配、发散和收敛)下进行比较时,G2G的表现显著优于这些工具,尤其是在处理复杂的基因表达图谱时。

(5)聚类与相似性度量:G2G生成了按照基因表达相似性聚类的代表性对齐,增强了对基因动态行为的理解。这些聚类结合了匹配和不匹配的信息,可以揭示基因间的多样性和表达差异,从而为后续的生物学分析提供了基础。

G2G框架在模拟数据中有效捕捉了不同的对齐模式

研究表明,G2G能够识别和分析各种基因表达模式,特别是在STAT2和IF1T1等基因的表达方面表现卓越。对于CXCL2和CXCL1等关键基因,G2G同样提供了精确的分析,显示了其在不同基因表达情况下的强大适应性。

文章中还提到,G2G生成的平均对齐结果增强了对基因之间相似性的理解,为后续的聚类分析提供了支持。此外,G2G能够准确处理匹配基因的对齐问题,展现了其在复杂基因表达模式中的高效性。

最终,研究结论认为G2G在准确对齐和聚类具有不同对齐模式的基因方面超越了现有方法,展现出其在基因表达动态分析中的可靠性。这些发现为理解基因表达的复杂性提供了重要支持,强调了G2G的潜在应用价值。

G2G 捕捉到基因水平的匹配和不匹配

G2G能够在单细胞RNA测序(scRNA-seq)轨迹中识别出基因表达的各种模式。研究展示了使用G2G对由小鼠骨髓来源的树突状细胞在不同刺激下(如PAM和LPS)的时间序列数据进行分析。

通过堆叠条形图的方式,结果表明在14个等间距的伪时间点上,参考组和查询组的细胞组成情况得以可视化,所标记的盒段展示了不匹配的部分,而黑线则代表匹配的部分。这一方法不仅突出了匹配基因的动态变化,还揭示了在不同时间点之间的基因表达差异。此外,G2G还聚合了所有基因级别的对齐,从而生成了单一的细胞级别对齐,为后续的基因集合过度表达分析等下游分析提供了支持

G2G发现疾病上皮细胞的早期/晚期差异

研究通过对健康的肺上皮细胞与特发性肺纤维化(IPF)细胞的轨迹进行分析,发现两者在基因表达模式上存在显著不同,这些差异主要体现在较晚的伪时间点上。

具体而言,研究者通过对994个高变异基因进行对齐,发现健康与IPF细胞的分化轨迹起始于相同的AT2细胞,但健康细胞向AT1细胞分化,而IPF细胞则转化为异常的ABC细胞,这一过程影响了基因表达的模式【7】。G2G的对齐分布显示约62%的均匀相似性,但在较晚的伪时间点,明显观察到了基因表达的不匹配现象。

此外,G2G还捕捉到了一些早期和中期的表达不匹配,揭示了健康和IPF细胞轨迹之间的新早期差异,例如涉及TGF-β1调控的CAMK1D基因的上调,这与IPF的发展密切相关。这些结果表明,G2G框架在解析疾病细胞基因表达的时间动态变化方面具有强大的能力,为理解和研究疾病机制提供了重要的基础。

文献来源:

Sumanaweera D, Suo C, Cujba A-M, Muraro D, Dann E, Polanski K, et al. Gene-level alignment of single-cell trajectories. Nat Methods. 2024. https://doi.org/10.1038/s41592-024-02378-4.

智慧识竹
和小周周一起学习新知识,探索更多的未知世界吧
 最新文章