引言: 近年来,单细胞基因组学,特别是单细胞RNA测序(scRNA-seq),极大地推动了我们对生物过程的理解,使研究人员能够在单个细胞水平上观察基因表达的变化。单细胞数据分析的一个关键挑战是推断细胞群体的动态变化,并对不同条件或系统(例如体内与体外、对照组与治疗组)之间的这些变化进行对齐。现有的方法通常依赖于动态编程(DP)算法,但这些方法往往要求严格的匹配假设,限制了它们在处理差异表达或数据不匹配的情况下的有效性。英国Sanger研究所Sarah Teichmann团队提出了Genes2Genes (G2G),一种新的贝叶斯动态编程框架,旨在在基因水平上对单细胞轨迹进行对齐,能够捕捉系统之间的匹配和不匹配。这使得G2G能够更准确地识别具有不同表达动态模式的基因簇,成为分析疾病细胞状态和优化体外培养条件的强大工具。
主要发现:
1. G2G算法和方法论: G2G采用了一种动态编程方法,受生物序列对齐的启发,用于对体内和体外系统之间的单细胞轨迹进行对齐。该算法能够在单基因水平上识别匹配(类似的表达模式)和不匹配(表达差异)。G2G使用了一种新的贝叶斯信息理论度量来量化两个时间点之间基于基因表达分布的距离。通过处理插入和删除(indels)等基因表达数据中的差异,G2G克服了现有方法的局限性,如动态时间规整(DTW)。
2. 模拟数据集测试:G2G通过三个模拟数据集进行了验证,包括具有不同对齐模式的人工数据、具有人工扰动的真实数据以及无共享过程的负控制数据集。G2G准确捕捉了这些数据集中的匹配和不匹配,性能优于现有方法(如CellAlign和TrAGEDy)。研究展示了G2G在区分基因表达轨迹中的发散和收敛模式方面的能力。
3. 在疾病和体外模型中的应用: G2G应用于一项已发表的特发性肺纤维化(IPF)数据集中,比较了健康肺中肺泡2型(AT2)细胞向肺泡1型(AT1)细胞分化与IPF肺中AT2细胞向异常基底细胞(ABC)分化的情况。G2G成功捕捉到了基因表达中的早期和晚期不匹配,揭示了上皮-间质转化(EMT)通路在不匹配基因中的显著富集。这一发现表明,G2G可以帮助识别潜在的治疗靶点,以防止病理性细胞分化。
4. 体内与体外T细胞发育的比较:研究还使用G2G比较了体外和体内人类T细胞发育的情况。G2G揭示了TNFα信号通路中的关键差异,这些差异在体外系统中未能完全再现。通过实验验证,在体外T细胞分化的最后阶段添加TNFα,可以使体外细胞更接近其体内对应物。这突显了G2G在指导体外分化方案优化方面的潜力。
结论:
Genes2Genes在单细胞轨迹对齐方面取得了重大进展,提供了基因水平的分辨率,并能够准确捕捉基因表达动态中的匹配和不匹配。G2G在提供更具描述性和准确的对齐方面优于现有方法,其在疾病模型和体外系统中的应用证明了其在识别基因簇和参与细胞过程的生物通路方面的实用性。G2G为优化体外细胞分化方案提供了新的研究方向,并为探索疾病状态下的分子机制提供了强有力的工具。
影响:
G2G的开发对单细胞基因组学领域有着重要的影响:
• 再生医学:G2G可以帮助优化体外培养条件,使其更好地模拟体内发育,从而促进更有效的细胞工程治疗。
• 疾病研究:通过准确对齐健康和疾病细胞状态,G2G能够识别潜在的治疗靶点,例如IPF中的病理性细胞分化。
• 广泛适用性: G2G可应用于多种生物场景,包括健康与疾病系统的比较、治疗与对照条件的比较,以及跨物种分析。
参考文献
Dinithi Sumanaweera et al. Gene-level alignment of single cell trajectories. BioRxiv. 2023