❝
BioLinkX学术部核心成员胡磊为本文的共同第一作者,主要参与了BulkTrajBlend算法的开发和实证,OmicVerse算法框架的开发和维护,论文撰写等工作。
❞
成果背景
单细胞RNA测序(scRNA-seq)和Bulk RNA测序(RNA-seq)是探索细胞异质性、发育分化和疾病机制的重要技术。由于测序平台的技术限制以及酶解过程造成的细胞丢失,某些细胞类型在单细胞测序中有时会被遗漏,例如足细胞、中间祖细胞、神经元等。因此,开发能够应对单细胞数据中“遗漏”情况的算法工具,对于推动单细胞组学分析具有极其重要的意义。
此外,尽管组学算法的种类和数量不断增加,但选择合适的工具——既要准确无误,又要易于使用,且适合特定分析需求——却变得越来越困难。用户在学习和应用各种组学算法时,往往需要适应不同的系统,这不仅增加了计算和分析的复杂性,也降低了效率。因此,当前单细胞组学分析领域急需一个全面的算法框架,该框架应能简化对bulk RNA-seq和scRNA-seq分析的多种模型和算法的访问,从而提取关键的生物学洞见,推动科学研究的深入发展。
成果概览
2024年7月18日,北京科技大学化学与生物工程学院杜宏武团队和中山大学生命科学学院熊远妍团队在《Nature Communications》杂志在线发表了题为“OmicVerse: a framework for bridging and deepening insights across bulk and single-cell sequencing”的研究工作。该工作提出了一种被称为BulkTrajBlend(属于OmicVerse算法框架的一部分)的单细胞轨迹混合算法,有效地插值并恢复了scRNA-seq数据中“遗漏”细胞的连续性。此外,OmicVerse提供了一个广泛的工具包,用于bulk和scRNA-seq分析,OmicVerse封装了一系列相关分析算法,使其可以简化计算过程,促进精致的数据可视化。OmicVerse的相关代码和教程可以在以下链接中获得: starlitnightly.github.io/omicverse/
如图所示,BulkTrajBlend在自编码器(AE)和 β-变分自编码器(β-VAE)的基础结构上进行了创新。这些改进包括:
构建 Bulk RNA-seq 生成器:我们利用AE构建了一个bulk RNA-seq 的生成器。我们将 bulk RNA-seq 的细胞比例空间建模为编码器的输出和解码器的输入。然后使用从 scRNA-seq 生成的带有真实细胞比例标签的模拟 bulk RNA-seq 作为编码器的输入,以训练模型。
训练 β-VAE:在利用真实 scRNA-seq 训练 β-VAE 时,编码器的输出包括 V(细胞类型比例)和 W(与细胞类型相关的生成因子)。我们增加了一个损失函数,以最小化 V 与真实细胞类型比例之间的关系。在模型训练结束时,我们获得了每个细胞的 W,并计算了每种细胞类型的 W 平均值以代表该细胞类型。
生成scRNA-seq数据:我们使用 AE 计算出的真实细胞类型比例 V 和 β-VAE 获得的与细胞类型相关的生成因子 W 作为输入,用于 β-VAE 生成scRNA-seq数据,并采用无监督聚类来去噪和细化 β-VAE 的结果。
图神经网络(GNN)的应用:我们利用图神经网络对生成的scRNA-seq数据进行采样,从而识别重叠的细胞亚群。采样这些重叠的细胞亚群有助于我们在不丢失细胞连续性的情况下插入“遗漏”的细胞。通过这些方法,BulkTrajBlend 能够有效地处理scRNA-seq数据中的“遗漏”问题,并在重建的单细胞景观中识别出那些原本可能被遗漏的细胞类型。
此外,研究者们精心构建了手动模拟的“遗漏”数据集,并评估了BulkTrajBlend在真实数据集中重建发育轨迹的能力。在小鼠胰腺发育的数据集中,PAGA 图显示 Ngn3High EP 细胞分化为前内分泌细胞的基线概率为0.04。在相应的“遗漏”数据集中,这一概率降至0。然而,通过BulkTrajBlend的插值处理,该概率被提升至0.035。这些分析结果共同突显了BulkTrajBlend在精确重建真实发育轨迹方面的显著效果。
除了评估BulkTrajBlend算法的性能,作者还介绍了OmicVerse在转录组学分析中的潜力。OmicVerse集成了广泛的 bulk RNA-seq 分析算法,包括用于批次校正的 pyComBat算法,使用 Deseq2 进行差异表达分析的 pyDEG算法,使用 STRING web API 进行蛋白质-蛋白质相互作用网络分析的 pyPPI算法,基因共表达网络分析的 pyWGCNA算法,基因集富集分析的 pyGSEA算法,以及用于癌症基因组图谱(TCGA)数据分析的 pyTCGA算法。
OmicVerse整合了一系列常用的scRNA-seq算法,包括pyHarmony、pyCombat和scanorama算法用于批次校正;更新至 CellMarker 2.0 和 CancerSEA 的pySCSA算法用于自动细胞类型注释;CellPhoneDB用于分析细胞间相互作用;pyVIA用于推断细胞轨迹;AUCell用于基于曲线下面积的基因集评分评估; scDrug 用于药物预测。OmicVerse 框架还引入了 SEACells进行元细胞分析,有效降低scRNA-seq数据的噪声。重要的是,OmicVerse统一了所有上述方法的输入数据格式,允许用户使用 Anndata 格式进行分析,显著提升了可视化效果,使结果更加美观。
scATAC-seq与scRNA-seq数据的联合分析是揭示转录调控复杂性的关键。OmicVerse通过结合GLUE和 MOFA,揭示了转录调控的动态变化。在OmicVerse平台中,基于GLUE的多组学配对算法被用来整合和配对scRNA-seq和scATAC-seq数据。对于配对的单细胞多组学的分析,OmicVerse 整合了 MOFA 的核心算法,简化了数据分析和可视化的复杂性,并且这些操作都可以通过极少的编程实现。
启发与展望
综上所述,本研究提出了一种名为BulkTrajBlend的单细胞轨迹混合算法,旨在恢复 scRNA-seq 数据中“遗漏”细胞的连续性。此外,本研究还开发了OmicVerse框架,专门用于 bulk RNA-seq 和 scRNA-seq 数据分析。OmicVerse的算法文档为每个算法提供了详尽的应用程序编程接口(API)参考,并附有教程,详细说明了它们的功能、局限性以及如何与其他 bulk 和 scRNA-seq 分析工具整合使用。OmicVerse还拥有全面的开发人员文档,指导用户如何按照一致的开发逻辑向OmicVerse生态系统添加工具。
在过去一年的审稿过程中,OmicVerse不断更新和迭代,已经整合了近40种用于 bulk、scRNA-seq 和空间转录组学分析的工具,构建了一个全面的转录组学分析框架。最终,OmicVerse的目标是成为推动批量和单细胞测序社区发展的重要力量,鼓励各种模型的原型设计,建立 RNA-seq分析的标准,并拓展科学探索的边界。
作者介绍
北京科技大学化学与生物工程学院杜宏武教授,中山大学生命科学学院熊远妍副教授,北京科技大学大兴研究院特聘研究员幸岑璨博士和2022级博士研究生曾泽华为本文的共同通讯作者。北京科技大学化学与生物工程学院2022级博士研究生曾泽华,清华大学深圳国际研究生院2022级硕士生马雨晴和北京科技大学高等工程师学院2019级本科生胡磊(现为西湖大学生命科学学院2023级博士研究生)为本文的共同第一作者。(以上三名同学均在北京科技大学取得本科学位)。此外,除共同第一作者和通讯作者外,本文其他作者均为北京科技大学在校本科生。
该工作得到了科学技术部、北京科技大学本科生科研创新项目(SRTP)联合资助。
下面是第一作者视角讲述的论文背后的故事,欢迎大家点击阅读~
我们这篇Nature Communication背后的故事( 第一作者解读)
文章链接:https://doi.org/10.1038/s41467-024-50194-3
⬇️点击阅读原文即可跳转原文链接~