引言
Fabian Theis团队发表综述《跨模态单细胞分析的最佳实践》,详细介绍了分析不同模态的单细胞数据的最佳实践。这些模态包括转录组学、染色质可及性、表面蛋白表达、免疫受体库和空间信息。随着单细胞技术的进步,研究人员能够以前所未有的分辨率剖析细胞,从而推动了各种新的计算方法的发展。本文总结了独立的基准测试研究,为初学者和高级用户提供了单细胞(多模态)组学分析的详细路线图。
关键观点
1. 数据预处理和质量控制: 单细胞RNA测序(scRNA-seq)数据通常包含低质量细胞的噪音和环境RNA的干扰。清除低质量细胞、处理批次效应、进行归一化处理是确保数据可比性的关键步骤。双细胞检测方法如scDblFinder对于去除因多个细胞落入同一液滴而引入的不准确性至关重要。
2. 降维和聚类:通过PCA、t-SNE和UMAP等方法降维,对于数据的可视化和总结至关重要。在聚类方面,本文推荐使用Leiden算法,以便最佳地识别细胞群。
3. 细胞身份注释:准确的细胞簇注释对于数据的解释至关重要。这可以通过自动或手动方式进行,随后由专家验证。CellTypist等预训练分类器和scArches等标签转移方法是常用的方法。
4. 处理不同模态: 本文讨论了使用scATAC-seq分析染色质可及性、分析适应性免疫受体库(AIRRs)以及空间数据的挑战和方法。例如,染色质可及性数据中的基序发现、AIRRs中的克隆类型识别,以及用于分辨组织结构中细胞相互作用的空间分辨技术。
5. 多组学数据整合:多个单细胞模态的整合(如scRNA-seq与scATAC-seq)是一个不断发展的领域。本文讨论了用于成对数据的MOFA+方法和用于非成对数据的UnionCom方法,这些方法允许对细胞状态进行全面表征。新的计算模型正在开发,以将染色质可及性与转录调控联系起来。
结论
本综述为跨模态的单细胞数据分析提供了路线图,强调了质量控制、稳健聚类和准确细胞注释的重要性。它还指出,由于单细胞技术的快速发展,计算方法需要不断评估和更新。随着越来越多的多组学数据变得可用,整合这些数据以揭示新的生物学见解将是关键。
启示
该综述讨论的指南和最佳实践对希望进行高质量单细胞分析的研究人员至关重要。遵循这些建议可以确保从这些数据中得出的生物学见解的准确性和可重复性,这对推进癌症生物学、免疫学和发育生物学等领域的研究至关重要。此外,随着更多计算工具的开发,需要进行独立基准测试以确保这些工具在不同数据集和模态上的可靠性。
参考文献
Lukas Heumos et al. Best practices for single cell analysis across modalities. Nature Reviews Genetics. 2023