简介:
单细胞多组学技术,如CITE-seq、SNARE-seq和DOGMA-seq,能够同时测量RNA、蛋白丰度和染色质可及性,为细胞功能和基因调控提供了深入见解。尽管预测多组学信息和整合数据集的算法不断涌现,但其性能的系统比较仍较少。Kun Qu等基准评估了14种算法在单细胞转录组学数据的基础上预测蛋白丰度和染色质可及性,以及18种算法在垂直、水平和马赛克整合任务中的表现。
关键发现:
1. 预测性能:
o 蛋白丰度:totalVI和scArches在预测蛋白水平方面表现最佳,其中totalVI在预测数据和参考数据之间展示了较高的Pearson相关系数(PCC)。
o 染色质可及性: LS_Lab是表现最出色的算法,能够准确预测ATAC-seq数据中的可及区域。
2. 整合算法:
o 垂直整合: Seurat和MOJITOO在合并RNA和蛋白数据方面表现突出,能够很好地保留生物变异。
o 水平整合:totalVI在批次校正和一致性方面表现优异,尤其是在合并RNA和蛋白数据集时,而UINMF在RNA-ATAC数据整合方面表现更佳。
o 马赛克整合: UINMF在多数据集和条件下表现出色,验证了其多样性和灵活性。
3. 数据质量的影响:
o 预测准确性因RNA与蛋白之间的相关性而异。算法在预测与RNA无关的蛋白(RU蛋白)时表现不佳,凸显了开发更稳健模型的必要性。
o 数据稀疏性也影响染色质可及性预测,更平滑的数据集带来了更好的结果。
4. 计算效率:
o 包括totalVI和MultiVI在内的大多数算法都能在合理的内存限制内高效完成任务,但部分算法在处理较大数据集时遇到了挑战。
结论:
本研究为单细胞多组学预测和整合算法的性能评估提供了全面框架,揭示了现有方法的优势和局限性。研究结果表明,需解决稀疏性和RNA-蛋白不一致性等挑战,以提高预测能力。
意义:
这些结果为研究人员选择适当的单细胞多组学分析工具提供了指导,并突出了整合多组学数据在深入理解生物过程和疾病中的重要性。未来研究应着重提高模型的鲁棒性,并探索代谢组学和空间组学等新途径,以实现更全面的预测。
参考文献
Yinlei Hu et al. Benchmarking algorithms for single-cell multi-omics prediction and integration. Nature methods. 2024