统一地评估人单细胞相似性,并快速从不同平台海量的单细胞数据中寻找类似的细胞能够帮助人们进一步将细胞状态、功能与疾病等建立关联,并找到合适的实验系统来进一步实验分析。但是如何整合协调这些不同平台不同系统的单细胞数据并高效检索是有待于进一步解决的问题[1], [2]。
为此Genentech Aviv Regev、Jason A. Vander Heiden、Josh Kaminker以及Graham Heimberg等研究人员开发新框架-SCimilarity,实现了对跨数百项研究、数千例样本以及数千万单细胞的统一相似性比对;并可以结合用户需求,在这跨平台/系统数千万的单细胞数据集中快速寻找类似某单个、某类群或者符合某些基因表达特征的细胞群的细胞,并可解释评估其类似的原则[2]。
SCimilarity概览[2]。
SCimilarity的关键是结合非监督的表征学习(unsupervised representation learning)和监督的度量学习(supervised metric learning,结合不同研究的单细胞注释来标注类似和不类似的细胞)来训练一个基石模型[2]。
SCimilarity基石模型训练[2]。
进一步,研究人员通过SCimilarity来分析了类似某种状态巨噬细胞(SPP1+ fibrosis-associated macrophage (FMΦ))的细胞的分布;从而获取了该状态巨噬细胞的关键基因表达特征,以及构建体外系统进一步研究这种巨噬细胞的实验条件[2]。
该项工作2024年11月20日发表在Nature[2]。