不设置🌟有时会收不到公众号内容,code一段时间后会失效,代码在文末
近日,来自Genentech的研究团队在顶级期刊《Nature》上发表了一篇题为A Cell Atlas Foundation Model for Scalable Search of Similar Human Cells的研究文章。该研究团队提出了一种创新性的深度学习模型SCimilarity,这是一种面向单细胞RNA测序(scRNA-seq)数据的度量学习基础模型,可用于跨组织、跨疾病、跨数据集地查询具有相似转录状态的人类细胞。此项研究为单细胞图谱构建和高效细胞状态搜索提供了全新的解决方案,并在细胞生物学及其临床应用中具有显著优势。
研究背景与问题挑战(下面说的真是句句都是单细胞痛点)
近年来,scRNA-seq技术在组织发育、疾病病理以及实验性扰动条件下,已累计对数以亿计的人类细胞进行了详细的转录组测序。这些数据蕴含了跨组织和疾病背景下细胞状态的丰富信息。然而,如何统一定义细胞相似性并高效搜索具有相似表达状态的细胞,始终是科学家们面临的关键挑战:
数据异质性:不同研究间的数据处理和注释标准不一,导致数据集之间难以直接比较。
缺乏统一的相似性度量:现有的多维降维技术(如PCA)虽然能压缩数据维度,却无法捕捉细胞间的全局相似性。
查询效率低下:面对日益增长的单细胞数据量,现有的分析方法在效率和扩展性上均存在局限。
核心创新:SCimilarity模型
为了应对上述挑战,研究团队开发了SCimilarity,一个基于深度度量学习的细胞基础模型。其主要优势包括:
统一的细胞表征:通过监督和无监督相结合的学习框架,SCimilarity学习了一种可解释的低维表征,将相似的细胞状态聚集在一起,同时保留了细胞内微小的表达差异。
高效的查询性能:借助SCimilarity,研究者能够在包含超过2340万个细胞的参考图谱中快速查询目标细胞状态,单次查询时间仅为0.02秒。
广泛的泛化能力:尽管SCimilarity模型的训练数据集中仅包含部分细胞类型和组织样本,但其对测试数据表现出较强的泛化能力,可有效适配不同的单细胞测序平台和实验条件。(啥单细胞测序技术都有)
研究亮点与应用实例
在实际应用中,SCimilarity的潜力得到了充分展示。例如,研究团队通过该模型对间质性肺疾病(ILD)中巨噬细胞和成纤维细胞亚群进行查询,发现这些细胞在肺纤维化、癌症、肥胖及COVID-19等多种病理条件下存在相似性。此外,SCimilarity还被用于识别一种3D水凝胶培养系统中的巨噬细胞亚群,验证了模型在体外实验中的预测能力。
更重要的是,该模型帮助研究者超越了传统的细胞注释方法。SCimilarity不仅能够根据表达相似性对单个细胞进行注释,还可将新发现的细胞状态与公共数据集中的注释进行比较,从而揭示其可能的生物学功能。
未来展望
SCimilarity的发布标志着单细胞分析领域的重大进展。作为一个公开的Python API,研究者和开发者可以利用该工具在多种生物学背景下开展细胞状态搜索、注释和比较分析。
展望未来,随着人类细胞图谱数据的进一步扩展,SCimilarity模型将被用于更大规模的细胞搜索和查询任务,从而加深我们对细胞生物学的理解。此外,该模型的开发还为研究复杂疾病(如癌症和纤维化)及其治疗方案提供了强有力的支持。
安装过程,也可docker安装
关键词:单细胞测序,生信分析,生物信息学
这次生信的大纲内容进行全面的调整,想了解生信的,跟班的,可以看下面👇这个文章
这次可不是只学单细胞,基本上从基础到多组学、空间、机器学习一条龙全打通了
后苔↩️之前贴子的岸号即可霍得之前的代码,今日关键词:241128
引文,原文:
Heimberg, G., Kuo, T., DePianto, D.J. et al. A cell atlas foundation model for scalable search of similar human cells. Nature (2024).