Protein&Cell丨针对单细胞多组学数据设计的细胞类型自动注释方法MultiKano

学术   2024-12-15 10:18   广东  

单细胞多组学测序技术的迅速发展,使得同时测量基因表达和染色质可及性成为可能,提供了单细胞分辨率下基因调控机制的整体景观。细胞类型注释是单细胞多组学数据分析的核心步骤。常见的细胞类型注释方法是首先进行无监督聚类,然后根据先验知识手动为每个簇分配细胞类型标签。然而,随着被分析的细胞数量呈指数级增长,手动注释方法面临着难以复制且十分耗时的缺点。

另一种更有效且准确的方法是进行细胞类型自动注释,即利用已标注的数据集来训练模型,然后利用训练好的模型注释新生成的数据集。目前,已有多种专为单细胞转录组数据或单细胞染色质可及性数据设计的计算方法。这些单组学注释方法可以应用于单细胞多组学数据的细胞类型注释任务,即利用一种组学类型来确定每个细胞的细胞类型。然而,单组学注释方法未能充分利用多组学数据的信息,限制了它们捕捉细胞复杂性和多样性的能力。因此,迫切需要开发一种专为单细胞多组学数据设计的细胞类型自动注释方法。

近日,Protein & Cell杂志发表了题为:MultiKano: an automatic cell type annotation tool for single-cell multi-omics data based on Kolmogorov-Arnold network and data augmentation的文章,提出了首个针对单细胞多组学数据设计的细胞类型自动注释方法MultiKano



MultiKano引入了一种基于配对单细胞多组学数据的数据扩增策略,并结合了Kolmogorov-Arnold网络(KAN)来增强模型的泛化能力。MultiKano的架构分为三个主要模块:数据预处理模块、数据扩增模块和KAN模块。具体来说,对于给定的配对单细胞多组学数据集,MultiKano首先对两种组学数据分别进行预处理。为了更有效地捕捉单细胞多组学数据中的细胞异质性,MultiKano进一步引入数据增强模块。这一模块的基本原理是,相同细胞类型的两个细胞具有相似的生物学特性,因此可以使两个细胞的不同组学数据相匹配来生成仿真细胞。最后,MultiKano利用KAN模型进行训练。KAN模型基于Kolmogorov-Arnold表示定理,其特点是完全没有线性权重矩阵,每个权重参数都被可学习的一维函数所替代,具有较强的灵活性和泛化能力,能够有效学习复杂的非线性映射,并降低过拟合的风险。

在多个数据集上进行的综合实验表明,MultiKano不仅较于使用单组学数据的注释方法具有优越性,还优于使用多组学数据的传统机器学习方法。模型消融实验进一步证实了MultiKano中各个模块的有效性。此外,MultiKano在包含不同数量细胞类型的数据集的注释中表现出稳定性,验证了其处理复杂数据集的强大能力。更为重要的是,MultiKano在跨数据集的注释实验中展现出良好性能,显示了其在实际应用场景中的显著优势。通过进行GO富集分析、KEGG通路富集分析、GREAT分析和SNP富集分析等一系列下游分析,MultiKano进一步展示了其在揭示复杂生物系统内在机制方面的巨大潜力。

原文链接:
https://doi.org/10.1093/procel/pwae069

制版人:十一


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐



BioArt
高屋建瓴,提供专家点评,引导学术争论,展现学术批评;诚心实意,关注科研生态,推广科研经验,倡导师生交流。
 最新文章