Transforming Single-cell Biology: The Role of Transformer models in Single-cell Omics
Introduction
单细胞测序技术提供了大量跨物种、跨组织图谱,但现有的单细胞计算模型尚无法完全揭示数据集包含的复杂、多层次信息。已广泛用于计算机视觉等领域的Transformer架构在处理大规模数据上性能优异,其是否能够在单细胞数据集上较好应用是值得探究的问题。在 Intruduction 的部分,我们将介绍 Transformer 的提出及其模型架构,着重展开其多头注意力机制,并列举 Transformer 模型在单细胞分析中的现有应用,讨论其应用潜力。
Szałata, A. et al. Nat Methods (2024)
Main Paper 1
作为基于 Transformer 架构的单细胞模型的例子,我们在 Main 1 中介绍针对单细胞转录组的大规模基础模型 scFoundation。该模型设计非对称的Transformer架构,解决了模型预训练阶段单细胞测序数据的有效组织问题,使得测序深度差异化、缺乏统一表征的单细胞数据能够为 Transformer 架构所用。除细胞聚类、扰动响应预测外,scFoundation在基因网络分析上表现出色,能够有效揭示基因共表达模式,并且能够关联不同测序深度。
Hao, M. et al. Nat Methods (2024)
Main Paper 2
空间单细胞基因组学是探究与细胞空间位置相关的潜在细胞相互作用的有效手段。基于Transformer架构的模型能否有效表征细胞的空间信息?在Main 2中,我们介绍模型Nicheformer:它结合了人类和小鼠的离体单细胞数据和靶向空间转录组数据,通过预训练后在空间组学数据空间任务上的微调,解码空间细胞信息。Nicheformer在空间组成预测、空间标签预测等下游任务中表现出色,并且能够预测离体细胞的空间背景,从而将丰富的空间信息转移到scRNA-seq数据集中。
Anna C. et al. bioRxiv (2024)
Discussion
现有基于Transformer 的单细胞模型之间有何种区别?针对特定任务,在传统生物信息学模型和现有基于Transformer架构的模型中应该如何选择?在 Discussion 部分,我们将呈现模型评价的工作。这一工作对不同单细胞模型在不同任务上的表现进行对比,给出已有模型的可用性排序和针对不同任务的推荐。同时,这一工作对单细胞Transformer模型的训练过程和参数选择提供了建议。在本次JC的最后,我们将对发展单细胞组学的通用大模型的未来前景进行讨论。
Tianyu Liu, et al. bioRxiv (2023)
JC基本信息
时间
2024年11月23日(周六)14:00-17:00
地点
北京大学吕志和楼B101
主讲人
易鼎程、胡登科、郑钧铎、张美伊
嘉宾
周沛劼(北京大学国际机器学习中心)
钱珑(北京大学定量生物学中心)
班主任
焦雨铃
主讲邮箱
欢迎感兴趣的同学给主讲人发邮件报名旁听本次JC:
易鼎程 dingcheng_yi@stu.pku.edu.cn
胡登科 2200012286@stu.pku.edu.cn
郑钧铎 2200012117@stu.pku.edu.cn
张美伊 2100012112@stu.pku.edu.cn
本次JC提供午餐,如有忌口请在邮件中一并告知。
参考文献
[Review] Szałata, A., Hrovatin, K., Becker, S. et al. Transformers in single-cell omics: a review and new perspectives. Nat Methods 21, 1430–1443 (2024)
[Main 1] Hao, M., Gong, J., Zeng, X. et al. Large-scale foundation model on single-cell transcriptomics. Nat Methods 21, 1481–1491 (2024)
[Main 2] Anna C. Schaar, Alejandro Tejada-Lapuerta, Giovanni Palla, et al. Nicheformer: a foundation model for single-cell and spatial omics. bioRxiv 2024.04.15.589472
[Discussion] Tianyu Liu, Kexing Li, Yuge Wang, et al. Evaluating the Utilities of Foundation Models in Single-cell Data Analysis. bioRxiv 2023.09.08.555192
供稿|易鼎程 胡登科 郑钧铎 张美伊
排版|张静函
审核|赵文迪