作者:James
编辑:Yimin
在AI 领域,目前最火热的方向之一当属多模态,如何匹配来自多个模态(文本,语音,图像,视频)等多个领域的信息,如何通过单个模态的信息生成其他模态的信息,都是该领域重要的研究问题。在生物信息学领域中,也有一个重要的多模态研究领域:单细胞多组学。这一领域也是目前生物信息学中一个重要的研究方向,每年有大量的论文发表在各类顶级期刊和会议上 (仅仅是2023年,就有三篇关于单细胞多组学的综述发表在Nature的顶级评论子刊上,关于方法的文章就更多了)。
那么什么是单细胞多组学呢?单细胞多组学是一种先进的生物技术,旨在同时分析单个细胞的多个组学层面,比如基因组、转录组、蛋白质组和代谢组。通过这种方法,科学家可以获得细胞在多种生物学状态下的精细信息,从而更深入地理解细胞的功能及其在生物系统中的作用。与传统的单一类型生物数据分析相比,多组学通过多模态方法整合多种生物数据,为我们揭开了生物系统复杂性的新篇章。这篇文章将带大家深入探讨多组学的概念、不同类型的组学数据,以及它们如何结合在一起,希望不仅能让从事生物信息学领域的同学们更深入理解单细胞多组学的概念,也能吸引更多人工智能方向的同学共同探索这一神奇的多模态研究领域!
一、什么是多组学:多模态和多组学
横看成岭侧成峰,远近高低各不同。——苏轼
图1:张大千《庐山图》
多组学(multi-omics) 是一种研究方法,通过整合来自基因组学、转录组学、蛋白质组学、代谢组学等不同类型的组学数据来探索生物系统的复杂特性和运行机制。
从多模态的角度来看,多组学的研究利用各种不同类型的生物数据及其交互作用来提供一个更全面、更深入的理解生物系统的视角。这就像是就像从不同的角度欣赏一座山峰,从各个方向看,都能呈现出不同的景象,而这些不同的视角组合在一起则勾勒出一幅完整立体的山水画。单一视角往往会出现“不识庐山真面目,只缘身在此山中”的问题,而多视角综合分析则往往能帮助我们“识得庐山真面目”;多组学也是如此,通过不同组学数据的整合,我们可以通过多角度视图综合信息,揭示其复杂的内在联系和调控机制。这种方法使得我们从不同的视角描绘生物系统的全貌和细节,最终获得一个更加完整和动态的视图。
二、中心法则的视角:多组学数据刻画了中心法则的各个步骤
——观察同一事物的不同阶段
中心法则(Central dogma of biology)[1]是分子生物学的基本概念,其描述了遗传信息在生物系统中的流动过程:DNA 转录成 RNA,RNA 翻译成蛋白质,最终展现为生物功能性状。在中心法则之中有许多复杂的调控过程,例如表观遗传调控、转录后修饰等。表观遗传影响基因信息是否从DNA转录为RNA,而转录后修饰则影响RNA是否/如何翻译成蛋白质。这些都可以通过多组学数据来深入研究。多种组学之间的关系可以用下图[2]来表示:
上图展示了基因组、表观组、转录组、蛋白质组、代谢组学之间的关系。其中,表观组(Epigenome)可被认为处在介于基因组(Genome)和转录组(Transcriptome)之间的位置,影响关注基因是否表达、如何表达。
基因组学研究生物体内所有遗传信息的集合,涉及基因的结构、功能和相互作用。代谢组则关注生物体产生的代谢物,通过分析这些代谢物的类型、含量、动态变化来揭示生物体的生理状态。此外,下面这些组学数据更是现在研究的热点:
1. 表观组(Epigenome)
DNA转录为RNA的过程与基因选择性转录表达有关,即一个基因是否转录/转录多少。生物的所有体细胞几乎共享相同的DNA遗传信息,但在不同组织细胞中的表达情况各不相同;在真核生物组织中,大量的基因(如许多“奢侈基因”)实际上并不表达,“沉默”的DNA区域会“蜷缩”在一起并往往伴随着组蛋白修饰/化学修饰。【更加科学的阐述可以参见《基因X》】表观基因组通过研究基因表达调控中的化学修饰(例如 DNA 甲基化和组蛋白修饰)来尝试揭示细胞的表观调控,并最终希望借此从源头探究生命机理、解决疾病问题。
ATAC-seq[3]是一种常用的表观基因组技术,它通过研究染色质的可及性,从而揭示基因的活动状态。该技术通过使用转座酶将测序接头插入基因组DNA中染色质可接近的区域,然后对这些区域进行测序。通过分析测序数据,可以识别出细胞内DNA的开放区域。
ATAC数据通常用矩阵的形式表述,矩阵的列表示细胞,行表示在细胞中发生的“特征事件”(如常见的peaks,记录细胞中该peak的读数)。ATAC数据具有超高维度和高度稀疏的特点,并且事件语义不明确。ATAC数据的高维稀疏特性反映为矩阵的尺寸特别大(几万到十几万维)、而且大部分数值都是0。因此,如何对ATAC数据进行特征筛选和降维、插补、理解语义变得十分重要。
2. 转录组(Transcriptome)
转录组[4]研究细胞内所有 RNA 分子的集合。它帮我们了解基因怎么表达,哪些基因正在活跃,表达得多不多。这种研究能帮我们探究基因的作用、基因表达的模式,以及在不同环境下基因表达如何变化。转录组数据还具有时空特异性,就像是给细胞状态拍张“快照”,记录某个特定时刻的情况。最常见的RNA-seq 是一种高通量测序技术,可用于分析基因表达水平,揭示转录调控机制。
与表观组数据相比,转录组数据的特征语义相对明确,直接对应到基因的表达数据。同时,它的特征维度不太高、也不如ATAC数据稀疏。RNA-seq的研究往往更加集中于时空特异性及其生物意义的挖掘。虽然数据看起来相对简单,但如何让这张局部快照“动起来”预测全局全过程的走向、如何发掘因果关系依然是巨大的计算挑战。
3. 蛋白质组(Proteome)
蛋白质组研究细胞内所有蛋白质的集合。它专注于研究细胞、组织或生物体中蛋白质的全套表达、功能和结构。这个领域通过全面分析蛋白质的类型、量、修饰和相互作用,揭示蛋白质在生物体中的作用和生物过程中的相互作用。由于蛋白质是生命活动的主要具体承担者,因此它最直接与各种性状、疾病相联系。
其中,ADT(Antibody Derived Tags)是一种常见的基于抗体标签的蛋白质组学技术。ADT可以高效地定量检测各种蛋白质在细胞上的表达量,如各种标志蛋白的空间分布(上图)[5]。蛋白质组的特征也具有明确的语义(直接对应到蛋白)。同时,受限于当前的技术限制,蛋白质组所能同时测量的特征维度更低,往往只能同时呈现几十到几百个特征通道(即一次观察几十到几百种蛋白)。
三、尺度视角:不同技术可以刻画各种尺度的生物特点
——用不同的“时空分辨率”来看 除了组学差异外,多组学数据还有不同的数据尺度。常见的多组学数据可以根据数据尺度分为批量数据(bulk data)、单细胞数据(single-cell data)、空间数据(spatial data)和时变数据(live seq)等。如ATAC、RNA、ADT等都有对应的批量数据、单细胞数据和空间数据。批量数据提供了细胞群总体的信息,单细胞数据可以揭示细胞间的异质性,而空间组学则还能额外提供不同细胞组织之间的空间邻近关系。
如果用水果来比喻,那么批量数据类似一杯混合奶昔,单细胞数据则类似可以分辨出不同水果(细胞)的水果堆,而空间数据则类似具有特定造型的水果拼盘(具有一定空间分布特征的组织)。
Bulk 组学分析整个样本的综合状态(如组织块或细胞群),无法区分个别细胞之间的差异。常见的有bulk RNA-seq,用于测量整体样本的基因表达水平。其适用于快速、成本较低的基因表达分析,适合大规模样本的初步研究。相对的,单细胞组学通过对单个细胞的分析,能够揭示细胞间的异质性,提供更精确的生物过程图像。例如,单细胞RNA-seq可以详细地分析每个细胞的基因表达。因此,单细胞组学常用于研究细胞类型的多样性、细胞命运决定、以及细胞在特定病理状态下的行为。
空间组学(spatial omics)技术可以在单细胞水平上提供空间坐标信息,揭示细胞在组织中的位置和相互作用。当前,研究基因表达在空间上分布的空间转录组学(Spatial Transcriptomics,ST)技术方兴未艾。这些技术包括基于图像的技术(如 seqFISH、osmFISH 和 MERFISH)和基于测序的技术(如 ST、10X Visium 和 Slide-seq)。基于图像的技术(如 seqFISH、osmFISH 和 MERFISH)具有高空间分辨率和准确性,但受限于可同时观测的特征数有限、覆盖范围不足(一般仅能同时测量数十到一万个基因)。而基于测序的技术(如 ST、10X Visium 和 Slide-seq)则可以在全转录组范围内进行分析,但它的分辨率低,样本点不足以达到单细胞水平(multi-cell-spot)。
此外,时间相关的技术(如Live-seq等)允许科学家在不同时间点持续监测同一细胞的状况。[6] Live-seq技术通过在不同时间点监测同一细胞的基因表达,从而可以追踪细胞的分化过程、状态转变、治疗反应等状态变化。
四、多组学数据分析
——从“盲人摸象”到“拨云见日”
多组学数据的整合可以提供不同层次的、互补的信息。例如,转录组数据可以揭示基因表达水平,而蛋白质组数据则可以揭示蛋白质的实际功能状态;单细胞组学数据往往具有更好的测序深度和准确性,而空间组学则能够提供额外的空间信息。综合考量这些数据可以从中获得更全面准确的信息。
根据不同组学数据之间的关系,跨组学分析任务可以分为基于配对数据的垂直整合和针对非配对数据的对角线整合。[7][8]配对数据在相同的细胞上测量,可以直接使用细胞作为“锚”来整合两个模态的信息;而非配对数据则没有给定的对应关系,可能需要经过“对齐”操作,因而难度一般更大。
基于这两种不同的多模态数据,可以实现模态信息互补、对齐和共嵌入、重建缺失/噪声数据和发掘模态间关联等任务。
注:初学者可以选择跳过下面对于具体算法的简要介绍。若要详细了解算法,请关注原论文或者后续详细介绍方法的文章。
4.1 模态信息互补
整合分析多组学数据可以利用互补信息实现更好的数据去噪和特征提取,提升聚类和下游分析的准确性和可靠性。这比较类似于多模态学习中的多模态融合任务:当多个模态共存时,我们需要同时从多个异质信息源提取被研究对象的特征。如下图,RNA和ATAC数据单独来看都存在比较明显的噪声和一定偏差,但是将其综合利用起来就能得到更为清晰的结构信息。
图11. 综合利用模态互补信息实现更准确的空间聚类划分。[9]
具体的工作例如CellCharter[9:1]。它对每种组学数据类型选择不同的变分自编码器(VAE),将输入特征映射到隐空间中;然后在邻近图上利用高斯混合模型(GMM)聚类。
4.2 对齐和共嵌入
对齐和共嵌入任务的目的是使来自不同批次、不同模态数据被正确匹配,将数据嵌入到统一的空间,更加直观和科学地比较和整合不同组学的数据。这比较类似于多模态学习中的模态间映射和对齐,从而实现信息在不同模态间的相互转换。整合到相同的嵌入空间后,将能够比对两种模态数据的标签等信息,进行数据标注、拟时序分析、缺失数据插补等工作。[7:1]
具体的工作例如用于空间转录组对齐的PASTE[10]。它使用融合的 Gromov-Wasserstein 最优传输,根据转录和空间相似性计算相邻切片的概率成对对齐。
4.3 重建缺失数据或噪声数据
这一任务旨在利用其他模态的信息来弥补某一模态存在的信息缺失/损坏,有些类似于多模态中的跨模态生成任务。典例如下面的空间与单细胞数据的整合重建。
空间和单细胞数据的整合
将空间转录组学数据与单细胞组学数据整合,可以解决两个主要问题:预测未检测到的转录本的空间分布,以及预测组织切片中点的细胞类型组成(去卷积)。(也就是分别解决两种空转数据的缺陷。)
具体的工作例如GraphST[11]。它将图神经网络与自监督对比学习相结合,通过最小化空间相邻点之间的嵌入距离来学习细胞的表示。
4.4 发掘模态间的关联
通过整合多组学数据,可以研究不同层次间的调控关系。即研究模态之间是如何互相影响的,例如表观组学如何调控基因转录、基因表达与蛋白质水平之间的关系。这些调控关系的研究对于理解生物系统的复杂性至关重要。
从人工智能的角度来看,该任务类似于关联分析或者强调可解释性的对齐任务。
具体的工作例如scGLUE[12] 和CellOracle[13]。其中CellOracle其使用基于聚类的正则化线性回归模型构建特定细胞类型或细胞状态的基因调控网络(GRN);随后可利用GRN预测扰动造成的影响。
五、总结与展望
随着技术的进步和数据分析方法的优化,多组学的应用前景广阔,将不仅限于基础研究,还将在临床诊断和药物开发中发挥重要作用。从计算的角度来看,随着更先进的深度学习模型(扩散模型,基础模型)被应用到多组学数据中, 不同层次的生物分子数据将被更好的整合,有助于我们深入理解生物系统的复杂性和多样性,推动生命科学研究的前沿发展。
参考文献:
1. 维基百科:中心法则.https://zh.wikipedia.org/zh-hk/中心法則
2.Transcriptome.Wikipedia[https://en.wikipedia.org/wiki/Transcriptome]
3. Tsompana, M., Buck, M.J. Chromatin accessibility: a window into the genome. Epigenetics & Chromatin 7, 33 (2014). https://doi.org/10.1186/1756-8935-7-33
4. StatQuest with Josh Starmer.StatQuest: A gentle introduction to RNA-seq
5. Sha Liao et. al. Integrated Spatial Transcriptomic and Proteomic Analysis of Fresh Frozen Tissue Based on Stereo-seq
6. Horvath, Robert. (2022). Single-cell temporal transcriptomics from tiny cytoplasmic biopsies. Cell Reports Methods. 2. 100319. 10.1016/ j.crmeth.2022.100319.
7. NBISweden. Multi-omics integration lecture. Advanced topics in Single Cell Omics 2021
8. Argelaguet, Cuomo, Stegle and Marioni (2021). Computational principles and challenges in single-cell data integration. Nat Biotech
9. Varrone, M, Tavernari, D., Santamaria-Martínez, A. et al. CellCharter reveals spatial cell niches associated with tissue remodeling and cell plasticity. Nat Genet 56, 74–84 (2024). https://doi.org/10.1038/s41588-023-01588-4
10. Zeira, R., Land, M., Strzalkowski, A. et al. Alignment and integration of spatial transcriptomics data. Nat Methods 19, 567–575 (2022). https://doi.org/10.1038/ s41592-022-01459-6.
11. Long, Y., Ang, K.S., Li, M. et al. Spatially informed clustering, integration, and deconvolution of spatial transcriptomics with GraphST. Nat Commun 14, 1155 (2023). https://doi.org/10.1038/s41467-023-36796-3
12. Cao, ZJ., Gao, G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nat Biotechnol 40, 1458–1466 (2022). https://doi.org/10.1038/s41587-022-01284-4
13. Kamimoto, K., Stringa, B., Hoffmann, C.M. et al. Dissecting cell identity via network inference and in silico gene perturbation. Nature 614, 742–751 (2023).
如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!课代表微信:AimNina。转载请联系本公众号获得授权。