空间转录组学数据(Spatial transcriptomics data,ST data)是一个比较复杂的名词。要理解该名词的含义,首先我们需要理解转录组的概念,学过高中生物的我们知道,转录是指DNA将遗传信息复制到RNA的过程,也就是批量产生RNA分子的过程。通常我们将细胞在转录过程中产生的RNA分子的总和定义为转录组,转录组学则是研究转录组的学科。
转录组学的数据从直觉上理解,便是描述转录组性质的数据。在实际应用中,转录组学的数据是指特定条件和时间点上细胞或者组织中所有基因的表达数据。由于基因是根据RNA的核苷酸序列来描述的,这样的数据形式便和转录组产生了关系。基因表达数据能够反映某段基因在转录水平上的活跃程度,哪些基因在转录过程中被传递到RNA序列的过程中,以及这些基因表达的量。
如果换成机器学习的视角去理解,我们能拿到的实际上是一个组织或细胞的描述,每条数据代表的是一个细胞,“基因表达”是每条数据的特征向量,表示某个基因在这个细胞的转录过程中分别表达了多少。这些细胞可能会具有一些额外的特征,例如细胞的种类,细胞的位置等。事实上,转录组学的数据并不全是以细胞为单位的数据,也有可能会更加细致,直接以转录期间的分子为单位,以这些分子的特性当作特征来构建整个数据集。
在空间转录组学数据中,研究人员通常会将组织切片分成多个小区域,每个区域被称为 “点”(spot)。每个点代表一小块组织,在此区域内的细胞会被分析以确定其基因表达模式。直观来讲,空间转录组学在基因表达信息的基础上增加了空间信息,能够额外提供所描述点集的空间位置,以坐标的形式记录在数据集中。这种形式保留了组织的空间信息,这意味着研究人员可以观察基因表达与组织结构的关系。这对于理解大脑、肿瘤或发育中胚胎等组织的复杂组织结构至关重要。
空间转录组学数据是一种先进的技术,允许研究人员在组织的空间背景下研究基因表达情况。与传统转录组学不同,空间转录组学不仅提供基因表达的数据,还保留了组织中基因表达的空间位置信息,从而使得可以观察特定基因在组织内的具体表达位置。
空间转录组学数据相较于普通的转录组学数据增加了空间信息表达,每一个“点”都有一个具体的2D或者3D坐标,要在机器学习中利用这样的信息,需要选用合理的,能够充分体现空间信息的表示方式。
最暴力的方式是将空间坐标也当作机器学习输入的特征,我们直接将其拼在基因表达的特征当中,当作输入特征的一部分来处理。这种方式确实利用到了空间特征,但是有着许多问题:首先,基因表达的特征是维度非常高的向量,而空间坐标本身只有三维的表示,直接接起来似乎不是很适合直接拿来学习。此外,坐标本身的数值可能会伴随坐标系的构建而产生变化,因此数值蕴含的信息本身不是那么重要,我们更在意的是一种位置的"相对关系",而绝对数值的输入不能够很好的凸显这样的性质。
因此,自然的想法便是让输入本身具有某种结构,而这种结构是依赖于空间信息构建的。这样一来,输入本身便蕴含着空间数据的信息,而不必纠结于其本身的数值和复杂的编码方法。
计算机科学中的图结构,便很适合去结构化该形式的输入。图是由点集合和边集合构成的,我们只需要让点集合体现每条数据的特征,边集合体现每个细胞之间的空间关系,就能够在输入之中蕴含空间信息。构建边的方式可以来自于机器学习的经典分类算法K-近邻算法,将每个节点和其空间上最近邻的K个节点以边相连,也可以设定一个距离阈值,让小于这个阈值的两个节点以边相连,这其实就已经对数据进行了结构化的处理。事实上,前一种方法已经在许多任务中得到青睐。
之前已经提过,图的表示能够结构化空间转录组数据,能够很好的融合空间的信息,这实质上是因为图本身的特性和空间坐标信息的特性具有较高的相似性。
以单细胞空间转录组学数据为例子,我们希望相近的细胞在基因表达上的差别能够比较小或者变化比较平滑,因为相近的细胞更可能属于同一个组织,这就是该数据中空间坐标所能提供的辅助信息。利用图表示,相近的细胞有边连接,而较远的细胞之间没有,该图的结构在学习过程中就能提供这样的结构性约束。单细胞转录组数据可以被理解为行是细胞列是基因的一个矩阵,里面的元素是某个细胞中某个基因的表达程度,额外的空间信息用以说明细胞之间的相似性,在图中就自然的体现为两个细胞节点之间相邻的边。
结构化的表示方式能够使我们同时利用数据中的多种特征,并联合这些特征对数据本身做更全面的理解和学习。隐空间表示便是这种思路的集大成者,设计一个机器学习模型和一个预训练任务,我们能够对于具有多样、复杂特征的数据进行隐空间的编码,从而更简洁、准确的提取出数据集隐含的模式,让数据能够更好的利用于下游的预测任务中。
已有方法
单细胞空间转录组数据的特征包含细胞的基因表达,“点”的空间位置以及组织发育阶段等多种信息。以下笔者将介绍一些在该类数据上学习细胞隐空间表示的方法思路,这些方法的共同点是都将数据先结构化为图,进而在图上去提取该数据的隐空间表示。接下来,我们将介绍几种产生细胞隐空间表示的方法,这些方法均使用了图表示方式去构建输入数据。
SEDR[1]是一个空间转录组学的无监督空间嵌入深度表示框架。SEDR把数据构建为K-近邻图,利用变分图自动编码器(VGAE),与掩码自监督学习框架的结合,从基因表达和空间信息中学习细胞的隐空间表示。通过联合训练掩码自监督深度自编码器和变分图卷积自编码器,SEDR框架能够结合空间信息和基因表达信息二者来给出细胞的隐空间向量表示。
简单来讲,SEDR的图编码器接受的输入是图的邻接矩阵和基因表达特征的初步编码,因此其学习到的表示本身结合了细胞的空间信息和基因表达信息。
STAGATE[2]是一个图注意力自动编码器框架。STAGATE首先基于斑点的相对空间位置构建空间邻居网络(SNN),并可选地通过基于基因表达的预聚类修剪SNN,从而增强对于细胞类型的感知能力。基因表达预聚类可以有效地识别包含不同细胞类型的区域,因此这种细胞类型感知的SNN可以帮助更好地表征低空间分辨率ST数据在这些不同空间域边界的空间相似性。STAGATE通过图形注意力自编码器学习具有空间信息和基因表达的低维隐空间表示。每个细胞归一化的基因表达经过编码器转换为固定维度的隐空间表示,然后通过解码器来重构输入的基因表达。与经典的自动编码器不同,STAGATE在编码器和解码器的中间层采用了注意力机制。它自适应地学习SNN的边缘权重(即相邻点之间的相似性),并进一步使用它们通过集体聚合来自其邻居的信息来更新点表示。
SpaGCN[3]是一个能够整合基因表达、空间位置和组织学的图卷积网络方法。SpaGCN首先构建了一个图来表示所有细胞之间的关系,同时考虑了空间位置和组织学信息。接下来,SpaGCN利用图卷积层来聚合来自相邻点的基因表达信息。然后,SpaGCN使用聚合基因表达矩阵,使用无监督迭代算法对细胞进行聚类。每个聚类簇都被视为一个空间域,SpaGCN通过对基因表达分析检测出在某个域中富集的空间多变基因。当单个基因不足以描述结构域的基因表达模式时,SpaGCN将构建一个由多基因组合形成的元基因,以表示该空间域的基因表达模式。
隐空间表示的应用场景
通过整合数据中多类特征的隐空间表示是一类信息密集且简洁的特征。其在许多下游任务中都能够取得非常好的效果。以下将介绍部分例子
1. 细胞聚类:细胞聚类是单细胞转录组学数据分析中的一个关键步骤,其目的是将具有相似基因表达模式的细胞归为一类,以揭示不同细胞类型、亚型或状态。通过细胞聚类,研究者可以从单细胞水平上探究细胞群体的异质性、细胞谱系关系以及生物学功能。
2. 基因表达去噪:实验得出的转录组数据通常包含噪声,并且基因表达数据的稀疏性很高,因此噪声在利用基因表达数据的推断中对结果会产生不小的影响,因此寻找合适的低维表示能够更好的总结细胞基因表达模式,从而排除噪声和高稀疏性对基因表达本身蕴含信息的影响。
近年来机器学习技术越来越多地被应用到其他领域的问题当中,如何work一直是广大研究者们在思考的问题:设计的方法没有取得预期的效果,究竟是模型本身不合适,还是数据处理不到位?
相较于机器学习本身设计模型,在交叉领域的应用可能更考究数据处理的部分。如果我们能够很好的利用我们能够获取的所有特征,现有的机器学习模型完全有能力理解和拟合数据当中的模式。这就考验研究者们是否能够深入理解数据的本质,能够基于数据的特性采用合适的处理方式,进而采用合适的模型,得到出色的结果。
本文提到的空间转录组数据便是描述实际应用场景的数据,其包含的特征复杂,信息量大,而基于图的表示体现了研究者们对于这类数据的理解,通过构建图的方式,让基于图网络的模型能够在这类数据相关的问题上大放异彩。
【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!
目前已有1000+人关注加入我们