空间转录组学数据怎么玩转自如？建图就可以了！

文摘 2024-10-16 12:16 中国香港

空间转录组学数据是怎样的数据？

空间转录组学数据(Spatial transcriptomics data，ST data)是一个比较复杂的名词。要理解该名词的含义，首先我们需要理解转录组的概念，学过高中生物的我们知道，转录是指DNA将遗传信息复制到RNA的过程，也就是批量产生RNA分子的过程。通常我们将细胞在转录过程中产生的RNA分子的总和定义为转录组，转录组学则是研究转录组的学科。

转录组学的数据从直觉上理解，便是描述转录组性质的数据。在实际应用中，转录组学的数据是指特定条件和时间点上细胞或者组织中所有基因的表达数据。由于基因是根据RNA的核苷酸序列来描述的，这样的数据形式便和转录组产生了关系。基因表达数据能够反映某段基因在转录水平上的活跃程度，哪些基因在转录过程中被传递到RNA序列的过程中，以及这些基因表达的量。

如果换成机器学习的视角去理解，我们能拿到的实际上是一个组织或细胞的描述，每条数据代表的是一个细胞，“基因表达”是每条数据的特征向量，表示某个基因在这个细胞的转录过程中分别表达了多少。这些细胞可能会具有一些额外的特征，例如细胞的种类，细胞的位置等。事实上，转录组学的数据并不全是以细胞为单位的数据，也有可能会更加细致，直接以转录期间的分子为单位，以这些分子的特性当作特征来构建整个数据集。

在空间转录组学数据中，研究人员通常会将组织切片分成多个小区域，每个区域被称为 “点”(spot)。每个点代表一小块组织，在此区域内的细胞会被分析以确定其基因表达模式。直观来讲，空间转录组学在基因表达信息的基础上增加了空间信息，能够额外提供所描述点集的空间位置，以坐标的形式记录在数据集中。这种形式保留了组织的空间信息，这意味着研究人员可以观察基因表达与组织结构的关系。这对于理解大脑、肿瘤或发育中胚胎等组织的复杂组织结构至关重要。

空间转录组学数据是一种先进的技术，允许研究人员在组织的空间背景下研究基因表达情况。与传统转录组学不同，空间转录组学不仅提供基因表达的数据，还保留了组织中基因表达的空间位置信息，从而使得可以观察特定基因在组织内的具体表达位置。

图(Graph): 空间转录组学数据的表示

空间转录组学数据相较于普通的转录组学数据增加了空间信息表达，每一个“点”都有一个具体的2D或者3D坐标，要在机器学习中利用这样的信息，需要选用合理的，能够充分体现空间信息的表示方式。

最暴力的方式是将空间坐标也当作机器学习输入的特征，我们直接将其拼在基因表达的特征当中，当作输入特征的一部分来处理。这种方式确实利用到了空间特征，但是有着许多问题：首先，基因表达的特征是维度非常高的向量，而空间坐标本身只有三维的表示，直接接起来似乎不是很适合直接拿来学习。此外，坐标本身的数值可能会伴随坐标系的构建而产生变化，因此数值蕴含的信息本身不是那么重要，我们更在意的是一种位置的"相对关系"，而绝对数值的输入不能够很好的凸显这样的性质。

因此，自然的想法便是让输入本身具有某种结构，而这种结构是依赖于空间信息构建的。这样一来，输入本身便蕴含着空间数据的信息，而不必纠结于其本身的数值和复杂的编码方法。

计算机科学中的图结构，便很适合去结构化该形式的输入。图是由点集合和边集合构成的，我们只需要让点集合体现每条数据的特征，边集合体现每个细胞之间的空间关系，就能够在输入之中蕴含空间信息。构建边的方式可以来自于机器学习的经典分类算法K-近邻算法，将每个节点和其空间上最近邻的K个节点以边相连，也可以设定一个距离阈值，让小于这个阈值的两个节点以边相连，这其实就已经对数据进行了结构化的处理。事实上，前一种方法已经在许多任务中得到青睐。

图表示空间转录组数据的优势

之前已经提过，图的表示能够结构化空间转录组数据，能够很好的融合空间的信息，这实质上是因为图本身的特性和空间坐标信息的特性具有较高的相似性。

以单细胞空间转录组学数据为例子，我们希望相近的细胞在基因表达上的差别能够比较小或者变化比较平滑，因为相近的细胞更可能属于同一个组织，这就是该数据中空间坐标所能提供的辅助信息。利用图表示，相近的细胞有边连接，而较远的细胞之间没有，该图的结构在学习过程中就能提供这样的结构性约束。单细胞转录组数据可以被理解为行是细胞列是基因的一个矩阵，里面的元素是某个细胞中某个基因的表达程度，额外的空间信息用以说明细胞之间的相似性，在图中就自然的体现为两个细胞节点之间相邻的边。

图表示数据的应用——细胞的隐空间表示

结构化的表示方式能够使我们同时利用数据中的多种特征，并联合这些特征对数据本身做更全面的理解和学习。隐空间表示便是这种思路的集大成者，设计一个机器学习模型和一个预训练任务，我们能够对于具有多样、复杂特征的数据进行隐空间的编码，从而更简洁、准确的提取出数据集隐含的模式，让数据能够更好的利用于下游的预测任务中。

已有方法

单细胞空间转录组数据的特征包含细胞的基因表达，“点”的空间位置以及组织发育阶段等多种信息。以下笔者将介绍一些在该类数据上学习细胞隐空间表示的方法思路，这些方法的共同点是都将数据先结构化为图，进而在图上去提取该数据的隐空间表示。接下来，我们将介绍几种产生细胞隐空间表示的方法，这些方法均使用了图表示方式去构建输入数据。

SEDR[1]是一个空间转录组学的无监督空间嵌入深度表示框架。SEDR把数据构建为K-近邻图，利用变分图自动编码器（VGAE），与掩码自监督学习框架的结合，从基因表达和空间信息中学习细胞的隐空间表示。通过联合训练掩码自监督深度自编码器和变分图卷积自编码器，SEDR框架能够结合空间信息和基因表达信息二者来给出细胞的隐空间向量表示。

简单来讲，SEDR的图编码器接受的输入是图的邻接矩阵和基因表达特征的初步编码，因此其学习到的表示本身结合了细胞的空间信息和基因表达信息。

STAGATE[2]是一个图注意力自动编码器框架。STAGATE首先基于斑点的相对空间位置构建空间邻居网络（SNN），并可选地通过基于基因表达的预聚类修剪SNN，从而增强对于细胞类型的感知能力。基因表达预聚类可以有效地识别包含不同细胞类型的区域，因此这种细胞类型感知的SNN可以帮助更好地表征低空间分辨率ST数据在这些不同空间域边界的空间相似性。STAGATE通过图形注意力自编码器学习具有空间信息和基因表达的低维隐空间表示。每个细胞归一化的基因表达经过编码器转换为固定维度的隐空间表示，然后通过解码器来重构输入的基因表达。与经典的自动编码器不同，STAGATE在编码器和解码器的中间层采用了注意力机制。它自适应地学习SNN的边缘权重（即相邻点之间的相似性），并进一步使用它们通过集体聚合来自其邻居的信息来更新点表示。

SpaGCN[3]是一个能够整合基因表达、空间位置和组织学的图卷积网络方法。SpaGCN首先构建了一个图来表示所有细胞之间的关系，同时考虑了空间位置和组织学信息。接下来，SpaGCN利用图卷积层来聚合来自相邻点的基因表达信息。然后，SpaGCN使用聚合基因表达矩阵，使用无监督迭代算法对细胞进行聚类。每个聚类簇都被视为一个空间域，SpaGCN通过对基因表达分析检测出在某个域中富集的空间多变基因。当单个基因不足以描述结构域的基因表达模式时，SpaGCN将构建一个由多基因组合形成的元基因，以表示该空间域的基因表达模式。

隐空间表示的应用场景

通过整合数据中多类特征的隐空间表示是一类信息密集且简洁的特征。其在许多下游任务中都能够取得非常好的效果。以下将介绍部分例子

1. 细胞聚类：细胞聚类是单细胞转录组学数据分析中的一个关键步骤，其目的是将具有相似基因表达模式的细胞归为一类，以揭示不同细胞类型、亚型或状态。通过细胞聚类，研究者可以从单细胞水平上探究细胞群体的异质性、细胞谱系关系以及生物学功能。

2. 基因表达去噪：实验得出的转录组数据通常包含噪声，并且基因表达数据的稀疏性很高，因此噪声在利用基因表达数据的推断中对结果会产生不小的影响，因此寻找合适的低维表示能够更好的总结细胞基因表达模式，从而排除噪声和高稀疏性对基因表达本身蕴含信息的影响。

总结：数据处理的因地制宜

近年来机器学习技术越来越多地被应用到其他领域的问题当中，如何work一直是广大研究者们在思考的问题：设计的方法没有取得预期的效果，究竟是模型本身不合适，还是数据处理不到位？

相较于机器学习本身设计模型，在交叉领域的应用可能更考究数据处理的部分。如果我们能够很好的利用我们能够获取的所有特征，现有的机器学习模型完全有能力理解和拟合数据当中的模式。这就考验研究者们是否能够深入理解数据的本质，能够基于数据的特性采用合适的处理方式，进而采用合适的模型，得到出色的结果。

本文提到的空间转录组数据便是描述实际应用场景的数据，其包含的特征复杂，信息量大，而基于图的表示体现了研究者们对于这类数据的理解，通过构建图的方式，让基于图网络的模型能够在这类数据相关的问题上大放异彩。

【注意：转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者，可以备注“AIMS”联系课代表。也欢迎大家投稿！

AIMShare课代表咨询

童鞋，看这里

目前已有1000+人关注加入我们

推荐阅读

high-quality content

结构生物学“去污名化”：AI虽好，也不能贪杯喔

AIMShare

DNA语言模型：理解基因组的强大新工具

AIMShare

学术先锋｜源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

AIMShare

http://mp.weixin.qq.com/s?__biz=MzkyODczMTY4OQ==&mid=2247484759&idx=1&sn=edb52068ab11b48d3124180e89a58fc2

AIMShare

AlMShare（Al with Mission and Social responsibility）是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养，致力于打破该领域信息差。

最新文章

申请季前谈：如何准备面试（委员会Commitee）

利用结构预测工具，开发RNA适体设计新方法！

特朗普当选美国总统：留学与科研或将迎来大地震

生信研究如何画图？收下这份硬核无广入门指南！

Nature: 研究生如何在老板面前抗压？

“数学天才”姜萍违反规则：科学同样需要质疑与真诚

如何在学术会议上拿捏成果展示？Nature有好建议！

单细胞研究必看！如何在自己的课题中使用单细胞大模型？

Nature：如果导师不愿意给推荐人写推荐信，怎么办？

绘制糖蛋白结构来揭示黄病毒科进化史，登上Nature

深度学习+神经元形态，详细梳理最新进展！（下）

空间转录组学数据怎么玩转自如？建图就可以了！

深度学习+神经元形态，详细梳理最新进展！(上）

申请季前谈：申请季面试，你准备好了吗？实用指南在此

DNA语言模型：理解基因组的强大新工具

学术先锋｜源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

结构生物学“去污名化”：AI虽好，也不能贪杯喔

CytoCommunity：图神经网络革新细胞邻域识别

不止于Alphafold3！深度解析AI预测生物分子相互作用那些事～

从AF2到AF3，AlphaFold又进化了！

如何将ChatGPT用于科研？Nature有建议！

机器学习在抗菌肽识别与设计中的应用

基于对比学习的酶蛋白功能预测工具，登上Science的工作如何在一年内产生深远影响？

从小白到Nature子刊发表，AI forBiology/Science学习路径

如何申请MPhil项目？港大学长经验贴

通俗解析生物信息学中的多模态研究：单细胞多组学

如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

语言模型革新同源蛋白检测，Nature Biotechnology一作聊聊论文里没有的细节！

如何写一个Research Proposal-以《基于煸炒过程加蒜技术的红烧牛肉烹饪方法》为例

从数据处理到模型训练，一文速览单细胞大语言模型进展

生物信息大模型卷起来了：应用与前景浅谈

申请季前谈：如何选择适合自己的课题组

破解RNA逆向折叠难题，扩散模型在生物大分子数据上的又一妙用！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉