Spateo-空间转录组的瑞士军刀-教程3：重构3D组织——切片对齐：基础使用

文摘 2024-12-13 07:00 北京

之前关于Spateo的介绍已经分享两期了

空间转录组通过对组织切片进行 mRNA 的原位标记，使研究人员能够在二维水平上解析基因的位置特征及其生物学意义。然而，组织通常是三维结构，由多个细胞层堆叠形成。通过对样本进行连续切片采样，并对切片数据进行对齐，空间转录组技术能够将这些数据堆叠重构为组织的三维结构，从而在真正的空间维度上深入理解基因的位置特征及其功能意义。

准确对齐空间转录组切片，从而重构三维结构，为后续的三维甚至四维分析奠定了基础。Spateo 开发了能够进行非刚性和部分对齐的数学模型。在 GPU 加速、随机变分推断（SVI）、引导变量和稀疏计算的帮助下，Spateo 实现了非常高的效率和可扩展性。在这里，我们介绍下Spateo 如何执行基本的切片对齐，并学习如何在 Spateo 中利用非刚性和部分对齐。

Spateo 2D 切片对齐的基本使用方法

简要介绍 Spateo 对 2D 切片对齐的基本使用方法。这一步需要两张连续的空间转录组切片，每张切片包含基因表达数据和空间坐标。在切片、文库准备和测序之后，细胞/spot在各切片之间的相对坐标通常会丢失。我们的目标是将这两个样本进行对齐，使得它们之间对应的细胞/spot具有相似的表达数据，同时保留样本中spot的空间分布。

import osos.environ['CUDA_VISIBLE_DEVICES'] = '0'
import torchdevice = 'cuda' if torch.cuda.is_available() else 'cpu'print("Running this notebook on: ", device)
import spateo as stprint("Last run with spateo version:", st.__version__)
# Other importsimport warningswarnings.filterwarnings('ignore')import matplotlib.pyplot as pltimport scanpy as scimport anndata as ad
%config InlineBackend.print_figure_kwargs={'facecolor' : "w"}%config InlineBackend.figure_format='retina'

教程中，使用来自小鼠胚胎 E9.5 发育阶段的数据，这些数据是通过 Stereo-Seq 技术获得的。具体来说，我们将使用切片 #32 和 #33 作为示例数据。这些切片分别包含 17,425 个和 19,939 个细胞。

下载数据

wget https://drive.google.com/file/d/16gh_vApgzlvrplzbxYe-eODjZhvdNM4Z/view?usp=drive_linkwget https://drive.google.com/file/d/1n49YCLeqjTlYyHHBzJKmIisbIau8N9Fp/view?usp=drive_link

加载数据

# Load the slicesslice1 = st.read('./data/basic_usage_demo_1.h5ad')slice2 = st.read('./data/basic_usage_demo_2.h5ad')
slice1, slice2

（可选且推荐）数据预处理
在进行下一步之前，建议进行一些基本的质量控制、归一化和特征选择。这些预处理步骤可以增强下游应用程序的稳定性和性能，包括 Spateo 包中的 3D 对齐。参考 Scanpy 中针对 scRNA-seq 数据的标准预处理工作流程，并分别处理这两张切片。

# preprocess slice1sc.pp.filter_cells(slice1, min_genes=10)  # we use min_genes=10 as 100 is too large for ST datasc.pp.filter_genes(slice1, min_cells=3)# Saving count dataslice1.layers["counts"] = slice1.X.copy()# Normalizing to median total countssc.pp.normalize_total(slice1)# Logarithmize the datasc.pp.log1p(slice1)# annotates highly variable genessc.pp.highly_variable_genes(slice1, n_top_genes=2000)
# preprocess slice1sc.pp.filter_cells(slice2, min_genes=10)sc.pp.filter_genes(slice2, min_cells=3)# Saving count dataslice2.layers["counts"] = slice2.X.copy()# Normalizing to median total countssc.pp.normalize_total(slice2)# Logarithmize the datasc.pp.log1p(slice2)# annotates highly variable genessc.pp.highly_variable_genes(slice2, n_top_genes=2000)

在对齐前可视化切片
使用 Spateo 的绘图功能可视化这两张切片的空间分布。这两张切片没有对齐，这为后续的 3D 分析带来了挑战。

spatial_key = 'spatial'cluster_key = 'cellbin_SpatialDomain'
st.pl.slices_2d(    slices = [slice1, slice2],    label_key = cluster_key,    spatial_key = spatial_key,    height=4,    center_coordinate=True,    show_legend=True,    legend_kwargs={'loc': 'upper center', 'bbox_to_anchor': (0.5, 0) ,'ncol': 5, 'borderaxespad': -4, 'frameon': False},)

（可选且推荐）在两张切片之间进行 PCA
主成分分析（PCA）是一种经典的线性降维算法，可以从数据中提取主要特征，同时去噪。与直接使用原始的高维基因表达矩阵相比，利用 PCA 特征生成映射概率通常能获得更好的性能。此外，使用较少维度的特征可以显著减少计算相似度矩阵时的计算开销。

需要注意的是，PCA 应该在两张切片之间进行，而不是分别在每张切片上独立执行，以确保特征表示在 PCA 空间中的对齐。因此，在接下来的步骤中，我们首先将两张切片合并为一个数据集，然后使用 Scanpy 提供的函数执行 PCA。最后，我们使用“batch”键提取相应的 PCA 特征。

st.align.group_pca([slice1,slice2], pca_key='X_pca')
slice1, slice2

Spateo 对齐：Spateo 对齐操作简单易用、可扩展且高效。通过简单调用 st.align.morpho_align，您可以在几秒钟内获得对齐后的切片和对应的映射矩阵（如果支持 CUDA，速度更快）。在本例中，我们将使用之前提取的高变基因及其 PCA 表示来进行对齐。以下是对该函数输入参数的解释：

models：需要对齐的切片，使用的是高变基因。
rep_layer：要使用的表示名称。
rep_field：在 AnnData 中存储表示的字段。
dissimilarity：计算相似度的方法。
spatial_key：AnnData 中 .obsm 对应空间坐标的键。
key_added：对齐后的空间坐标将添加到 .obsm 中的键。
device：用于计算的设备，可以是 "cpu" 或 "cuda"。

key_added = 'align_spatial'# spateo return aligned slices as well as the mapping matrixaligned_slices, pis = st.align.morpho_align(    models=[slice1, slice2],    ## Uncomment this if use highly variable genes    # models=[slice1[:, slice1.var.highly_variable], slice2[:, slice2.var.highly_variable]],    ## Uncomment the following if use pca embeddings    # rep_layer='X_pca',    # rep_field='obsm',    # dissimilarity='cos',    verbose=False,    spatial_key=spatial_key,    key_added=key_added,    device=device,)

可视化对齐完成后，我们可以通过可视化两张切片的叠加结果来检查对齐效果。这可以通过调用 st.pl.overlay_slices_2d 来轻松实现。在接下来的步骤中，我们将可视化刚性对齐和非刚性对齐的结果。刚性对齐解决了旋转和平移的问题，而非刚性对齐则更好地拟合局部结构。

st.pl.overlay_slices_2d(slices = aligned_slices, spatial_key = key_added, height=5, overlay_type='backward')

st.pl.overlay_slices_2d(slices = aligned_slices, spatial_key = key_added+'_nonrigid', height=5, overlay_type='backward')

Spateo 对齐功能简单易用，又精确高效。Spateo 提供了许多其他强大的功能，包括 2D 切片对齐、3D 空间转录组重构、3D 感知数字化/细胞间相互作用以及 4D 时空映射。

这次生信的大纲内容进行全面的调整，想了解生信的，跟班的，可以看下面👇这个文章

这次可不是只学单细胞，基本上从基础到多组学、空间、机器学习一条龙全打通了

单细胞数据分析需求的可以看👇这个文章

没有服务器，单细胞数据搞不定？我们目前做好了这些pipeline，可以帮你做（近期又添加了21 年发表在了 Cell上面的单细胞转录组分析代谢的分析——compass从前天的Nature中，我学到了21 年 Cell开发的单细胞代谢状态的计算——一起学代码）

生信钱同学

北京大学在读博士生，记录自己的学习日常🌞分享生信知识：如单细胞和空间测序、多组学分析、宏基因组、病理组学、影像组学等生物信息学、机器学习和深度学习内容🌬

最新文章

原来病理组学的质控是这么做的，这篇NC解决了这个问题

刚发的NC,想把空间组学学透，那就看这篇。一个技术不够，就多用几个

NCBI公共数据库中的数据该怎么下载，一条命令自动并行下载，公共数据深度挖掘

Nat Genet｜还是经典的课题设计，这些生信思路适用于临床科研人员——空间组学数据分析

Spateo-空间转录组的瑞士军刀-教程3：重构3D组织——切片对齐：基础使用

实用型绘图技巧分享——如何让热图的列聚类按照自己的想的顺序展示呢

又看到这个单细胞差异丰度分析用在顶刊上了，可以试下

单细胞多组学，空间数据分析代码，这篇Nature Medicine可以学

这篇Nature生信和实验部分衔接的太好了，简单的机制和思路。生信找东西，有用

从Nat Cancer 详解Scenic+用法：单细胞转录因子分析

Nature genetics你的单细胞数据也可以分析可变剪接，快补上这个分析

Spateo-空间转录组分析流程2：空间可变基因

T细胞注释搞不清楚，最近刚发的这篇Nat Methods肯定能给你整明白

Spateo-空间转录组的瑞士军刀-教程1：细胞分割

没有服务器，单细胞数据搞不定？我们目前做好了这些pipeline，可以帮你做

NC空间组学，与基因组特征结合，他给的代码基本上能把文章复现一下

Nature来解决生信痛点了，构建细胞图谱基础模型，推动跨数据集人类细胞相似性搜索

原来Scenic转录因子分析升级到Scenic+了，这篇Nat Cancer做了一个示范应用

系统学习单细胞多组学、空间转录组和机器学习单细胞分析应用线上会议11月30日开始

Cell教咱们学习一套的蛋白质组学的分析流程，5万多人

这次可不是只学单细胞，基本上从基础到多组学、空间、机器学习一条龙全打通了

Cell新发现，比较喜欢学习这种新的细胞类型的发现和验证过程，还有生信代码学

Nature单细胞测序还是能发现很多有意思的事情的，确实有用

这篇Nature Cancer以生信为主哎，标准的分析流程，不用太分领域都能用

对于咱们生信人来讲，通关了黑神话，显卡还能做点啥？GPU加速单细胞分析

Nature刚发的这个模型从结果上看很不错哎，挺有应用前景

活动名单公布；这篇NC单细胞数据分析的好简单啊，感觉只要入个门这些都能做出啦，用不了多久

真漂亮，这是这个月华大空间技术的第二篇Cell了，看看他们的3D时空建模框架——Spateo

SCENIC寻找转录调控因子太慢了？那就试试这个NC新方法scRegClust

这次有活动参与——NC还是比较喜欢生信文章，不需小鼠实验，单细胞+免疫组化+RNAscope即可，常规验证思路

这一期的nature两篇文章都在报道外染色体DNA（ecDNA），有何异同，了解一下重要性

这篇Cell的图也太漂亮的吧，简直是一种欣赏，生信空间组学

除了单细胞和单细胞核测序，这个文章还做了4种空间组学测序，这些技术组学有哪些优势？

干湿结合，看看这篇NC是怎么用好生信数据的，还有公共数据——学习本文代码

这篇Nature生信方法写的太详细了，能学到不少东西，Hotspot基因模块用好它，为什么用它？

审稿人意见：生信结果相关性才0.2-0.4，会不会不太行啊，该怎么解？

为啥我一直找不到做空间基因组测序的啊，看来要借助这种算法推断了

咱们的PCA分析除了降纬，还含有一些重要信息，你注意到了吗？

差异基因找的不好？Cell刚发的这个单细胞差异统计的方法，可以用到咱们自己的数据上

咱们的数据也能用这个生信方法试一试，看看有没有啥可用的发现

全代码干货奉上——多样本多方案去除单细胞环境RNA污染——这次把这个聊清楚

干细胞样CD4 T细胞——看看咱们的数据中有没有这个亚群，有没有这种分化潜力，我的数据中是能找到

Nature单细胞多组学+空间组学，看看他们怎么落脚细胞间通讯的

现在这个角度生信做起来还是挺有潜力的，所需样本量不多，估计很快也会被做完了

在没有目标的情况下，单细胞测序的数据该怎么用，怎么用好单测和公共数据？

亲测一批国产单细胞数据，没啥问题，国产单细胞新秀-寻因生物seeksoultools的使用

Bulk RNA-seq怎么找到与预后相关的细胞类型和靶基因——学习下这篇NC，代码分析

每一个单细胞图谱都有很多的生信地方可以学习，看看今日 Nature——学习笔记记录

单细胞测序拟时序生信分析，怎么选择起始点？——看看他们怎么选的

这应该是近期第三篇B细胞图谱了吧，这次是Cancer cell，3篇全看，弄懂泛癌分析策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉