单细胞空间转录组分析流程学习(二)

文摘 2024-10-18 18:29 日本

本次使用GSE217414数据，包含4个结直肠癌肝转移患者样本数据，这个数据集的数据整理的挺好的，都做了归类。

1.导入

rm(list = ls())
library(Seurat) # 4.4.0
library(SeuratData) # 5.0.2
library(tidyverse)
library(sloop)
library(ggplot2)
library(patchwork)
library(dplyr)

# 10x Visium
sce_s <- Load10X_Spatial(data.dir = "./RawData/GSE6716963/",
                           filename = "GSM6716963_19G081_filtered_feature_bc_matrix.h5")

# # 高像素
# image <- Read10X_Image(image.dir = "./RawData/GSM5494475/spatial/",
#                        image.name = "tissue_hires_image.png")
# sce_s <- Load10X_Spatial(data.dir = "./RawData/GSM5494475", image = image,
#                                  filename = "GSM5494475_HNSCC201125T04_filtered_feature_bc_matrix.h5")

2.check数据

head(sce_s[["slice1"]]@coordinates)
#                    tissue row col imagerow imagecol
# AAACAAGTATCTCCCA-1      1  50 102     1363     3426
# AAACACCAATAACTGC-1      1  59  19     4005     3980
# AAACAGAGCGACTCCT-1      1  14  94     1658     1430
# AAACATTTCCCGGATT-1      1  61  97     1510     4041
# AAACCGGGTAGGTACC-1      1  42  28     3736     3029
# AAACCGTTCGTCCAGG-1      1  52  42     3278     3576

dim(sce_s[["slice1"]]@image)
# [1] 564 600   3
# 564 和 600：表示图像的高度(564像素)和宽度(600像素)。
# 3：表示图像的颜色通道数，即RGB(红、绿、蓝)三通道。每个像素位置有三个值，分别对应于红色、绿色和蓝色的强度，用于合成彩色图像。

head(GetTissueCoordinates(sce_s))
#                    imagerow imagecol
# AAACAAGTATCTCCCA-1 148.1522 372.3913
# AAACACCAATAACTGC-1 435.3261 432.6087
# AAACAGAGCGACTCCT-1 180.2174 155.4348
# AAACATTTCCCGGATT-1 164.1304 439.2391
# AAACCGGGTAGGTACC-1 406.0869 329.2391
# AAACCGTTCGTCCAGG-1 356.3043 388.6956
head(GetTissueCoordinates(sce_s[["slice1"]]))
#                    imagerow imagecol
# AAACAAGTATCTCCCA-1 148.1522 372.3913
# AAACACCAATAACTGC-1 435.3261 432.6087
# AAACAGAGCGACTCCT-1 180.2174 155.4348
# AAACATTTCCCGGATT-1 164.1304 439.2391
# AAACCGGGTAGGTACC-1 406.0869 329.2391
# AAACCGTTCGTCCAGG-1 356.3043 388.6956

@coordinates：

这里的 @coordinates 提供的是点在全分辨率下（即加载的原始HE图像分辨率）的坐标。因此，这些坐标直接反映在原始高分辨率图像上的点的像素位置。

GetTissueCoordinates()：

GetTissueCoordinates() 返回的坐标通常是基于缩放后的图像，即使用了低分辨率图像进行缩放或处理后的点的坐标。Seurat 会将这些缩放后的图像应用到显示或处理操作中。

纠正上一个推文的错误，这里的数据不一致是正确的，是因为缩放的原因

3.数据预处理

plot1 <- VlnPlot(sce_s, features = "nCount_Spatial", pt.size = 0.2) + 
  NoLegend()
plot2 <- SpatialFeaturePlot(sce_s, features = "nCount_Spatial",
                            pt.size.factor = 2) + 
  theme(legend.position = "right")
wrap_plots(plot1, plot2)

# SCTransform归一化
library(glmGamPoi)
sce_s <- SCTransform(sce_s, assay = "Spatial", 
                     return.only.var.genes = FALSE, verbose = FALSE)


SpatialDimPlot(sce_s,alpha = 0)

4.基因表达可视化

SpatialFeaturePlot(sce_s, features = c("TP53", "CD3E"))
                  # pt.size.factor = 2)

library(ggplot2)
plot <- SpatialFeaturePlot(sce_s, features = c("TP53")) +
                        # alpha = c(0.1, 1)调整透明度   pt.size.factor = 5)
                        theme(legend.text = element_text(size = 0),
    legend.title = element_text(size = 20), 
    legend.key.size = unit(1, "cm"));plot
ggsave(filename = "./output/images/spatial_tp53.pdf", 
       height = 9, width = 7)

5.降维聚类可视化

sce_s <- RunPCA(sce_s, assay = "SCT", verbose = FALSE)
sce_s <- FindNeighbors(sce_s, reduction = "pca", dims = 1:30)
sce_s <- FindClusters(sce_s, verbose = FALSE)
sce_s <- RunUMAP(sce_s, reduction = "pca", dims = 1:30)

p1 <- DimPlot(sce_s, reduction = "umap", label = TRUE)
p2 <- SpatialDimPlot(sce_s, label = TRUE, label.size = 3)
                     #pt.size.factor = 2)
p1 + p2

6.提取特定clusters

SpatialDimPlot(sce_s, 
               cells.highlight = CellsByIdentities(object = sce_s,
                                                   idents = c(2,4,6)), 
               facet.highlight = TRUE, ncol = 3)

7.交互式绘图

# 设置interactive为True
SpatialDimPlot(sce_s, interactive = TRUE)
SpatialFeaturePlot(sce_s, features = "TP53", interactive = TRUE)

8.空间可变特征识别

一、根据组织内预先注释的解剖区域进行差异表达,比如上面通过FindClusters找到的不同cluster

# 指定比较clust5和6
de_markers <- FindMarkers(sce_s, ident.1 = 5, ident.2 = 6)
# 在空间位置上可视化差异表达基因
SpatialFeaturePlot(object = sce_s, 
                   features = rownames(de_markers)[1:3], 
                   alpha = c(0.1, 1), #pt.size.factor = 5,
                   ncol = 3)

二、FindSpatiallyVariables中实现的另一种方法是在没有预注释的情况下搜索表现出空间模式的特征

# 默认method = 'markvariogram', 其他有moransi等
# 差异基因从高变基因中获取
sce_s <- FindSpatiallyVariableFeatures(sce_s, 
                                       assay = "SCT", 
                                       features = VariableFeatures(sce_s)[1:1000],
                                       selection.method = "moransi")
# 提取6个差异基因看一看
top.features <- head(SpatiallyVariableFeatures(sce_s,selection.method = "moransi"),6)

# 异基因可视化/笔者这里自定义了
top.features <- c("CASQ1", "AEBP1", "MME")
SpatialFeaturePlot(sce_s, features = top.features, 
                   ncol = 3, , alpha = c(0.1, 1)) #pt.size.factor = 5

9.对解剖区域(clusters)子集化

修整图片范围

# 根据切片图像坐标(前缀需和Key保持一致),进一步去除多余的spots数据:
datSub <- subset(sce_s, idents = c(1, 2, 3))
SpatialDimPlot(datSub, crop = TRUE, label = TRUE,label.size = 3) # pt.size.factor = 5,

# 获得坐标信息
img<- GetTissueCoordinates(datSub)
head(img)
# 获得cluster的信息
ident<- Idents(datSub)
head(ident)
# 合并切片图像坐标、分群信息；
imgId<- data.frame(img,ident)
head(imgId)
# 赵小明777老师指出显微照片的像素坐标原点在左上角，而图表的原点在左下角，因此需要做垂直翻转y=540-imagerow：
library(ggplot2)
ggplot(img, aes(x=imagecol, y=540-imagerow,color = ident)) +
  geom_point(size = 1.6)+
  theme_bw()

datSub <- subset(datSub, imagecol > 200 | imagecol < 400, invert = TRUE)
p1 <- SpatialDimPlot(sce_s, crop = TRUE, label = TRUE)
p2 <- SpatialDimPlot(datSub, crop = FALSE, label = TRUE, pt.size.factor = 1, label.size = 3)
p1 + p2

这里笔者根据10X官网和其他老师的代码做了尝试，但是出现了报错，目前还没有找到解决的办法hhh但不影响后面的分析。

10.整合单细胞+空转数据

library(dplyr)
library(qs)
reference <- qread("sc_dataset.qs") 
reference <- subset(reference,downsample = 2000)
reference <- SCTransform(reference,ncells = 3000, 
                         verbose = FALSE) %>%
    RunPCA(verbose = FALSE) %>%
    RunUMAP(dims = 1:30)

DimPlot(reference, group.by = "celltype", label = TRUE)

这次换一个新演员整合两者的数据

anchors <- FindTransferAnchors(reference = reference, 
                               query = sce_s, 
                               normalization.method = "SCT")
predictions.assay <- TransferData(anchorset = anchors, 
                                  refdata = reference$celltype, 
                                  prediction.assay = TRUE,
                                  weight.reduction = sce_s[["pca"]], 
                                  dims = 1:30)
sce_s[["predictions"]] <- predictions.assay

整合进去了可视化-细胞亚群映射

DefaultAssay(sce_s) <- "predictions"
SpatialFeaturePlot(sce_s, features = c("mast cells", "C3"), 
                   pt.size.factor = 1.6, ncol = 2, crop = TRUE)

根据这些预测分数，使用者可以预测位置受空间限制的细胞类型(这里就是能够观察不同细胞亚群在组织上的空间位置)。

使用基于marker point的方法来定义空间高变特征,但使用细胞类型预测分数作为“标记”而不是基因表达。

# 同样需要获取高变异特征，但映射的时候使用的是celltype的分数
sce_s <- FindSpatiallyVariableFeatures(sce_s,
                                       assay = "predictions", 
                                       selection.method = "moransi",
                                       features = rownames(sce_s),
                                       r.metric = 5, slot = "data")
# 提取4个差异clsutes看一看
top.clusters <- head(SpatiallyVariableFeatures(sce_s, selection.method = "moransi"), 4)
SpatialPlot(object = sce_s, features = top.clusters, ncol = 2)

这个不展示了，跟上面的图是差不多的。

今天暂时学习到这儿，走完这个流程就已经可以增加基因表达情况和细胞亚群在组织中分布的情况了~ 但没有解决怎么剪裁HE图片hhh

参考资料：

10XGENOMICS：https://www.10xgenomics.com/cn
Seurat空转：https://satijalab.org/seurat/articles/spatial_vignette.html
生信技能树：https://mp.weixin.qq.com/s/C57QHpg_uD_YkgrmnvRMPA https://mp.weixin.qq.com/s/xVYCwfJI4MUAuka1W99efQ
生信随笔：https://mp.weixin.qq.com/s/X8eP58iDEx4j7pSyGbze9Q

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247486165&idx=1&sn=1daf47e5d4f75e6e253827ccfb706acc

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉