复现/实战 | 基于python和R的单细胞数据整合

学术 2024-10-09 00:06 四川

基于对图谱类⽂章的整理，我们发现⼤量单细胞数据的整合主要是基于 Python 的 BBKNN ⽅法以及基于 R的 harmony ⽅法和 RPCA ⽅法，下⾯本⽂依次对三种⽅法进⾏代码实践

1 基于 python 的 BBKNN：

其实，python 的 scanpy 流程（https://scanpy.readthedocs.io/en/stable/index.html）被设计出来就是⽤来整合百万级单细胞数据的

其中，BBKNN 去批次的 Documentation 链接如下：https://scanpy.readthedocs.io/en/stable/tutorials/basics/integrating-data-using-ingest.html。本⽂重点在于整合，因此数据预处理过程不在此赘述，分析的起点就是⼀个 merge 了多个数据集的经过normalize 的百万细胞级 adata 对象，adata.obs 中包含批次变量（样本标识 orig.ident 或者数据集标识batch），去批次前再次进⾏必要的数据预处理（这⼀步还有个主要⽬的是通过减少纳⼊分析的基因数量减轻运算负担）：scale，top2000高变基因，PCA，neighbor，UMA

sc.pp.scale(adata, max_value=10)sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5, n_top_genes = 2000)adata= adata[:, adata.var.highly_variable]
sc.pp.pca(adata)sc.pp.neighbors(adata)sc.tl.umap(adata)

这一步完成后得到adata对象如下：

随后是BBKNN步骤：

sc.external.pp.bbknn(adata_concat, batch_key="batch") #这里是去除数据集间的批次，也可以去除样本间的批次，可以都做比较一下结果sc.tl.umap(adata_concat)sc.pl.umap(    adata_concat, color=["batch"], palette=sc.pl.palettes.vega_20_scanpy)

去批次结果如下，结果还是相当不错的！

2 基于R的整合与去批次

其实在python中得到百万级adata对象前预处理过程的计算压力还是很大的，如果相同的过程再在R中过一遍那必定会是一场硬仗，所以这里就参考了单细胞天地中关于adata对象和seurat对象间转换的文章：https://mp.weixin.qq.com/s/vJrfJE5Eh4tUwMlHlLvIKA，大致策略是将adata对象中的稀疏矩阵、基因名信息以及包含分组的细胞信息提取出来，分别保存成.mtx和csv，再在R中按照标准10X文件读入，转化代码如下：在python中将adata对象保存成10X标准文件

import scanpy as scimport scipy.sparse as sparseimport scipy.io as siocellinfo = adata_concat.obsgeneinfo = adata_concat.varmtx = adata_concat.layers['counts'].Tcellinfo.to_csv("cellinfo.csv")geneinfo.to_csv("geneinfo.csv")sparse_matrix = sparse.csr_matrix(mtx) # 将稀疏矩阵转换为 CSR 格式sio.mmwrite("sparse_matrix.mtx", sparse_matrix)

在R中生成seurat对象：基于10X文件生成seurat对象

cellinfo <- read.csv("cellinfo.csv",header = T)geneinfo <- read.csv("geneinfo.csv",header = T)mtx <- readMM("sparse_matrix.mtx")
rownames(mtx) <- geneinfo[,1]colnames(mtx)= cellinfo[,1]
rownames(geneinfo) <- geneinfo[,1]geneinfo <- geneinfo[,-1]
#准备metadataphe=as.data.frame(cellinfo)rownames(phe)=phe[,1]phe <- phe[,-1]identical(rownames(phe),colnames(mtx)) # TRUEsce.all=CreateSeuratObject(counts = mtx,                           meta.data = phe) # harmonysce.list <- SplitObject(sce.all, split.by = "batch") #RPCA

2.1 Harmony

cellinfo <- read.csv("cellinfo.csv",header = T)geneinfo <- read.csv("geneinfo.csv",header = T)mtx <- readMM("sparse_matrix.mtx")
rownames(mtx) <- geneinfo[,1]colnames(mtx)= cellinfo[,1]
rownames(geneinfo) <- geneinfo[,1]geneinfo <- geneinfo[,-1]
#准备metadataphe=as.data.frame(cellinfo)rownames(phe)=phe[,1]phe <- phe[,-1]identical(rownames(phe),colnames(mtx)) # TRUEsce.all=CreateSeuratObject(counts = mtx,                           meta.data = phe) # harmonysce.list <- SplitObject(sce.all, split.by = "batch") #RPCA

2.2 RPCA

sce.list <- lapply(X = sce.list, FUN = function(x) {  x <- NormalizeData(x)  x <- ScaleData(x, features = rownames(x), verbose = FALSE)  x <- RunPCA(x, features = rownames(x), verbose = FALSE)})
glioma.anchors <- FindIntegrationAnchors(object.list = sce.list,                                          anchor.features = rownames(geneinfo),                                          reduction = "rpca")
# this command creates an 'integrated' data assayglioma.combined <- IntegrateData(anchorset = glioma.anchors)
# specify that we will perform downstream analysis on the corrected data note that the# original unmodified data still resides in the 'RNA' assayDefaultAssay(glioma.combined) <- "integrated"
# Run the standard workflow for visualization and clusteringglioma.combined <- ScaleData(glioma.combined, verbose = FALSE)glioma.combined <- RunPCA(glioma.combined, npcs = 30, verbose = FALSE)glioma.combined <- RunUMAP(glioma.combined, reduction = "pca", dims = 1:30)glioma.combined <- FindNeighbors(glioma.combined, reduction = "pca", dims = 1:30)glioma.combined <- FindClusters(glioma.combined, resolution = 0.5)
DimPlot(glioma.combined, reduction = "umap",group.by = "batch")

除了本文提到的三种最常用的方法，整合策略还包括但不限于基于python的ingest、Scanorama，基于R的CCA、FastMNN、scVI，张泽民院士团队构建T细胞图谱时用到的metacell等等。另外，为了对不同整合方法进行benchmark，有学者开发了基于R的iLISI算法（https://github.com/carmonalab/scIntegrationMetrics），暂时不明确是否可以将python和R的结果放在一起作比较，有尝试过的同道欢迎交流！

http://mp.weixin.qq.com/s?__biz=Mzg2MTExNTkwNA==&mid=2247556841&idx=1&sn=2f60aa84a58d06862c2f780eaa08c2ec

芒果师兄聊生信

1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路，读书，音乐和娱乐。

最新文章

热点！氨基酸代谢驱动胰腺癌治疗抵抗的机制！

乳腺癌患者中三级淋巴结构重要分子：LGALS2

癌症-免疫周期是啥？

番外篇！肿瘤相关成纤维细胞与肿瘤异质性

产品升级！德运康瑞DynaSpatial HD捕获面积提升到6mm x 6mm，速来围观实测数据表现！

卵巢癌治疗新靶点：B7-H3如何成为免疫治疗的突破口？

一页搞定，掌握Linux的常用命令！

大制作，欢迎珍藏！王福俤/闵军霞和吴钰祥合作绘制铁死亡全景图！

另辟蹊径！单细胞分析不验证发论文的办法

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后！

再回首，数年前真是生信利好的时代！

一篇顶百篇！万事开头难，从基因出发展开肿瘤免疫研究，这篇顶刊是典范！

快来学！解析癌症进化的高级工具-肿瘤系统发育学

重磅！ IL-34还能和p53失活有关系？

肿瘤异质性！内皮细胞的免疫调节！

轻松搞定！两行代码获取MD5码！

实操！测序数据存到GSA，而非NCBI！

肿瘤遗传学！常规测序下的肿瘤异质性！

复现/实战 | 基于python和R的单细胞数据整合

肿瘤相关巨噬细胞（TAM）和成纤维细胞（CAF）重要互作和靶点分析

万万没想到，microRNA研究竟获诺奖！

靶点大发现！巨噬细胞免疫逃逸的新机制！

肿瘤免疫循环美图，好看！

收获九月！王福俤团队多项铁死亡新成果！

神奇 R 包！不到十行代码，就能搞定GEO多组样本数据的分析！

基于Linux和 R 的数据分析流程

Nature子刊｜揭秘Caspase-1如何TNBC成为免疫治疗的关键

大满贯！张泽民团队绘制了肿瘤微环境各类细胞的单细胞图谱！汇总版，欢迎收藏！

思考题！肿瘤免疫微环境分三型还是四型？

同样是单细胞测序数据，国人的质量好些！

哈佛大学！幸福也可以被研究！

不太好的单细胞数据，如何确定其类群！

干、湿结合！一文搞定 T 细胞增殖表型！

一图搞定！高通量测序数据分析流程！

科研新宠！代谢重编程与CAR-T免疫治疗！

单细胞和空间转录组分析确定转录因子 BHLHE40 作为转移性结直肠癌中 EMT 的驱动因素

既生瑜，也生亮！王凌华团队的泛癌 T 细胞图谱，别出新意！

免疫逃逸！肿瘤干细胞的表观重编程！

顶刊中的单细胞热图，也未必那么美！

88年的他，优青、杰青、副院长！

揭秘PD-1如何削弱肿瘤免疫：PLPP1与CD8+ T细胞铁死亡的新发现

集大成者，张泽民的 T 细胞研究！

上游分析！SRA数据的下载和数据质控！

揭秘胰腺癌的新机制：表观遗传失调如何塑造肿瘤微环境与代谢互动

脱离了治疗，肿瘤免疫研究就失去了灵魂！

他是陈列平老乡，获2024年拉斯克奖！

清华颉伟！表观遗传的遗传与重编程！

单细胞 RNA 测序十年：经验和教训

Nature Cancer｜深度学习模型ENLIGHT-DeepPT预测癌症疗法显成效

基于吞噬表型的文库筛选，探究巨噬细胞和肿瘤细胞的Crosstalk，挺不错的！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉