单细胞和空间转录组联合分析-Cell2location+MIA

文摘科学 2024-03-17 02:02 浙江

数据来源：

Spatial proteogenomics reveals distinct and evolutionarily conserved hepatic macrophage niches,Cell,2022

Single-Cell, Single-Nucleus, and Spatial RNA Sequencing of the Human Liver Identifies Cholangiocyte and Mesenchymal Heterogeneity,Hepatology communications,2021

Window上用PyCharm（python3.9.7） Python版本的Posit（Rstudio）

提取Seurat单细胞数据

# 矩阵信息
write.table(t(as.matrix(scRNA@assays$RNA@counts)),"scRNA_counts.csv",
            sep="\t",quote=FALSE,row.names=T,col.names=T)
# 降维信息
embedding <- Embeddings(scRNA, "umap")
write.table(embedding,"scRNA_embedding.csv",
            sep="\t",quote=FALSE,row.names=T,col.names=T)
# metadata
write.table(scRNA@meta.data,"metadata.csv",
            sep="\t",quote=FALSE,row.names=T,col.names=T)

Cell2location安装（报错解决）

pip install cell2location
pip install pip install scvi-tools==0.17.4 
vim /ifs/home/yusenwei/miniconda3/envs/velocyto/lib/python3.9/site-packages/pytorch_lightning/callbacks/progress/rich_progress.py
# 修改
from lightning_utilities.core.imports import compare_version

细胞类型-基因估计表达模型构建

import os
os.getcwd()
# 单细胞部分
import scanpy as sc
import scipy.sparse as sp
import pandas as pd
sc_adata = sc.read_text("../scRNA_counts.csv",delimiter='\t',first_column_names=True)
sc_adata.X = sp.csr_matrix(sc_adata.X)
metadata = pd.read_csv("../metadata.csv",sep='\t', header=0, index_col=0)
sc_adata.obs = metadata
r_embedding = pd.read_csv("../scRNA_embedding.csv",sep='\t', header=0, index_col=0)
sc_adata.obsm["X_umap"] = r_embedding.values
sc.pl.umap(sc_adata, color='celltype')
# 过滤线粒体基因
sc_adata.var['MT_gene'] = [gene.startswith('MT-') for gene in sc_adata.var.index]
sc_adata.obsm['MT'] = sc_adata[:, sc_adata.var['MT_gene'].values].X.toarray()
sc_adata = sc_adata[:, ~sc_adata.var['MT_gene'].values]
# 挑选基因
from cell2location.utils.filtering import filter_genes
selected = filter_genes(sc_adata, cell_count_cutoff=5, cell_percentage_cutoff2=0.15,nonz_mean_cutoff=3)
# 为回归模型准备 anndata 对象，估计参考细胞类型特征，计算每个基因在每个细胞类型的表达特征
import cell2location
cell2location.models.RegressionModel.setup_anndata(adata=sc_adata,
                        # cell type, covariate used for constructing signatures
                        labels_key='celltype',
                        batch_key='orig.ident'
                       )
# 创建回归模型
from cell2location.models import RegressionModel
mod = RegressionModel(sc_adata)
# 使用所有数据进行训练（尚未实施验证，train_size=1）
mod.train(max_epochs=500,train_size=1, lr=0.002)
mod.plot_history(20)
# 保存模型数据至单细胞数据
sc_adata = mod.export_posterior(
    sc_adata, sample_kwargs={'num_samples': 1000,'batch_size': 2500}
)
# 质控结果，强对角线为优异
mod.plot_QC()
# 
sc_adata = mod.export_posterior(
    sc_adata, use_quantiles=True,
    # choose quantiles
    add_to_varm=["q05","q50", "q95", "q0001"],
    sample_kwargs={'batch_size': 2500}
)
# 输出每个基因在每种细胞类型中的估计表达
if 'means_per_cluster_mu_fg' in sc_adata.varm.keys():
    inf_aver = sc_adata.varm['means_per_cluster_mu_fg'][[f'means_per_cluster_mu_fg_{i}'
                                    for i in sc_adata.uns['mod']['factor_names']]].copy()
else:
    inf_aver = sc_adata.var[[f'means_per_cluster_mu_fg_{i}'
                                    for i in sc_adata.uns['mod']['factor_names']]].copy()
inf_aver.columns = sc_adata.uns['mod']['factor_names']
inf_aver.iloc[0:5, 0:13]

解析空转spot细胞组成

# 空间转录组部分
from pathlib import Path
adata_dct = {}
for i in Path("../").glob("rawdata_st./*"):
  _s = str(i).split('_')[2]
  _a = sc.read_visium(i,library_id=_s)
  _a.obs.index = [_s + "_" + bc[0:len(bc)] for bc in _a.obs.index.tolist()]
  _a.var_names_make_unique()
  adata_dct[_s] = _a
st_adata = sc.concat(adata_dct,label="sample",uns_merge="unique")
# 提取共享基因并准备anndata
intersect = np.intersect1d(st_adata.var_names, inf_aver.index)
st_adata = st_adata[:, intersect].copy()
inf_aver = inf_aver.loc[intersect, :].copy()
# 构建训练模型，注意 N_cells_per_location（每个spot的细胞数）和detection_alpha（试验受技术影响从成都）参数
mod = cell2location.models.Cell2location(
    st_adata, cell_state_df=inf_aver,
    # the expected average cell abundance: tissue-dependent
    # hyper-prior which can be estimated from paired histology:
    N_cells_per_location=30,
    # hyperparameter controlling normalisation of
    # within-experiment variation in RNA detection:
    detection_alpha=20
)
# 训练模型
mod.train(max_epochs=30000，
          # train using full data (batch_size=None)
          batch_size=None,
          # use all data points in training because
          # we need to estimate cell abundance at all locations
          train_size=1
         )
mod.plot_history(200)
# 保存训练数据于空转对象中
st_adata = mod.export_posterior(
    st_adata, sample_kwargs={'num_samples': 1000, 'batch_size': mod.adata.n_obs}
)
# 质控，强对角线为优
mod.plot_QC()
# 输出结果，每个spot的细胞组成情况
pd.DataFrame(st_adata.obsm['q05_cell_abundance_w_sf']).to_csv("../rawdata_st/st_cell2location_res.csv")

区域细胞分布-MIA

MIA_sc_st<-function(sp.diff,sc.diff,sample,outdir){
  PVALUE.CUTOFF = 1
  QVALUE.CUTOFF = 1
  MIN.GSSIZE = 1
  MAX.GSSIZE = 10000
  PADJUST.METHOD = "BH"
  
  library(clusterProfiler)
  library(ggplot2)
  library(foreach)
  library(ComplexHeatmap)
  library(circlize)
  
  enrich.list = list()
  
  TERM2NAME = data.frame(term = sp.diff$region, name = sp.diff$region, row.names=NULL, stringsAsFactors=FALSE)
  TERM2GENE = data.frame(sp.diff, row.names=NULL, stringsAsFactors=FALSE)
  gmt.annot = list(term2gene = TERM2GENE, term2name = TERM2NAME)
  clusters.list = unique(sc.diff$celltype)
  for(each.cluster in clusters.list){
    diff.gene = as.character(sc.diff[which(sc.diff$celltype == each.cluster),]$gene)
    enrich = enricher(
      gene = diff.gene,
      TERM2GENE = gmt.annot$term2gene,
      TERM2NAME = gmt.annot$term2name,
      pAdjustMethod = PADJUST.METHOD,
      pvalueCutoff = PVALUE.CUTOFF,
      qvalueCutoff = QVALUE.CUTOFF,
      minGSSize = MIN.GSSIZE,
      maxGSSize = MAX.GSSIZE
    )
    enrich.res = enrich[,c(2,5,6)]
    enrich.res['sc.celltpye'] = each.cluster
    enrich.res['ES'] = -log(enrich.res$p.adjust)
    enrich.list[[each.cluster]] = enrich.res
  }
  
  for (i in 1:length(enrich.list)){
    data = rbind(data,enrich.list[[i]])
  }
  
  write.csv(data,file = paste(outdir , 'MIA.Result.csv',sep = '/'),quote = F,row.names = F)

  all.terms = NULL
  for(x in enrich.list){
    if(class(x)!="logical"){
      indices = which(!rownames(x) %in% names(all.terms))
      new.terms = x$Description[indices]
      names(new.terms) = rownames(x)[indices]
      all.terms = c(all.terms, new.terms)
    }
  }
  
  padj.df = foreach(x = enrich.list, .combine=rbind) %do% {
    if(class(x)!="logical"){
      padj = x[names(all.terms),"p.adjust"]
      padj[is.na(padj)] = 1
    }else{
      padj = rep(1,length(all.terms))
    }
    names(padj) = names(all.terms)
    return(padj)
  }
  rownames(padj.df) = names(enrich.list)
  padj.df = t(padj.df)
  
  min.qadj.terms = apply(padj.df, 1, min)
  min.qadj.terms = sort(min.qadj.terms)
  indices = which(min.qadj.terms<0.05 & 1:length(min.qadj.terms)<=20)
  if(length(indices) == 0){
    indices = 1:min(20,length(min.qadj.terms))
  }
  plot.terms = names(min.qadj.terms)[indices]
  
  if(length(plot.terms) > 1){
    
    plot.data = padj.df[plot.terms,]
    plot.data = -log10(plot.data)
    
    plot.data[plot.data>8] = 8
    plot.data = plot.data[1:min(nrow(plot.data),20),]
    
    ora.pal = colorRampPalette(c("#FFFFFF","#D96354", "#500019"))
    
    dbname = 'MIA'
    outdir = outdir
    prefix = sample
    
    ht = Heatmap(plot.data, 
                 col = colorRamp2(breaks=0:8, colors=ora.pal(9)),
                 column_title="cluster",
                 column_title_side = "bottom",
                 rect_gp = gpar(col = "black"),
                 show_row_names=FALSE,
                 heatmap_legend_param = list(
                   title = "Pvalue adjust\n   (-log10)",
                   title_position="leftcenter",
                   border=NULL,
                   at = seq(0,8,2),
                   labels = c(0,2,4,6,">8"),
                   legend_width = unit(0.5,"npc"),
                   legend_direction = "horizontal"))
    
    width.genename = min(max(nchar(all.terms[plot.terms]))/5,10)
    genename = rowAnnotation(pct = row_anno_text(all.terms[plot.terms], just = "left", 
                                                 offset = unit(0, "npc"), gp = gpar(col="black",fontsize=9)), width = unit(width.genename,"cm"))
    png(file.path(outdir, paste(prefix,".cluster.",dbname,".enrich.heatmap.png",sep="")),type="cairo-png",width=10*200,height=6*200,res=200)
    draw(ht+genename, heatmap_legend_side = "bottom")
    dev.off()
    pdf(file.path(outdir, paste(prefix,".cluster.",dbname,".enrich.heatmap.pdf",sep="")),width=10,height=6)
    draw(ht+genename, heatmap_legend_side = "bottom")
    dev.off()
  }
}
MIA_result=MIA_sc_st(region_specific,celltype_specific,"liver",'./')
# 结合cell2location和Seurat降维信息查看
cell2location <- read.csv("../liver-spatial/rawdata_st/st_cell2location_res.csv"，row.names=1)
cell2location <- cell2location[colnames(stRNA),]
cell2location <- cell2location[colnames(stRNA),]
stRNA <- AddMetaData(stRNA,metadata = cell2location)
SpatialFeaturePlot(stRNA, features = "q05cell_abundance_w_sf_Hep3", pt.size.factor = 1,
                   crop = FALSE, alpha = c(0.1,1))

细胞组成降维（Seurat/scanpy）

# 利用cell2location的结果进行降维 (Seurat)
DefaultAssay(stRNA) <- "SCT"
stRNA@reductions$harmony@cell.embeddings <- as.matrix(cell2location)
stRNA <- RunUMAP(stRNA, reduction = "harmony", dims = 1:13)
stRNA <- FindNeighbors(stRNA, reduction = "harmony", dims = 1:13)
stRNA <- FindClusters(stRNA, verbose = T,resolution = 0.5)
DimPlot(stRNA, reduction = "umap", label = TRUE,group.by = 'SCT_snn_res.0.5',pt.size = 1)
SpatialDimPlot(stRNA,label = T)

# 利用cell2location的结果进行降维 (Scanpy)
st_adata_ = st_adata_[st_adata.obs.index, :]
st_adata_.obsm['q05_cell_abundance_w_sf'] = st_adata.obsm['q05_cell_abundance_w_sf']
sc.pp.neighbors(st_adata_, use_rep='q05_cell_abundance_w_sf')
sc.tl.leiden(st_adata_, resolution=0.5)
st_adata_.obs["region_cluster"] = st_adata_.obs["leiden"].astype("category")
sc.pl.umap(st_adata_, color=['region_cluster'], size=30,
           color_map='magma',  legend_loc='on data',
           legend_fontsize=15)
           fig, axs = plt.subplots(1, 5, figsize=(15, 10))
for i, library in enumerate(
    ['D1','D2',"H1","D3","H2"]
):
    ad = st_adata_[st_adata_.obs.library_id == library, :].copy()
    sc.pl.spatial(
        ad,
        img_key="hires",
        library_id=library,
        color=['region_cluster'],
        size=1.5,
        color_map='magma',
        ax=axs[i],
    )

plt.tight_layout()

朴素的科研打工仔

专注于文献的分享，浙大研究生学习生活的记录。

最新文章

Compass| 单细胞代谢通量预测下游分析

细胞代谢|元细胞构建+代谢通量分析

相关性|空转+空代区域GSVA相关性分析

引爆学术界“ 核弹 ”寒门学子凭借这篇Nature一跃成为特级教授！独占鳌头！

细胞代谢|元细胞构建+代谢通量分析

共表达网络| WGCNA与hdWGCNA实操

细胞比例|一文打通单细胞转录组细胞类型丰度变化分析

数据整合|单细胞转录组多样本/不同测序手段整合

免费免费~影像组学论文拆解训练营火热开展中 | SCI制造机--影像组学+病理组学+深度学习人工智能培训班

Adv. Sci.丨宫内生长受限新生儿对肝损伤的性二型反应（解读）

空间转录组细胞信号流和轨迹推断-COMMOT/SPATA

空间转录组细胞通讯-stLearn（cell2location/RCTD）

单细胞和空间转录组联合分析-Cell2location+MIA

单细胞和空间转录组联合分析-RCTD去卷积

文献合集(五)｜单细胞如何做？做到什么程度？

文献合集(四)｜单细胞如何做？做到什么程度？

文献合集(三)｜单细胞如何做？做到什么程度？

文献合集(二)｜单细胞如何做？做到什么程度？

文献合集(一)｜单细胞技术如何应用？

拟时序| CytoTRACE +slingshot呈现

拟时序| monocle3+velo.R+scvelo呈现

文献合集(二)｜单细胞如何做？做到什么程度？

文献合集(一)｜单细胞技术如何应用？

2022 IF 正式发布

拟时序| monocle3+velo.R+scvelo呈现

WB| 条带变形计

共表达网络| WGCNA与hdWGCNA实操

这几个生信分析常用工具你真的学通了吗？单细胞，多组学or基因都能分析到底！

人工智能基因组学，Chip-Seq、RNA-Seq中预测premiRNA，您想知道的都在这！

单细胞/空间转录组分析常用工具汇总

新手入学ScRNA-seq分析流程

空间转录组|Seurat包初探

表观遗传学|Chip-seq、ATAC-seq分析流程

linux|合并文件命令

表观转录组|m6A-seq分析流程

整理| 常见注释数据库介绍

Shiny|自测单细胞数据供人访问

转录组|DESeq2差异基因分析-小趣事

空间转录组|Seurat包初探

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

单细胞和空间转录组联合分析-Cell2location+MIA

提取Seurat单细胞数据

Cell2location安装（报错解决）

细胞类型-基因估计表达模型构建

解析空转spot细胞组成

相关可视化

区域细胞分布-MIA

细胞组成降维（Seurat/scanpy）