scRNA | 和顶刊学分析，OR值展示不同分组的细胞类型差异

学术 2024-05-28 20:46 北京

在对单细胞数据进行注释后，通常会使用柱形图比较不同分组之间的cluster/celltype差异 scRNA分析|单细胞文献Fig1中的分组umap图和细胞比例柱形图，本文介绍张老师2021年发表于SCIENCE的Pan-cancer single-cell landscape of tumor-infiltrating T cells 文献中OR比值的方法（OR>1.5标示倾向在该分组中分布，OR<0.5标示不倾向在该分组中分布，详见文献methods），来比较不同分组（正常组织，肿瘤组织，PBMC，用药前后等）间cluster/celltype之间的分布差异。该方法在越来越多的文献中出现。

一载入R包，数据

1 ，载入必要的R包

#remotes::install_github("Japrin/sscVis")library("sscVis")library("data.table")library("grid")library("cowplot")library("ggrepel")library("readr")library("plyr")library("ggpubr")library("tidyverse")library(viridis)library(Seurat)library(pheatmap)

2，载入函数

这里使用24年NG文献Multi-omic profiling of clear cell renal cell carcinoma identifies metabolic reprogramming associated with disease progression中提供的OR分析的2个主函数

do.tissueDist <- function(cellInfo.tb = cellInfo.tb,                          meta.cluster = cellInfo.tb$meta.cluster,                          colname.patient = "patient",                          loc = cellInfo.tb$loc,                          out.prefix,                          pdf.width=3,                          pdf.height=5,                          verbose=0){  ##input data   library(data.table)  dir.create(dirname(out.prefix),F,T)
  cellInfo.tb = data.table(cellInfo.tb)  cellInfo.tb$meta.cluster = as.character(meta.cluster)
  if(is.factor(loc)){    cellInfo.tb$loc = loc  }else{cellInfo.tb$loc = as.factor(loc)}
  loc.avai.vec <- levels(cellInfo.tb[["loc"]])  count.dist <- unclass(cellInfo.tb[,table(meta.cluster,loc)])[,loc.avai.vec]  freq.dist <- sweep(count.dist,1,rowSums(count.dist),"/")  freq.dist.bin <- floor(freq.dist * 100 / 10)  print(freq.dist.bin)
  {    count.dist.melt.ext.tb <- test.dist.table(count.dist)    p.dist.tb <- dcast(count.dist.melt.ext.tb,rid~cid,value.var="p.value")    OR.dist.tb <- dcast(count.dist.melt.ext.tb,rid~cid,value.var="OR")    OR.dist.mtx <- as.matrix(OR.dist.tb[,-1])    rownames(OR.dist.mtx) <- OR.dist.tb[[1]]  }
  sscVis::plotMatrix.simple(OR.dist.mtx,                            out.prefix=sprintf("%s.OR.dist",out.prefix),                            show.number=F,                            waterfall.row=T,par.warterfall = list(score.alpha = 2,do.norm=T),                            exp.name=expression(italic(OR)),                            z.hi=4,                            palatte=viridis::viridis(7),                            pdf.width = 4, pdf.height = pdf.height)  if(verbose==1){    return(list("count.dist.melt.ext.tb"=count.dist.melt.ext.tb,                "p.dist.tb"=p.dist.tb,                "OR.dist.tb"=OR.dist.tb,                "OR.dist.mtx"=OR.dist.mtx))  }else{    return(OR.dist.mtx)  }}
test.dist.table <- function(count.dist,min.rowSum=0){  count.dist <- count.dist[rowSums(count.dist)>=min.rowSum,,drop=F]  sum.col <- colSums(count.dist)  sum.row <- rowSums(count.dist)  count.dist.tb <- as.data.frame(count.dist)  setDT(count.dist.tb,keep.rownames=T)  count.dist.melt.tb <- melt(count.dist.tb,id.vars="rn")  colnames(count.dist.melt.tb) <- c("rid","cid","count")  count.dist.melt.ext.tb <- as.data.table(ldply(seq_len(nrow(count.dist.melt.tb)), function(i){    this.row <- count.dist.melt.tb$rid[i]    this.col <- count.dist.melt.tb$cid[i]    this.c <- count.dist.melt.tb$count[i]    other.col.c <- sum.col[this.col]-this.c    this.m <- matrix(c(this.c,                       sum.row[this.row]-this.c,                       other.col.c,                       sum(sum.col)-sum.row[this.row]-other.col.c),                     ncol=2)    res.test <- fisher.test(this.m)    data.frame(rid=this.row,               cid=this.col,               p.value=res.test$p.value,               OR=res.test$estimate)  }))  count.dist.melt.ext.tb <- merge(count.dist.melt.tb,count.dist.melt.ext.tb,                                  by=c("rid","cid"))  count.dist.melt.ext.tb[,adj.p.value:=p.adjust(p.value,"BH")]  return(count.dist.melt.ext.tb)}

该分析只需要 分组信息 和 cluster/celltype结果，也就是meta.data 中的两列信息。

二 OR分析

1，载入单细胞数据

仍然使用之前的sce2数据，为减少计算量提取Myeloid亚群做示例，注意该分析需要不同分组 的 cluster/celltype细胞数均不为 0。

load("sce.anno.RData")sce.Mye <- subset(sce2,celltype %in% c("Myeloid" ) )sce.Mye <- NormalizeData(sce.Mye)sce.Mye <- FindVariableFeatures(sce.Mye, selection.method = "vst", nfeatures = 2000)sce.Mye <- ScaleData(sce.Mye)sce.Mye <- RunPCA(sce.Mye, npcs = 20)#标准流程，参数不变sce.Mye <- sce.Mye %>%   RunUMAP(dims = 1:20) %>%   FindNeighbors(dims = 1:20) %>%   FindClusters(resolution = c(0.05, 0.1,0.2,0.4,0.5)) DimPlot(sce.Mye, group.by = "RNA_snn_res.0.2",label = F)
table(sce.Mye$group ,sce.Mye$RNA_snn_res.0.2)#        0   1   2   3   4   5#  MET   9   4  10 162 156   7#  PT  588 399 205  21  19  35

2，计算OR值

由于do.tissueDist函数限定了meta.cluster = cellInfo.tb$meta.cluster, loc = cellInfo.tb$loc, 为减少报错 建议修改我们输入矩阵的名字来适配函数 。

meta <- sce.Mye@meta.data# 修改名字meta$loc <- meta$groupmeta$meta.cluster <- meta$RNA_snn_res.0.2# 指定输出文件路径及前缀out.prefix <- "./Fig_OR"
#主分析函数OR.immune.list <- do.tissueDist(cellInfo.tb=meta,                                out.prefix=sprintf("%s.Immune_cell",out.prefix),                                pdf.width=4,pdf.height=8,verbose=1)

结果存放在OR.immune.list的列表中，含有OR值以及对应的P值，提取对应的数据绘制可视化热图。

这就完成了真实数据的OR分析，受限细胞数和分组，本图不是很美观。

3，使用文献panT数据（图更好看）

文献中的int.CD8.S35.meta.tb.rds就是meta.data矩阵文件，和上面的是一样的，只是问了颜值高一点。

meta <- read_rds("int.CD8.S35.meta.tb.rds")head(meta)
OR.immune.list <- do.tissueDist(cellInfo.tb=meta,                                out.prefix=sprintf("%s.Immune_cell",out.prefix),                                pdf.width=4,pdf.height=8,verbose=1)

其中loc 和 meta.cluster均有，因此无需更改名字直接函数分析即可。

4，可视化

函数默认使用sscVis::plotMatrix.simple绘制，热图中没有P值的结果。前面提到结果存放在OR.immune.list 列表中，那么就可以分别提取OR结果和 p值结果，然后使用pheatmap自定义绘制热图或者其他可视化形式。

# a 存OR值结果a=OR.immune.list[["OR.dist.tb"]]a <- as.data.frame(a)rownames(a) <- a$rida <- a[,-1]a <- na.omit(a)a

# b存P值结果b <- OR.immune.list$count.dist.melt.ext.tb[,c(1,2,6)]b <- spread(b,key = "cid", value = "adj.p.value")b <- data.frame(b[,-1],row.names = b$rid)b <- b[rownames(a),]b

将P值改为*的展示形式，绘制热图展示P值结果。

考虑到OR值在文献中定义的0.5 和 1.5 值，这里设置bk参数。

col <- viridis(11,option = "D")b = ifelse(b >= 0.05&(a>1.5|a<0.5), "",           ifelse(b<0.0001&(a>1.5|a<0.5),"****",                  ifelse(b<0.001&(a>1.5|a<0.5),"***",                         ifelse(b<0.01&(a>1.5|a<0.5),"**",                                ifelse(b < 0.05&(a>1.5|a<0.5),"*","")))))
bk=c(seq(0,0.99,by=0.01),seq(1,2,by=0.01))
pheatmap(a[,], border_color = "NA", fontsize = 9,cellheight = 12,cellwidth = 20,clustering_distance_rows="correlation",         display_numbers = b,number_color="black",fontsize_number=10,         cluster_col=F, cluster_rows=T, border= NULL, breaks=bk, treeheight_row = 20,treeheight_col = 20,         color = c(colorRampPalette(colors = col[1:6])(length(bk)/2),                   colorRampPalette(colors = col[6:11])(length(bk)/2)))

OK，CNS或者大子刊文献的组间细胞类型比较 Get ！

参考资料：AndersonHu85/ccRCC_multiomics (github.com)

◆ ◆ ◆ ◆ ◆

精心整理（含图PLUS版）|R语言生信分析，可视化（R统计，ggplot2绘图，生信图形可视化汇总）

RNAseq纯生信挖掘思路分享？不，主要是送你代码！（建议收藏）

觉得对您有点帮助的希望可以点赞，在看，转发！

http://mp.weixin.qq.com/s?__biz=MzIyNDI1MzgzOQ==&mid=2650402135&idx=1&sn=02bf92c3d5bc7439cdb733ed26d2d493

生信补给站

生信，R语言， Python，数据处理、统计检验、模型构建、数据可视化，我输出您输入！

最新文章

只要捞偏门，篇篇都是生信顶刊！

scRNA复现|所见即所得，和Cell学umap，plot1cell完成惊艳的细胞注释umap图

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

单细胞免疫组库VDJ|和Nature学STARTRAC，定量T细胞动态变化

单细胞免疫组库VDJ| 从零开始scRepertoire分析，解决真实场景中可能的问题

单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析（1）

RNAseq|批量操作，构建预后模型，还需要那些图，通过数据预处理提高模型准确性！

单细胞数据挖掘进阶分析之亚群细分

scRNA | CSOmap-R版利用单细胞转录组预测细胞类型的空间通讯

RNAseq｜Mime代码版-终极101 种机器学习算法组合构建最优预后模型

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scRNA|单细胞测序技术迎来新的机遇和挑战，国内顶尖课题组斩获殊荣！

scRNA | 和顶刊学分析，OR值展示不同分组的细胞类型差异

scRNA|R版CytoTRACE v2从0开始完成单细胞分化潜能预测

scRNA|使用scMetabolism完成单细胞代谢激活分数估计

RNAseq | ComplexHeatmap绘制临床数据热图（所见即所得）

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

RNAseq-ML | SuperPC 算法构建预后模型并预测

纯生信！公共数据库，轻松解锁SCI文章，简简单单小白可上手!

Seurat_V5|单细胞转录组 + 蛋白，WNN方法分析单细胞多模态数据

高效论文写作技巧大揭秘！ChatGPT/GPT4科研实践与论文写作，掌握最新AI大模型应用！

scRNA分析| gghalves绘制单细胞数据的豆荚图/对半小提琴图

Seurat V5|当单细胞进入百万细胞时代，BPCell 给出一种“解”决参考

资源贴|送你singleR的7个内置注释数据集

Seurat V5|一个函数就能解决多种去批次方法，按需尝试

RNAseq-ML|CoxBoost生存分析完成预后模型变量筛选以及预测

RNAseq-ML|弹性网络回归算法Enet（Elastic Net）完成预后模型变量筛选-模型库+2

重磅！速发SCI，机器学习助力生信研究，再创新高！

RNAseq-ML|randomForestSRC完成随机森林生存分析-预后模型库+1

空转 | CellChat-V2，揭秘空间转录组数据的细胞通讯分析

迸发！Nature | 生信研究" 究极 " 套路，为该领域打开新的突破口！

经典综述，当肿瘤学遇到免疫学（更新版）

Nature重磅！最新研究成果公布，生信研究领域再度掀起一阵热潮！

scRNA｜ComplexHeatmap自定义单细胞转录组celltype-level 热图可视化

观众预报名破“千”，百余家参会单位阵容强大，2023广州多组学与科研技术大会再次掀起行业浪潮（附大会最新议程）

20小时快速通关R语言个性化制图

RNAseq | IPS评分-TCIA数据库了解一下，非TCGA数据用IOBR评估

零代码，不会R，科研小白如何4个月完成SCI？

RNAseq｜oncoPredict 药物反应预测，+基因，+分型，+模型的联合可视化

空转|CARD2-可基于基因集合进行spot注释，还可以提升到单细胞水平？

手把手，一步一步教你完成第1篇SCI

空转|CARD-结合scRNA解决空间转录组spot注释，还能增强空间精度？！

学术会议，大咖云集！2023多组学与科研技术大会，100+行业知名学术专家、100+企业单位、1500+高校学生出席

空转 | 我，SPOTlight，用解卷积，解决空间转录组spot注释！

scRNA分析| Seurat堆叠小提琴图不满足？那就ggplot2 堆叠各种元素

scRNA分析| DoHeatmap 美化，dittoSeq ，scillus 一行代码出图，你PICK谁？

scRNA分析| 和SCI学定制化聚类点图（Dotplot ），含二行代码出图方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉