RNAseq | ComplexHeatmap绘制临床数据热图（所见即所得）

学术其他 2024-04-18 14:42 北京

当使用各种机器学习方法（CoxBoost，Lasso，SuperPC，randomForestSRC，Elastic Net等）完成预后模型后，除了在组学层面（ IPS评分，药物反应预测，WGCNA等）进行一系列的分析外，还可以将定义的风险得分和临床指标进行比较。如Expression of hub genes of endothelial cells in glioblastoma-A prognostic model for GBM patients integrating single-cell RNA sequencing and bulk RNA sequencing中下图所示

最初我完成该图的方法是用含有基因表达的热图，然后截图或者PS成只有临床指标。这里介绍使用ComplexHeatmap直接完成该图。

一载入R包，数据

使用前面系列推文的TCGA-SKCM的临床数据和随访数据，以及经过lasso模型计算的风险评分结果。

后台回复“临床”既可获取Expr_phe_cli_riskscore.RData的示例数据。

library(tidyverse)library(ComplexHeatmap)library(ggsci) #颜色library(circlize) #连续颜色
#载入数据load("Expr_phe_cli_riskscore.RData")
riskScore_cli2 <- riskScore_cli %>%   inner_join(phe) %>%   column_to_rownames("sample") %>% select(- "_PATIENT")head(riskScore_cli2)

只要数据框中含有想展示的表型数据即可，一般会有风险得分，生存信息以及重要的临床指标，当然也可以其他重点关注的指标：（1）重点基因突变与否，例如KRAS突变（2）某个CNV有无（3）TMB ，MSI，IDH等等你想展示的指标。如果添加基因表达量的话那就是正常的热图即可。

2，临床数据处理

在TCGA下载的临床数据需要进行一些处理，可以在excel中完成，当然也可以使用R完成。

包括但不限于以下（1）连续数值按照某个阈值转为分类（2）向量和因子的转化（3）将数据中的T1a ，T1b，T1 统一为T1期 类似的整理。

（1）和（2）比较简单，如下

#连续数值，按需转为分类riskScore_cli2$Age =ifelse(riskScore_cli2$age > 60,">60","<=60")
#字符串转为因子riskScore_cli2$OS <- as.factor(riskScore_cli2$OS)riskScore_cli2$tumor_stage <- as.factor(riskScore_cli2$tumor_stage)

（3）可以使用多种方式完成数据整理

A ：T分期使用直接指定的方法

注意%in% c("T1a","T1b","T1")的向量中要列出所有想转化的，假设有T1c的话也需要加上。

table(riskScore_cli2$pathologic_T)# T0  T1 T1a T1b  T2 T2a T2b  T3 T3a T3b  T4 T4a T4b Tis  TX # 23  10  21  10  30  32  15  14  39  37  13  26 109   7  44
riskScore_cli2$pathologic_T[riskScore_cli2$pathologic_T %in% c("T1a","T1b","T1")] <- "T1"riskScore_cli2$pathologic_T[riskScore_cli2$pathologic_T %in% c("T2a","T2b","T2")] <- "T2"riskScore_cli2$pathologic_T[riskScore_cli2$pathologic_T %in% c("T3a","T3b","T3")] <- "T3"riskScore_cli2$pathologic_T[riskScore_cli2$pathologic_T %in% c("T4a","T4b","T4")] <- "T4"table(riskScore_cli2$pathologic_T)

B：N分期，使用gsub替换的方式

table(riskScore_cli2$pathologic_N)# N0  N1 N1a N1b  N2 N2a N2b N2c  N3  NX #226  17  19  37   6  13  21   9  56  34 
riskScore_cli2$pathologic_N <- gsub("N1[abc]?", "N1", riskScore_cli2$pathologic_N)riskScore_cli2$pathologic_N <- gsub("^N2.*", "N2", riskScore_cli2$pathologic_N)riskScore_cli2$pathologic_N <- gsub("^N3.*", "N3", riskScore_cli2$pathologic_N)

C：M分期，使用grepl的方法

table(riskScore_cli2$pathologic_M)# M0  M1 M1a M1b M1c #407   5   5   5   9 
riskScore_cli2$pathologic_M <- ifelse(grepl("^M1", riskScore_cli2$pathologic_M),                                       "M1", riskScore_cli2$pathologic_M)riskScore_cli2$pathologic_M <- ifelse(grepl("^M0", riskScore_cli2$pathologic_M),                                       "M0", riskScore_cli2$pathologic_M)

D：还可以使用str_replace 或者 str_detect等方法进行转化，这里示例展示一下，不运行不影响推文的后续操作。

riskScore_cli2$pathologic_T2 <- riskScore_cli2$pathologic_T# str_replaceriskScore_cli2$pathologic_T2 <- str_replace(riskScore_cli2$pathologic_T2, "T1[a-d-c-d]?", "T1")#str_detectriskScore_cli2$pathologic_T2 <- ifelse(str_detect(riskScore_cli2$pathologic_T2, "^T1"), "T1", riskScore_cli2$pathologic_T2)

以上就完成了本次分析需要的数据处理部分。

二临床指标热图可视化

1，直接绘制

使用ComplexHeatmap绘制临床数据注释图，重点在于构建一个和临床数据相同列的0矩阵 。

# 提取想展示的临床数据riskScore_cli2 <- riskScore_cli2 %>%   select(riskScore:tumor_stage,Age) %>%   select(- "age")# 构建列注释块ha=HeatmapAnnotation(df=riskScore_cli2)# 构建zero矩阵zero_row_mat=matrix(nrow=0, ncol=nrow(riskScore_cli2))#绘制热图Hm <- Heatmap(zero_row_mat, top_annotation=ha)Hm#调整legend的位置和大小draw(Hm, merge_legend = TRUE,      heatmap_legend_side = "bottom",      annotation_legend_side = "bottom",     width = unit(16, "cm"), height = unit(1, "cm")     )

2，图形优化调整

上面可以顺利的完成图形可视化，相较文献还可以在（1）表型内容排序，比如优先Score高低排序，然后Stage排序（2）表型注释的顺序，比如先展示Score，然后OS，stage等和（3）每种表型进行自定义的颜色设置上进行优化和调整。

（1）表型内部排序，使用arrange 进行排序，可以依次选择多个指标

riskScore_cli3 <- riskScore_cli2 %>%  arrange(riskScore2,OS,tumor_stage,gender,OS.time,Age)

（2）和（3）一起在HeatmapAnnotation注释中解决，如果为省事未展示T M N分期，可以自行添加。

library(circlize)#连续性变量的颜色设置col_fun_time <- colorRamp2(  c(0, 3000, 11000),  #根据值的范围设置  c("#DC0000FF", "grey", "#1f78b4"))#ha <- HeatmapAnnotation(  Score = riskScore_cli3$riskScore2,  Stage = riskScore_cli3$tumor_stage ,  OS.Status = riskScore_cli3$OS,  OS.Time = riskScore_cli3$OS.time,  Gender = riskScore_cli3$gender ,  Age = riskScore_cli3$Age,  col = list(     Score = c("High" = "#BC3C29FF", "Low" = "#0072B5FF"),    OS.Status = c("0" = "#E18727FF", "1" = "#20854EFF"), #分类    OS.Time = col_fun_time , #连续    Gender = c("female" = "#AB3282", "male" = "#3A6963"),    Age = c("<=60" = "#712820", ">60" = "#E4C755"),    Stage = c("0" = "#E64B35FF", "1" = "#4DBBD5FF",              "2" = "#00A087FF", "3" = "#3C5488FF",              "4" = "#DC0000FF", "NA" = "#8491B4FF")      ))

可视化展示

Hm <- Heatmap(zero_row_mat, top_annotation=ha)draw(Hm, merge_legend = TRUE,      heatmap_legend_side = "bottom",      annotation_legend_side = "bottom",     width = unit(16, "cm"), height = unit(1, "cm"))

以上就完成了风险得分和临床指标的热图，拿去发文章吧。

◆ ◆ ◆ ◆ ◆

精心整理（含图PLUS版）|R语言生信分析，可视化（R统计，ggplot2绘图，生信图形可视化汇总）

RNAseq纯生信挖掘思路分享？不，主要是送你代码！（建议收藏）

觉得对您有点帮助的希望可以点赞，在看，转发！

http://mp.weixin.qq.com/s?__biz=MzIyNDI1MzgzOQ==&mid=2650402096&idx=1&sn=7062cc7453e31832b7ae2c1783a44691

生信补给站

生信，R语言， Python，数据处理、统计检验、模型构建、数据可视化，我输出您输入！

最新文章

只要捞偏门，篇篇都是生信顶刊！

scRNA复现|所见即所得，和Cell学umap，plot1cell完成惊艳的细胞注释umap图

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

单细胞免疫组库VDJ|和Nature学STARTRAC，定量T细胞动态变化

单细胞免疫组库VDJ| 从零开始scRepertoire分析，解决真实场景中可能的问题

单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析（1）

RNAseq|批量操作，构建预后模型，还需要那些图，通过数据预处理提高模型准确性！

单细胞数据挖掘进阶分析之亚群细分

scRNA | CSOmap-R版利用单细胞转录组预测细胞类型的空间通讯

RNAseq｜Mime代码版-终极101 种机器学习算法组合构建最优预后模型

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scRNA|单细胞测序技术迎来新的机遇和挑战，国内顶尖课题组斩获殊荣！

scRNA | 和顶刊学分析，OR值展示不同分组的细胞类型差异

scRNA|R版CytoTRACE v2从0开始完成单细胞分化潜能预测

scRNA|使用scMetabolism完成单细胞代谢激活分数估计

RNAseq | ComplexHeatmap绘制临床数据热图（所见即所得）

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

RNAseq-ML | SuperPC 算法构建预后模型并预测

纯生信！公共数据库，轻松解锁SCI文章，简简单单小白可上手!

Seurat_V5|单细胞转录组 + 蛋白，WNN方法分析单细胞多模态数据

高效论文写作技巧大揭秘！ChatGPT/GPT4科研实践与论文写作，掌握最新AI大模型应用！

scRNA分析| gghalves绘制单细胞数据的豆荚图/对半小提琴图

Seurat V5|当单细胞进入百万细胞时代，BPCell 给出一种“解”决参考

资源贴|送你singleR的7个内置注释数据集

Seurat V5|一个函数就能解决多种去批次方法，按需尝试

RNAseq-ML|CoxBoost生存分析完成预后模型变量筛选以及预测

RNAseq-ML|弹性网络回归算法Enet（Elastic Net）完成预后模型变量筛选-模型库+2

重磅！速发SCI，机器学习助力生信研究，再创新高！

RNAseq-ML|randomForestSRC完成随机森林生存分析-预后模型库+1

空转 | CellChat-V2，揭秘空间转录组数据的细胞通讯分析

迸发！Nature | 生信研究" 究极 " 套路，为该领域打开新的突破口！

经典综述，当肿瘤学遇到免疫学（更新版）

Nature重磅！最新研究成果公布，生信研究领域再度掀起一阵热潮！

scRNA｜ComplexHeatmap自定义单细胞转录组celltype-level 热图可视化

观众预报名破“千”，百余家参会单位阵容强大，2023广州多组学与科研技术大会再次掀起行业浪潮（附大会最新议程）

20小时快速通关R语言个性化制图

RNAseq | IPS评分-TCIA数据库了解一下，非TCGA数据用IOBR评估

零代码，不会R，科研小白如何4个月完成SCI？

RNAseq｜oncoPredict 药物反应预测，+基因，+分型，+模型的联合可视化

空转|CARD2-可基于基因集合进行spot注释，还可以提升到单细胞水平？

手把手，一步一步教你完成第1篇SCI

空转|CARD-结合scRNA解决空间转录组spot注释，还能增强空间精度？！

学术会议，大咖云集！2023多组学与科研技术大会，100+行业知名学术专家、100+企业单位、1500+高校学生出席

空转 | 我，SPOTlight，用解卷积，解决空间转录组spot注释！

scRNA分析| Seurat堆叠小提琴图不满足？那就ggplot2 堆叠各种元素

scRNA分析| DoHeatmap 美化，dittoSeq ，scillus 一行代码出图，你PICK谁？

scRNA分析| 和SCI学定制化聚类点图（Dotplot ），含二行代码出图方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉