RNAseq-ML|randomForestSRC完成随机森林生存分析-预后模型库+1

学术其他 2023-11-17 09:00 北京

机器学习构建预后模型的文章很多，且越来越卷，动不动就是10种模型的101种组合，这个系列会逐一的介绍这些常用于预后模型变量筛选和模型构建的机器学习方法。

作者代码公开在github上了，GitHub - Zaoqu-Liu/IRLS: Machine learning-based integrative analysis develops an immune-derived lncRNA signature for improving clinical outcomes in colorectal cancer 可以自行下载或者后台回复 “机器学习”获取下载好的。前面介绍过了RNAseq|Lasso构建预后模型，绘制风险评分的KM 和 ROC曲线，本次介绍使用randomForestSRC完成随机森林的生存分析。

一数据输入，处理

沿袭使用前面Lasso得到的SKCM.uni-COX.RData数据（筛选过的单因素预后显著的基因），后面的更多机器学习的推文均会使用该数据

#载入R包library(tidyverse)library(openxlsx)library("survival")library("survminer")library(randomForestSRC)
load("SKCM.uni-COX.RData")module_expr.cox2 <- module_expr.cox %>% select(- "_PATIENT") %>%   column_to_rownames("sample")module_expr.cox2[1:6,1:6]

将数据处理成以上形式，含有 随访时间 + 生存状态 + 基因表达信息。1，数据集拆分正常情况下是TCGA构建模型，然后在GEO中进行验证。这里仅为示例，直接按照7：3的比例将TCGA数据拆分为训练集和验证集（后面会介绍更多拆分方法）

# 7:3 拆分ind <- sample(nrow(module_expr.cox2),nrow(module_expr.cox2) * 0.7 )train <- module_expr.cox2[ind,]test <- module_expr.cox2[-ind,]
##确保训练集和验证集的基因一致gene_com <- intersect(colnames(train) ,colnames(test))
training <- train %>%   select(gene_com)testing <- test %>%   select(gene_com)
training[1:4,1:4]#                OS OS.time      TYRP1    IGKV4_1#TCGA-EE-A2MM-06A  1    5107 1.38460143  5.2408878#TCGA-EE-A2GE-06A  0    5286 0.04187911 10.1611678#TCGA-ER-A194-01A  1    1354 9.56901508  0.3122559#TCGA-EB-A44R-06A  1     315 0.06131739  7.3046339

注：训练集和验证集的基因一致，不然可能存在无法验证的情况。

二构建随机森林生存模型

1，rfsrc函数构建RSF 生存模型

注意设置随机种子seed，方便以后复现；此外nodesize 值可以多设置几个尝试

fit <- rfsrc(Surv(OS.time,OS)~.,data = training,             ntree = 1000,             nodesize = 10,             splitrule = 'logrank',             importance = T,             proximity = T,             forest = T,             seed = 1234)

可以看到该模型含有320样本，537个基因。

2，重要性变量

使用随机森林生存分析进行变量筛选，主要依据的就是每个基因的重要性值，该数据在fit$importance中，这里示例查看TOP20 的基因‍‍‍‍‍注意：这里的重要性基因不会得到文献中常提到的基因前面的系数，系数可以通过将重要基因进行多因素COX生存分析得到。

importance_gene <- data.frame(fit$importance) %>%   rownames_to_column("gene") %>%   arrange(- fit.importance) %>%   head(20) importance_gene

（1）使用plot函数直接可视化

plot(fit,10)

（2）使用ggplot2绘制柱形图‍使用reorder函数进行排序

ggplot(data=importance_gene, aes(x = reorder(gene,  fit.importance),                                     y=fit.importance,fill=gene)) +  geom_bar(stat="identity") +   theme_classic() +   theme(legend.position = 'none') +   coord_flip()

这样就不会拥挤在一起，且可自定义颜色。

三 RSF模型验证

这里面介绍2种验证方式，第一种起到了和Lasso一样的筛选基因的作用，第二种是直接验证。

1，使用RSF得到的重要基因构建COX模型

（1）在上面的importance_gene文件中，根据fit.importance设置阈值，然后选出候选基因或者

（2）在上面的importance_gene文件中，直接选择TOP多少的基因作为候选基因。

然后将候选基因构建多因素COX模型，这样就可以得到文献中常见的基因系数。

注：这里的阈值和TOP没有固定的cutoff ，结果导向即可。

2，RSF模型直接验证集预测

直接使用验证集验证模型，得到每个样本的系数，然后可以使用生存分析得到Cindex以及KM曲线等。

（1）C-index

fit.p <- predict(fit, as.data.frame(testing))testing$RSF_p <- as.vector(fit.p$predicted)#计算C indextesting_surv <- coxph(Surv(OS.time, OS) ~ fit.p$predicted,data = testing)
summary(testing_surv)$concordance

         C      se(C) 0.64523954 0.03881865

（2）KM曲线

testing$RSF_score <- ifelse(testing$RSF_p > median(testing$RSF_p),"High","Low")
fit <- survfit(Surv(OS.time, as.numeric(OS)) ~ RSF_score, data=testing)
ggsurvplot(fit, data = testing,                             pval = T,                             risk.table = T,                             surv.median.line = "hv", #添加中位生存曲线                             palette=c("red", "blue"),  #更改线的颜色                             legend.labs=c("High risk","Low risk"), #标签                             legend.title="RiskScore",                             title="Overall survival", #标题                             ylab="Cumulative survival (percentage)",xlab = " Time (Days)", #更改横纵坐标                             censor.shape = 124,censor.size = 2,conf.int = FALSE, #删失点的形状和大小break.x.by = 720#横坐标间隔)

这样就完成了随机森林生存模型筛选变量或者预测的介绍，Lasso之外可以多一种尝试了。

参考资料:

[1] Getting starting with the randomForestSRC R-package for random forest analysis of regression, classification, survival and more • Fast Unified Random Forests with randomForestSRC

[2] Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer

◆ ◆ ◆ ◆ ◆

精心整理（含图PLUS版）|R语言生信分析，可视化（R统计，ggplot2绘图，生信图形可视化汇总）

RNAseq纯生信挖掘思路分享？不，主要是送你代码！（建议收藏）

http://mp.weixin.qq.com/s?__biz=MzIyNDI1MzgzOQ==&mid=2650401396&idx=1&sn=095999ccfb46c1cc6790d15c03398ac8

生信补给站

生信，R语言， Python，数据处理、统计检验、模型构建、数据可视化，我输出您输入！

最新文章

只要捞偏门，篇篇都是生信顶刊！

scRNA复现|所见即所得，和Cell学umap，plot1cell完成惊艳的细胞注释umap图

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

单细胞免疫组库VDJ|和Nature学STARTRAC，定量T细胞动态变化

单细胞免疫组库VDJ| 从零开始scRepertoire分析，解决真实场景中可能的问题

单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析（1）

RNAseq|批量操作，构建预后模型，还需要那些图，通过数据预处理提高模型准确性！

单细胞数据挖掘进阶分析之亚群细分

scRNA | CSOmap-R版利用单细胞转录组预测细胞类型的空间通讯

RNAseq｜Mime代码版-终极101 种机器学习算法组合构建最优预后模型

scRNA | scTCR中 T细胞动态变化（Startrac）vs scRNA指数评分

scRNA|单细胞测序技术迎来新的机遇和挑战，国内顶尖课题组斩获殊荣！

scRNA | 和顶刊学分析，OR值展示不同分组的细胞类型差异

scRNA|R版CytoTRACE v2从0开始完成单细胞分化潜能预测

scRNA|使用scMetabolism完成单细胞代谢激活分数估计

RNAseq | ComplexHeatmap绘制临床数据热图（所见即所得）

scTCR+scRNA | APackOfTheClones - umap坐标下球形展示celltype的clone size

RNAseq-ML | SuperPC 算法构建预后模型并预测

纯生信！公共数据库，轻松解锁SCI文章，简简单单小白可上手!

Seurat_V5|单细胞转录组 + 蛋白，WNN方法分析单细胞多模态数据

高效论文写作技巧大揭秘！ChatGPT/GPT4科研实践与论文写作，掌握最新AI大模型应用！

scRNA分析| gghalves绘制单细胞数据的豆荚图/对半小提琴图

Seurat V5|当单细胞进入百万细胞时代，BPCell 给出一种“解”决参考

资源贴|送你singleR的7个内置注释数据集

Seurat V5|一个函数就能解决多种去批次方法，按需尝试

RNAseq-ML|CoxBoost生存分析完成预后模型变量筛选以及预测

RNAseq-ML|弹性网络回归算法Enet（Elastic Net）完成预后模型变量筛选-模型库+2

重磅！速发SCI，机器学习助力生信研究，再创新高！

RNAseq-ML|randomForestSRC完成随机森林生存分析-预后模型库+1

空转 | CellChat-V2，揭秘空间转录组数据的细胞通讯分析

迸发！Nature | 生信研究" 究极 " 套路，为该领域打开新的突破口！

经典综述，当肿瘤学遇到免疫学（更新版）

Nature重磅！最新研究成果公布，生信研究领域再度掀起一阵热潮！

scRNA｜ComplexHeatmap自定义单细胞转录组celltype-level 热图可视化

观众预报名破“千”，百余家参会单位阵容强大，2023广州多组学与科研技术大会再次掀起行业浪潮（附大会最新议程）

20小时快速通关R语言个性化制图

RNAseq | IPS评分-TCIA数据库了解一下，非TCGA数据用IOBR评估

零代码，不会R，科研小白如何4个月完成SCI？

RNAseq｜oncoPredict 药物反应预测，+基因，+分型，+模型的联合可视化

空转|CARD2-可基于基因集合进行spot注释，还可以提升到单细胞水平？

手把手，一步一步教你完成第1篇SCI

空转|CARD-结合scRNA解决空间转录组spot注释，还能增强空间精度？！

学术会议，大咖云集！2023多组学与科研技术大会，100+行业知名学术专家、100+企业单位、1500+高校学生出席

空转 | 我，SPOTlight，用解卷积，解决空间转录组spot注释！

scRNA分析| Seurat堆叠小提琴图不满足？那就ggplot2 堆叠各种元素

scRNA分析| DoHeatmap 美化，dittoSeq ，scillus 一行代码出图，你PICK谁？

scRNA分析| 和SCI学定制化聚类点图（Dotplot ），含二行代码出图方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉