临床预测模型—基于dcurves包的临床决策曲线(DCA)绘制学习

文摘 2024-11-24 13:48 广东

关于概念，可以阅读笔者的或者其他老师的推文：临床预测模型概述5-临床预测模型评价指标(区分度，校准度和临床决策曲线）

分析流程

1.导入

rm(list = ls())
library(stringr)
library(survival)
library(survminer)
library(dcurves)
proj <- "ttt"
load('data.Rdata') # TCGA-HNSC数据

2.数据预处理

colnames(meta)
variables <- c("cluster", "gender", "neoadjuvant")
meta <- cbind(meta[,c(1:3)],
              meta[,c("cluster", "gender", "neoadjuvant")])

data <- meta
data <- na.omit(data)
dim(data)

# 如果是连续的代码，需要设置data
data$OS.time <- data$OS.time

# 对变量进行数值化(0,1)
data$cluster <- as.numeric(ifelse(data$cluster=="1","0","1"))
data$gender <- as.numeric(ifelse(data$gender=="FEMALE","0","1"))
data$neoadjuvant <- as.numeric(ifelse(data$neoadjuvant=="No","0","1"))

# 数据分割 7:3,8:2 均可
# 划分是随机的，设置种子数可以让结果复现
set.seed(123)
ind <- sample(1:nrow(data), size = 0.7*nrow(data))
train <- data[ind,]
test <- data[-ind, ]

3.DCA分析

二分类数据(假设示例数据为二分类)

# 拟合训练集的模型
fit_train <- glm(OS~cluster + gender + neoadjuvant,data = train,family = binomial)
train$prob_train <- predict(fit_train, type="response")

dca(OS ~ prob_train,
    data = train,
    thresholds = seq(0, 0.6, by = 0.01),# 设定不同的阈值
    label = list(model_train = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("binomial_train.pdf",width = 9,height = 7)

# 拟合验证集的模型
test$prob_test <- predict(fit_train,newdata = test,type="response")

dca(OS ~ prob_test,
    data = test,
    thresholds = seq(0, 0.6, by = 0.01),# 设定不同的阈值
    label = list(model_train = "Test dataset")) %>%
  plot(smooth = TRUE)
ggsave("binomial_test.pdf",width = 9,height = 7)

X轴（Threshold Probability ): X轴代表概率阈值，即模型预测某个事件发生（如疾病发生）的可能性。通过调整这个阈值，可以改变将哪些患者判定为高风险需要治疗。
Y轴（Net Benefit）: Y轴表示净收益（Net Benefit），用于衡量在不同阈值下模型的效果。净收益考虑了模型在某个阈值下的灵敏度（True Positives）与特异性（False Positives），提供了一种可以用于临床实际决策的量化指标。
图中的曲线解释: 蓝色曲线（prob_train 或 prob_test）：表示模型在训练集（左图）和验证集（右图）上的净收益。红色曲线（Treat All）：表示对所有患者都进行治疗的净收益。绿色水平线（Treat None）：表示对所有患者都不进行治疗的净收益。
左图：训练集（Train Dataset）: 高于 Treat All 和 Treat None 的区域, 在低于大约35%的概率阈值范围内，蓝色的模型曲线始终高于红色和绿色的曲线，这表明在这个阈值范围内，模型可以提供更高的净收益。这意味着在此阈值下，模型比单纯对所有患者进行治疗（Treat All）或不治疗（Treat None）更有效。接近50%的阈值时, 随着阈值增加到接近50%，模型曲线下降到接近零。这表明此时模型的净收益逐渐减小，最终接近没有收益的情况。
右图：验证集（Test Dataset）: 表现与训练集类似：验证集中，模型在0-40%的概率阈值范围内，也能提供比“Treat All”或“Treat None”更高的净收益。但可以注意到，右图中的曲线比左图更早地与“Treat All”相交，并趋向于零。这说明在验证集中，模型的预测效果比在训练集中稍微弱一些。随着阈值增加：当阈值超过大约40%时，蓝色曲线下降到与红色和绿色曲线相交，表明此时模型的净收益和 Treat All 以及 Treat None 几乎没有差别，甚至在高阈值下可能不再具有明显的优势。

生存数据(cox)

# 拟合训练集的模型
fit_train <- coxph(Surv(OS.time,OS)~cluster + gender + neoadjuvant,data = train)
# 计算12,24,36个月的概率
train$prob12 <- c(1-(summary(survfit(fit_train, newdata=train), times=12)$surv))
train$prob24 <- c(1-(summary(survfit(fit_train, newdata=train), times=24)$surv))
train$prob36 <- c(1-(summary(survfit(fit_train, newdata=train), times=36)$surv))

# 12个月训练集
dca(Surv(OS.time,OS)~prob12,
    data = train, 
    time = 12,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob12 = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("12months_train.pdf",width = 9,height = 7)
# 24个月训练集
dca(Surv(OS.time,OS)~prob24,
    data = train, 
    time = 24,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob24 = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("24months_train.pdf",width = 9,height = 7)
# 36个月训练集
dca(Surv(OS.time,OS)~prob36,
    data = train, 
    time = 36,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob36 = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("36months_train.pdf",width = 9,height = 7)

分别用于评估在不同时间点（12个月、24个月和36个月）下模型的预测效能。

图的结构：横轴为“Threshold Probability”（阈值概率）：表示模型预测某个结果（例如，病人存活或死亡）的概率。图中的阈值从0%到60%。纵轴为“Net Benefit”（净收益）：表示相对于“全部治疗”或“无治疗”策略，该模型在不同阈值下的效益。净收益反映了正确预测的好处与误报带来的代价之间的平衡。
图中的线：绿色直线（Treat None）：表示所有人都不接受治疗的净收益。此线表示为基线，因此净收益为0。红色斜线（Treat All）：表示所有人都接受治疗的策略。蓝色曲线（Train dataset）：表示模型预测的净收益，随阈值的变化而变化。

# 验证集
# 需要使用训练集的数据去预测test数据
# 计算12,24,36个月的概率
test$prob12 <- c(1-(summary(survfit(fit_train, newdata=test), times=12)$surv))
test$prob24 <- c(1-(summary(survfit(fit_train, newdata=test), times=24)$surv))
test$prob36 <- c(1-(summary(survfit(fit_train, newdata=test), times=36)$surv))

# 12个月验证集
dca(Surv(OS.time,OS)~prob12,
    data = test, 
    time = 12,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob12 = "Test dataset")) %>%
  plot(smooth = TRUE)
ggsave("12months_test.pdf",width = 9,height = 7)
# 24个月验证集
dca(Surv(OS.time,OS)~prob24,
    data = test, 
    time = 24,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob24 = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("24months_test.pdf",width = 9,height = 7)
# 36个月验证集
dca(Surv(OS.time,OS)~prob36,
    data = test, 
    time = 36,
    thresholds = seq(0, 0.60, by = 0.01),
    label = list(prob36 = "Train dataset")) %>%
  plot(smooth = TRUE)
ggsave("36months_test.pdf",width = 9,height = 7)

参考资料：

Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006 Nov-Dec;26(6):565-74.
Extensions to decision curve analysis, a novel method for evaluating diagnostic tests, prediction models and molecular markers. BMC Med Inform Decis Mak. 2008 Nov 26:8:53.
Estimating the decision curve and its precision from three study designs. Biom J. 2020 May;62(3):764-776.
一点统计：https://mp.weixin.qq.com/s/0xLtnx5JppypsQdywKteXQ https://mp.weixin.qq.com/s/i7qkTd0QZnfmbj9kL0mIBQ
木天琳neuron: https://mp.weixin.qq.com/s/bfOBlYEGL9tgn2V2OXTSDw
医学和生信笔记：https://mp.weixin.qq.com/s/0iycRpUsDm1Ds3DTkEu4-A https://mp.weixin.qq.com/s/IrZwwQYCBDT63xH7QtfDvA https://mp.weixin.qq.com/s/g5iWSE6hwXh6rbpOn08DOg https://mp.weixin.qq.com/s/buajk82tUFH02ht9DH3RwA
生信星球：https://mp.weixin.qq.com/s/PV5Ik5UW37r4V3E0UrKI8Q
YuLabSMU/一棵树：https://mp.weixin.qq.com/s/dcN1BvmuSO7osWFPPq3pYg

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

冷热肿瘤还能这么玩？！！！来看看101机器学习算法组合如何唱响冰与火之歌~（附上文中蝴蝶图的复现代码，全文可复现可借鉴！）

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第三部分-细胞互作/stripe/ATAC)

综述学习|癌症中的自噬及其相关信号通路|文献5分钟

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第二部分-inferCNV/拟时序/RNA速率)

江西省肿瘤医院/国家卫生健康委鼻咽癌个体化诊疗重点实验室招聘生物信息学人才公告

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第一部分-Cellchat)

RcisTarget转录因子分析学习

依旧是热点！机械力感受+线粒体再发Nature大子刊！

生信技能树单细胞分析流程基础直播课(曾老师版本)细节学习

Robust Rank Aggregation(RRA)分析学习

sra-tools安装流程再学习(包含镜像设置)

CNCB(国家生物信息中心)数据下载流程学习(Anaconda/Aspera/Edge turbo）

临床预测模型—基于dcurves包的临床决策曲线(DCA)绘制学习

临床预测模型—C指数(C-index)和时间ROC(timeROC)曲线绘制学习

Chip-seq上游分析流程学习(四)

Chip-seq上游分析流程学习(三)

Chip-seq上游分析流程学习(二)

Chip-seq上游分析流程学习(一)

ChatGPT使用技巧(Prompt/翻译/润色/提取关键信息)学习

上海交通大学杨晨博士分享其研究内容及生信学习经验的整理学习

温州医科大学最新单细胞联合普通转录组文章，5张图拿下二区TOP，可复现可借鉴！

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉