文章复现学习 | ROS（9）药敏预测、免疫治疗

文摘 2024-11-11 17:58 广东

学习笔记总结于『生信技能树』马拉松课程

本文学习复现《Oxidative Stress Response Biomarkers of Ovarian Cancer Based on Single-Cell and Bulk RNA Sequencing》（基于单细胞和Bulk转录组的卵巢癌氧化应激反应生物标志物）一文中的图，其中Oxidative Stress Response缩写为ROS。文章包含了芯片、转录组、单细胞等技术，适合用来复现及学习

九、药敏预测、免疫治疗

0.前情提要

关于药敏预测

预测哪些药物会对疾病表现好的治疗效果，通过IC50来看。IC50，半数抑制浓度，指在体外试验中在特定暴露时间后，药物抑制50%（细胞/靶点/特定蛋白等）所需的药物浓度

关于免疫治疗

TCGA数据没有提供免疫治疗结果，所以需要外部的数据来验证高/低风险组之间的免疫治疗结果是否有差别。根据免疫治疗的有效性，分为完全缓解（CR）、部分缓解（PR）、疾病稳定（SD）和疾病进展（PD）

CR和PR是好的结果，SD和PD是坏的结果，分别放在一起。不过图101（右）应该按照CR、PR、SD、PD的顺序来放

1.药物敏感性预测

文章使用了一个2014年的R包来计算IC50值，我们使用同一个作者但比较新的R包

1.1载入数据并完成预测

补充一点背景知识：oncoPredict是根据基因表达量来预测药物敏感性的R包。也就是说它可以根据你的样本基因表达量来告诉你每个药物的IC50值，这个值越低就说明药物越管用

提到药物预测，还有一个pRRophetic包，建议不用看了，因为oncoPredict是它的plus版本；还有一个cellMiner包，之前写过，可以翻翻看

#### 1.载入数据
# 代码参考自：https://mp.weixin.qq.com/s/QRaTd-fIsqq6sPsLmOPvIw，一些背景知识也可以补充下.
# 数据来源于：https://osf.io/c6tfx/  在Training Data文件夹下存放着R包作者准备好的数据，用作药物预测的训练集

# install.packages("oncoPredict")
# BiocManager::install("TxDb.Hsapiens.UCSC.hg19.knownGene")
rm(list = ls())
library(oncoPredict)
library(data.table)
library(gtools)
library(reshape2)
library(ggpubr)
dir='./DataFiles/DataFiles/Training Data/'
dir(dir)

# 可以看到其中包括了Cancer Therapeutics Response Portal (CTRP)和Genomics of Drug Sensitivity in Cancer (GDSC)，相当于两个训练集
# 两个数据库的数据，都是提供了基因表达矩阵和药物IC50表格

# rds格式的数据，需要用readRDS()函数读取
exp = readRDS(file=file.path(dir,'GDSC2_Expr (RMA Normalized and Log Transformed).rds'))
exp[1:4,1:4]
dim(exp) # 17419个基因   805个样本
range(exp) # 2.094251 13.929729 经过了log，不过不用逆log

drug = readRDS(file = file.path(dir,"GDSC2_Res.rds"))
drug <- exp(drug) #下载到的数据是被log转换过的，用这句代码逆转回去
drug[1:4,1:4]# 行是样本，列是药物，数字是药物在这个样本中的IC50
dim(drug)
identical(rownames(drug),colnames(exp))
# drug是药物IC50值，exp是对应细胞系基因的表达矩阵。可以看到二者的样本名称是对应的。


#### 2.拿自己的数据来完成预测
load("../6.model/TCGA-OV_sur_model.Rdata")
test = exprSet#我们自己的表达矩阵

# 运行时间很长，大概2h，所以if(F)注释掉
if(F){
  calcPhenotype(trainingExprData = exp,
                trainingPtype = drug,
                testExprData = test,
                batchCorrect = 'standardize',  #   "eb" for array,standardize  for rnaseq
                powerTransformPhenotype = TRUE,
                removeLowVaryingGenes = 0.2,
                minNumSamples = 10, 
                printOutput = TRUE, 
                removeLowVaringGenesFrom = 'rawData' )
}

# R包Vignette里关于batchCorrect参数的说明
# batchCorrect options: "eb" for ComBat, "qn" for quantiles normalization, "standardize", or "none"
# "eb" is good to use when you use microarray training data to build models on microarray testing data.
# "standardize is good to use when you use microarray training data to build models on RNA-seq testing data (this is what Paul used in the 2017 IDWAS paper that used GDSC microarray to impute in TCGA RNA-Seq data, see methods section of that paper for rationale)

# R包Vignette里关于removeLowVaringGenesFrom参数的说明
#Determine method to remove low varying genes.
#Options are 'homogenizeData' and 'rawData'
#homogenizeData is likely better if there is ComBat batch correction, raw data was used in the 2017 IDWAS paper that used GDSC microarray to impute in TCGA RNA-Seq data.

# 也就是说，芯片数据就用上面代码里的参数，转录组数据的话，就将batchCorrect改为standardize
# removeLowVaringGenesFrom，作者说的也模糊，就随便了


#### 3.看看结果
# 这是运行之后的结果，被存在固定文件夹calcPhenotype_Output下。文件名也是固定的DrugPredictions.csv。因此一个工作目录只能计算一个数据，不要混着用了
testPtype <- read.csv('./calcPhenotype_Output/DrugPredictions.csv', row.names = 1,check.names = F)
testPtype[1:4, 1:4]
dim(testPtype)
identical(colnames(testPtype),colnames(drug))
# IC50越小，药效越好
# 198种药物IC50的预测结果就在这个表格里了

1.2结合高低风险画图

load("../6.model/rsurv.Rdata")
identical(rownames(testPtype),rownames(rsurv))
a = apply(testPtype, 2, function(x){
  #x = testPtype[,1]，每个药物的IC50值
   data.frame(p = wilcox.test(x~rsurv$group)$p.value, # wilcox.test组间非参数检验，和高低风险的计算，计算p值和方差
              i = var(x)
   )
})
a = do.call(rbind,a)
k1 = a$p<0.01;table(k1)
k2 = a$i>25;table(k2)
table(k1&k2)
dg = rownames(a)[k1&k2]
library(tinyarray)
draw_boxplot(t(testPtype[,dg]),rsurv$group)
# 比较希望能看到高低风险组的差别

1.3相关性热图

load("../6.model/lassogene.Rdata")
nn = names(head(sort(apply(testPtype, 2, sum)),30))
testPtype = testPtype[,nn]
nc = cbind(testPtype,t(exprSet[lassoGene,])) %>% as.matrix()


library(Hmisc)
m = rcorr(nc)$r[1:ncol(testPtype),(ncol(nc)-length(lassoGene)+1):ncol(nc)]
p = rcorr(nc)$P[1:ncol(testPtype),(ncol(nc)-length(lassoGene)+1):ncol(nc)]
p[1:4,1:4]
library(dplyr)
tmp = matrix(case_when(as.logical(p<0.01)~"**",
                       as.logical(p<0.05)~"*",
                       T~""),nrow = nrow(p))
library(pheatmap)
pheatmap(t(m),
         display_numbers =t(tmp),
         angle_col =45,
         color = colorRampPalette(c("#2fa1dd", "white", "#f87669"))(100),
border_color = "white",
width = 7, 
height=9.1,
treeheight_col = 0,
treeheight_row = 0)

2.免疫治疗

### 1.输入数据
# 细胞丰度矩阵；risk结果；表达矩阵
rm(list = ls())
load("../6.model/rsurv.Rdata")#临床信息、分组

### 2.免疫数据验证
# IMvigor210CoreBiologies这个包比较过时了，更新时间停留在2018年，很难安装。喜欢挑战可以点进去 http://research-pub.gene.com/IMvigor210CoreBiologies/ 这个网页下载本地安装包，折腾一下，不喜欢就直接用存好的数据
# 这个时间点也是R语言版本从3.4切换到3.5的时候，那次换了bioconductor安装方式，导致这个网页中的安装方式早已不能用了

library(BiocGenerics)
library(Biobase)
f_cds = "cds.Rdata"
if(!file.exists(f_cds)){
  library(IMvigor210CoreBiologies)
  data(cds)
  counts = counts(cds) #表达矩阵
  an = fData(cds) #feature，基因的信息
  pd = pData(cds) #列的信息
  save(counts,an,pd,file = "cds.Rdata")
}
load(f_cds)

# 3.表达矩阵和临床信息表格的一系列整理
counts = counts[,match(rownames(pd),colnames(counts))]
an = an[!duplicated(rownames(an)),]
counts = counts[!duplicated(rownames(counts)),]

g = intersect(an$entrez_id,rownames(counts))
an = an[g,]
counts = counts[g,]

k = (!duplicated(an$symbol))&(!is.na(an$symbol));table(k)

counts = counts[k,]
an = an[k,]
rownames(counts) = an$symbol
meta = pd[,c("os","censOS","Best Confirmed Overall Response")]
colnames(meta)[3] = "Response"
meta$Response[meta$Response=="NE"]=NA

str(meta)
colnames(meta)[1:2] = c("time","event")
exp = log2(edgeR::cpm(counts)+1)
load("../6.model/lassogene.Rdata")
exp = exp[lassoGene,]
identical(rownames(meta),colnames(exp))
head(meta)#行是基因，列是样本

library(survminer)
lassoGene
load("../6.model/lasso_model.Rdata")
library(glmnet)
library(survival)
coef = coef(fit,s = cvfit$lambda.min)
dat = data.frame(gene = rownames(coef),
                 coefficient = as.numeric(coef[,1]))
head(dat)
dat = dat[dat$coefficient!=0,]
identical(dat$gene,colnames(exp))
dat = dat[match(rownames(exp),dat$gene),]

#meta$riskscore = as.numeric(predict(cvfit,newx = t(exp),s = cvfit$lambda.min))  predict有时候会莫名奇妙报错，所以不用
meta$riskscore = apply(exp,2,function(x){sum(dat$coefficient*x)})
res.cut = surv_cutpoint(meta, time = "time", event = "event", variables = "riskscore") 
cut = res.cut[["cutpoint"]][1, 1] #最佳截断值
cut

ri = ifelse(meta$riskscore<cut,"lowrisk","highrisk")
names(ri) = rownames(meta)
ri = factor(ri,levels = c("lowrisk","highrisk"))
table(ri)

meta$ri = ri # 至此，数据框有time和event用于做生存分析，response是免疫治疗结果（有NA无所谓），riskscore和ri是高低风险分组

箱线图 & 条形图

library(ggpubr)
dat1 = na.omit(meta)
ggboxplot(data= dat1,x = "Response",y = "riskscore",color = "Response",add = "jitter")+
  stat_compare_means(comparisons = list(c("CR","PR"),
                                        c("CR","SD"),
                                        c("CR","PD"),
                                        c("PR","SD"),
                                        c("PR","PD"),
                                        c("SD","PD")))

library(dplyr)
meta$Response2 = ifelse(meta$Response %in% c("SD","PD"),"SD/PD","CR/PR")
dat = count(meta,ri,Response2)
dat = dat %>% group_by(ri) %>% 
  summarise(Response = Response2,n = n/sum(n))
dat$Response = factor(dat$Response,levels = c("SD/PD","CR/PR"))

library(ggplot2)
ggplot(data = dat)+
  geom_bar(aes(x = ri,y = n,
               fill = Response),
           stat = "identity")+
  scale_fill_manual(values =  c("#f87669","#2fa1dd"))+
  geom_text(aes(x = ri,y = n,
                label = scales::percent(n)),
            color = "white",
            size = 6,
            position = position_fill(vjust = 0.5))+
  theme_minimal()+
  theme(legend.position = "top")

至此，该篇文献的复现学习结束

谢谢观看

http://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247528737&idx=3&sn=cb12d3f53b4e094b84b5a119534f2505

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

最新文章

单细胞联合TCGA你还不会吗

新手学习生信避坑指南1.0

新工具：新抗原分析一步到位

读书笔记 | 癌症计算系统生物学 | 第 03 章实验性高通量癌症研究技术

Nature | 10万基因组项目的14,778名患者的39种肿瘤类型ecDNA的研究

Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义

数据库分享 | NCBI 关于 2023 年资源更新的最新报告

【flowjo】中性粒细胞流式笔记：你的增殖我的增殖大不一样

网络药理学—药学新人的理解与探索（一）

网络药理学—药学新人的理解与探索（二）

网络药理学—药学新人的理解与探索（三）

为什么要在单细胞水平展现那些平平无奇的基因呢

读悉达多·穆克吉新作《细胞传》

miloR单细胞差异丰度分析

肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗

高分综述 | 癌症免疫逃逸的特征

读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理

Cell | 单细胞 RNA 测序数据差异表达分析的方法框架

主题合集 | 期刊泛读 | Cell 出版社

【斑马鱼肾脏】多个单细胞数据整合分析（二）

玩转服务器4—服务器间数据传输

文章复现学习 | ROS（7）模型可视化之森林图&诺模图

文章复现学习 | ROS（8）突变频谱、免疫浸润、gsva

文章复现学习 | ROS（9）药敏预测、免疫治疗

浅识Linux

服务器的购买与保护

提升Linux学习幸福感的二三事

Linux的文件结构与命令格式

管理文件夹与文件的基础命令（1）

单细胞细节笔记汇总

这篇文章的数据处理方法需要再“研究”一下

Cell 最新【细胞图谱】文章，提供网页工具辅助探索

数据库介绍 | PharmGWAS：一个基于GWAS的药物再利用知识库

主题合集 | 期刊泛读 | Nature 出版社

科学界接下来应该会有很多基于 AI Agent 开发出来的科研工具

读书笔记 | 癌症计算系统生物学 Chpter 01

【斑马鱼肾脏】多个单细胞数据整合分析（一）

玩转服务器—共享服务器R包调用与安装

R语言入门09：因子、列表、矩阵、数组

R语言入门10：类型判断和转换

R语言入门11：常见函数介绍：数值和字符串处理

R语言入门12：for循环、if-else分支、自编函数

R语言入门13：apply系列函数（apply、lapply、sapply、tapply）

R语言入门14：实用技巧（R包路径修改、quarto简介、镜像设置等）

R语言入门15：实战：TCGA数据下载和整理

R语言入门16：R绘图入门（base plot + ggplot2）

ChIP分析笔记|| PRJNA1037717 脂肪肝-肿瘤抑制基因Sirt6：文献阅读

R tips：使用shiny和plotly获得umap图的点坐标

堪称完美的实验设计：食管癌前病变基因组研究

对35种癌症的10,478名患者基因组进行候选驱动基因识别，英国10万基因组项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉