很多原始测序数据值得重分析一遍！用好公共数据！

学术 2025-01-06 00:06 上海

作为服务器系统，linux包括内核及其应用程序。有了这个linux这个内核，我们还需远程终端工具（外壳shell）来帮助我们实现数据存储和处理等。finalshell和xshell都是常用的远程终端工具，都可以作为SSH连接工具，操作服务器中的各种资源！

在实际操作中，我们使用的是Xshell，所以就以Xshell为例分享远程终端工具的使用方法。Xshell是一款强大的SSH、TELNET和RLOGIN终端仿真软件，适用于Windows用户安全地访问Linux主机。使用服务器时，通过Xshell远程连接就可以操作服务器了。

第一次登录需要输入IP地址、端口、用户名和密码等，第二次及其以后的登录都比较方便。然后，我们就可以在Xshell上面创建文件，从公共网站下载数据，对下载的上游测序数据进行过滤（如去除低质量数据，去接头）和对比等操作。这次我们分析肝细胞癌和癌旁组织中MAIT细胞的表达差异。

数据来源：肝癌免疫微环境的研究，Accession Number: SRP124855。三个肿瘤样本测序数据，三个癌周样本测序数据，以及两个健康肝组织对照。因原始数据通常比较大，通常需要等一段时间。基因序列比对的算法很多，选择自己喜欢的、认可的就行。

在针对原始测序数据分析的实战中，我们发现，通过linux分析得到的差异基因数目，有时远远用多于GEO官网提供的、已经标准化的数据差异分析得来的细胞数目。当然，因为linux分析得到的差异基因，既有编码基因，也有非编码基因；而标准化的数据往往只关注编码基因，或者编码基因，或者由于序列比对算法不同而导致的。如果不进行上游分析，我们也可以下载GSE106830的标准化数据，然后进行差异分析等。

借这次机会，我们探究下 linux 差异分析、富集分析和互作分析结果，与 DESeq2 包差异分析、富集分析和互作分析结果的区别。linux差异分析的结果是通过上图Bowtie2、TopHat和Cufflinks算法得到的，过程就不展示了。DESeq2包差异分析如下：

## 用别人的数据发文章，使用原始测序数据还是已经标准化处理的数据？########
## 数据来源于NCBI GEO官网，使用tidyverse包清洗数据，DESeq2算法获得差异基因
## 差异分析{## 下载数据，加载数据 #######################
library(tidyverse)library(DESeq2)   library(pheatmap)  # 用于制作热图library(ggplot2)   # 用于作图的包library(clusterProfiler)
gset <- read_csv(file = "GSE106830.csv.gz", skip = 0) # 数据下载自NCBI GEOcolnames(gset) <- c("ENSEMBL","P1","T1","P2","T2","P3","T3","H1","H2")
## 探针ID转换library(org.Hs.eg.db)keytypes(org.Hs.eg.db)
Ensembl_ID <- gset$ENSEMBL # 查看org.Hs.eg.db 包提供的转换类型symbol <- bitr(Ensembl_ID, fromType="ENSEMBL",  # 采用bitr()函数进行转换               toType=c("SYMBOL", "ENTREZID"),               OrgDb="org.Hs.eg.db")
data <- inner_join(symbol,gset, by = "ENSEMBL")
## 筛选表达数据,用aggregate函数，取最大值data <- aggregate( . ~ SYMBOL, data = data, max) 
## 数据清洗，获得行为基因名，列为样本名的表达矩阵rownames(data) <- data$SYMBOLexprset <- data[,c(4:9)]exprSet = as.data.frame(lapply(exprset,as.numeric),                       stringsAsFactors = F)rownames(exprSet) <- rownames(exprset) # str(exprSet)
countData <- exprSet[rowMeans(exprSet) > 1,]  # 去除表达量过低的基因
## 样本分组信息ctrl <- countData[,c(1,3,5)]tumor <- countData[,c(2,4,6)]exprSet1 <- cbind(ctrl,tumor)condition <- factor(c(rep("ctrl",3),rep("tumor",3)), levels = c("ctrl","tumor"))
colData <- data.frame(row.names=colnames(exprSet1), condition)
## 差异分析#第一步，构建 DESeqDataSet 对象dds <- DESeqDataSetFromMatrix(countData = exprSet1, colData = colData, design= ~condition)
#第二步，计算差异倍数并获得 p 值dds1 <- DESeq(dds, fitType = 'mean', minReplicatesForReplace = 7, parallel = TRUE)
res <- results(dds1, contrast = c('condition', 'tumor', 'ctrl'))res1 = na.omit(res)
allDiff = as.data.frame(res1)colnames(allDiff) <- c("baseMean","logFC","lfcSE","t","P.Value","padj")
## 获得差异表达矩阵logFoldChange = 1P = 0.05diffSig <- allDiff[with(allDiff, (abs(logFC)>logFoldChange & P.Value < P )), ]
save(allDiff,diffSig, file = "data.Rdata")}
## 火山图 ########{xMax <- max(-log10(allDiff$P.Value))   yMax <- max(abs(allDiff$logFC))
allDiff$change <- ifelse(allDiff$P.Value < 0.05 & abs(allDiff$logFC) > 1,                         ifelse(allDiff$logFC > 1,'UP','DOWN'),                         'NOT')table(allDiff$change)
##数据整理和条件设置data1 <- allDiff %>%   rownames_to_column("Genes")  #行名转为Genes为列名的一列data2 <- data1 %>%   mutate(regulate = case_when(logFC >= 1 & P.Value <= 0.05 ~ "up",                              logFC <= -1 & P.Value <= 0.05 ~ "down",                              TRUE ~ "NS"))  # 基本绘图ggplot(data2,aes(logFC,-log10(P.Value)))+   geom_point()+  labs(x=expression(Log[2]*" Fold Change"),       y=expression(-Log[10]*" (p value)")) #修改坐标轴命名细节
library(ggrepel) # 注释基因data2$selectedgene <- ifelse(data2$padj < 0.05 & abs(data2$logFC) > 1 ,data2$Genes,NA)
# 美化绘图ggplot(data2,aes(logFC,-log10(P.Value),    #分别给正负显著变化的基因在图中根据颜色、大小标注出来                 color=factor(regulate),                 size=factor(regulate)))+    geom_point()+  labs(x=expression(Log[2]*" Fold Change"),       y=expression(-Log[10]*" (p value)"))+  theme_grey(base_size = 15)+  scale_color_manual(values = c('blue','grey','red'))+  scale_size_manual(values = c(2,1,2))+  geom_hline(yintercept = -log10(0.05),linetype = 2,cex = 1)+  #添加辅助线  geom_vline(xintercept = c(- 1, 1),linetype = 2,cex = 1)+  theme(legend.title = element_blank(), #图例的设置参数        legend.position = "right",      #标签位置为right        legend.background = element_rect(fill='transparent'))+  #用ggrepel包给选择的基因加上文本标签  geom_text_repel(aes(label=selectedgene), color="black",size= 2.5,                  box.padding=unit(0.5, "lines"),                   point.padding=NA,                   segment.colour = "black") 
}
## GO和KEGG富集分析 ########{library(clusterProfiler)library(ggplot2)library(enrichplot)library(GOplot)library(DOSE)library(stringr)
#### 读取数据或直接使用前面分析的数据data1Data <- diffSigData <- Data %>%  rownames_to_column("Genes") gene <- bitr(Data$Genes,             fromType = 'SYMBOL',             toType = 'ENTREZID',             OrgDb = 'org.Hs.eg.db') #基因名ID转换，把基因名转换成ENTREZID
#### GO富集分析GO <- enrichGO(  gene$ENTREZID,  OrgDb = 'org.Hs.eg.db',  keyType = "ENTREZID",  ont = "ALL",  pvalueCutoff = 0.01,  ##p值  pAdjustMethod = "BH",  qvalueCutoff = 0.05,  ##q值  minGSSize = 50,       ##最少基因数目  maxGSSize = 500,      ##最多基因数目  readable = TRUE)
#### KEGG富集分析KEGG <- enrichKEGG(  gene$ENTREZID,  organism = "hsa",   keyType = "kegg",  pvalueCutoff = 0.5,  pAdjustMethod = "BH",  minGSSize = 10,  maxGSSize = 500,  qvalueCutoff = 0.5,  use_internal_data = FALSE) 
#### GO富集分析绘图barplot(GO, split="ONTOLOGY",showCategory = 5,title = 'GO Pathway')+  facet_grid(ONTOLOGY~., scale="free") +  scale_y_discrete(labels = function(x) stringr::str_wrap(x, width = 35)) ##避免字体重合
dotplot(GO, split="ONTOLOGY",showCategory = 5,title = 'GO Pathway')+  facet_grid(ONTOLOGY~., scale="free") +  scale_y_discrete(labels = function(x) stringr::str_wrap(x, width = 35)) 
#### KEGG富集分析绘图barplot(KEGG,showCategory = 10,title = 'TOP10 KEGG Pathway') +  scale_y_discrete(labels = function(x) stringr::str_wrap(x, width = 35)) 
dotplot(KEGG,showCategory = 10,title = 'TOP10 KEGG Pathway') +  scale_y_discrete(labels = function(x) stringr::str_wrap(x, width = 35)) }
## GSEA富集分析##########{## 使用clusterProfiler包进行GSEA分析########### 加载所需的R包library(org.Hs.eg.db) # human的OrgDBlibrary(clusterProfiler)library(msigdbr)library(enrichplot)library(ggplot2)  # ID转化gene_entrezid <- bitr(geneID = rownames(allDiff),                         fromType = "SYMBOL",                         toType = "ENTREZID", # 转成ENTREZID                        OrgDb = "org.Hs.eg.db")  head(gene_entrezid)  gene_entrezid$logFC <- allDiff$logFC[match(gene_entrezid$SYMBOL, rownames(allDiff))]genelist = gene_entrezid[,3]names(genelist) = gene_entrezid$ENTREZID 
genelist <- sort(genelist, decreasing = TRUE)
m_t2g <- msigdbr(species = "Homo sapiens", category = "H") %>%     dplyr::select(gs_name, entrez_gene)head(m_t2g)
gsea_res <- GSEA(geneList = genelist,                  TERM2GENE = m_t2g,                 minGSSize = 10,                 maxGSSize = 500,                 pvalueCutoff = 1,                 pAdjustMethod = "BH")
gsea_res[[gsea_res$ID[[1]]]] # 第一个条目的所有基因
## 数据可视化，峰峦图ridgeplot(gsea_res,          showCategory = 10,          fill = "pvalue",         #填充色 "pvalue", "p.adjust", "qvalue"           core_enrichment = TRUE,  #是否只使用 core_enriched gene          label_format = 30,          orderBy = "NES",          decreasing = FALSE) +  theme(axis.text.y = element_text(size = 10))
ids <- gsea_res@result$ID[1:5]
gseadist(gsea_res,               # boxplot         IDs = ids,         type = "density") +  theme(legend.direction = "vertical")
## 排序gsearank(gsea_res,         geneSetID = 1 # 要展示的基因集)
## 绘图gseaplot(gsea_res, geneSetID = 1, by = "runningScore",          title = gsea_res$Description[1])
gseaplot(gsea_res, geneSetID = 1, by = "preranked",          title = gsea_res$Description[1]) +   theme(plot.title = element_text(size = 10, color = "blue"))
# 取子集绘图p <- gseaplot(gsea_res, geneSetID = 1, title = gsea_res$Description[1])p
# 取子集进行修改p[[1]] <- p[[1]]+theme(plot.title = element_text(size = 6))p
# 默认subplots = 1:3，把3个图放一起gseaplot2(gsea_res,geneSetID = 1,title = "title",          subplots = 1:3,          base_size = 10)
gseaplot2(gsea_res, geneSetID = 1, subplots = 1)gseaplot2(gsea_res, geneSetID = 1, subplots = 1:2)
#把entrezid变为symbolgsea_res_symbol <- setReadable(gsea_res, "org.Hs.eg.db", "ENTREZID")
p <- gseaplot2(gsea_res_symbol,geneSetID = 1,               title = gsea_res_symbol$Description[1])
p[[1]] <- p[[1]]+  theme(title = element_text(color = "red"))p
## 展示多条通路tmp <- as.data.frame(gsea_res_symbol)colnames(tmp)
p <- gseaplot2(gsea_res, geneSetID = 1:6)p}

芒果师兄

1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路，读书，音乐和娱乐。

最新文章

肝细胞癌免疫逃逸的幕后推手竟是它!

再讨论！T 细胞活化的四条信号！

两图一表，TAMs作用不小

单细胞多组学大揭秘：DNMT3A 突变在克隆性造血中的奇幻之旅

大讨论！肿瘤是全身性疾病吗？

假如一个普通科研者进行了数据重复使用，下的定论真的是“数据误用”吗？

空间组时代，生信研究新范式！大佬团队是怎么研究MAIT细胞异质性的？经典！

直播预告 | 顶刊文章如何运用CRISPR文库筛靶点？

十二讲05.探究肿瘤病因学，病毒！

一文搞懂！聊聊干细胞发展史！

很多原始测序数据值得重分析一遍！用好公共数据！

新篇章！一文搞懂肿瘤的病理诊断！

十二讲04.探究机制，互作与通路！

不出意外，图片查重果然成了生意！

十二讲03.探究肿瘤异质性，基因组学！

m6A甲基化是咋影响癌症治疗耐药性的？

十二讲03.探究肿瘤遗传学，就抓分析

新玩法！孟德尔随机化+多组学数据整合分析泛癌生物标志物-TGS1

每个NHANES数据挖掘，都要权重计算！（附系列推文）

梅开二度，更上层楼！王福俤教授的2024！

2025，让生信更落地的利器来了！

十二讲02.探究肿瘤微环境，就抓循环！

免疫治疗新进展—靶向癌症中CD8 T细胞和NK 细胞代谢紊乱

思路推荐！三个临床病例竟能发Nature！

文末福利！与WGCNA、差异分析媲美的时间序列分析Mfuzz！

专注肿瘤三大方向！生信大牛王凌华的2024！关于肺腺癌上皮细胞图谱，尤其出彩！

十二讲01.探究肿瘤的本质，就抓表型

大讨论！肺癌单细胞注释，肥大细胞和髓系细胞可以同时出现吗？

Nature Aging｜揭秘-逆转衰老对免疫抑制的关键！

Nature上是怎么研究TAGLN2的？

重生之生信服务器的救赎

似曾相识！上海九院这篇鉴定头颈肿瘤中新类群的研究，共培养实验做得真棒！

空间组学，定位真的很重要！

孟德尔随机化思维在闪耀！PCSK9 突变驱动肿瘤转移上顶刊！

空间组学！Xenium是个啥？

T 细胞表观重编程上Science！代谢驱动的！

空间组学！Visium是个啥？

牛！重新利用大型微阵列以实现可扩展的空间转录组学

博士到院士有多远，万水千山！

TREM2：胶质母细胞瘤中的新发现，为癌症免疫治疗带来新机遇！

空间组学！CODEX是个啥？

B 细胞表观重编程上Cell，这次是免疫逃逸！

肿瘤异质性，分三个层面可好？！

Immunity！清华伉俪揭示自身免疫病中 B 细胞的表观重编程！

肿瘤干细胞存在吗？做成瘤实验！

科学大发现 | 肿瘤表达CD24，与巨噬细胞上的Siglec-10互作，逃逸抗肿瘤免疫反应

缺氧肿瘤微环境，真的存在吗？请查阅《癌生物学》p637！

这篇Science，打法跟王凌华团队的有点像

肿瘤免疫12讲 (下)，肿瘤的治疗！

赢麻了！一周内发Cell、Nature和Science论文各一篇！这样的西湖大学，光芒万丈！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉