转录组|DESeq2差异基因分析-小趣事

文摘科学 2022-11-07 21:38 浙江

写在前面的话

分享一下利用DESeq2包寻找差异基因的小趣事，更让我觉得生物学意义和统计学意义结合的重要性......尤其处理大型非模式动物的数据时，要多长个心眼~~~

library(DESeq2)
library(dplyr)
library(tibble)
library(tidyr)
mycounts <- read.csv("7MDEGs.csv", header = T)
exprSet<-aggregate(x=mycounts[,2:(ncol(mycounts))],by=list(mycounts$gene.id),FUN=mean)
exprSet <- column_to_rownames(exprSet, var='Group.1')
exprSet<- exprSet[-1,]
mycounts =exprSet
keep <- rowSums(mycounts>0) >= floor(0.75*ncol(mycounts))
table(keep)
filter_count <- rawcount[keep,]
condition <- factor(c(rep("CM", 3), rep("IM", 3)), levels = c("CM","IM"))
colData <- data.frame(row.names = colnames(mycounts), condition)
dds <- DESeqDataSetFromMatrix(round(keep), colData, design = ~condition)
dds <- DESeq(dds)
res <- results(dds,contrast=c("condition", "IM", "CM"))
resOrdered <- res[order(res$padj),]
DEG =as.data.frame(resOrdered)
DEG

有意思的是会发现很多NA官方文档的note

NOTE: on p-values set to NA
1.If within a row, all samples have zero counts, the baseMean column will be zero, and the log2 fold change estimates, p-value and adjusted p-value will all be set to NA.
2.If a row contains a sample with an extreme count outlier then the p-value and adjusted p-value will be set to NA. These outlier counts are detected by Cook’s distance.
3.If a row is filtered by automatic independent filtering, for having a low mean normalized count, then only the adjusted p-value will be set to NA.

直接用DESeq2结果进行后续分析

deg = na.omit(DEG)
fc_cutoff <- 2
p <- 0.05
deg$regulated <- "normal" 
loc_up <- intersect(which(deg$log2FoldChange>log2(fc_cutoff)),
                    which(deg$pvalue<p))
loc_down <- intersect(which(deg$log2FoldChange< (-log2(fc_cutoff))),
                      which(deg$pvalue<p))
deg$regulated[loc_up] <- "up"
deg$regulated[loc_down] <- "down"
write.csv(deg,"deg.csv")

最近因分析单细胞数据关注到某个基因，并经实验验证，却一直以为转录组水平检测不到差异水平。细看了一下经DESeq2分析后的结果将该基因p值判断为NA。

查看该counts值

发现存在明显离群值，故都将p值和adj值判断为NA，符合官方文档说明的第二点。但生物学意义是人为赋予的，允许在该模型中存在这样离群现象，且具有生物学意义。可能有时候完全依赖数据工具分析结果，是远远不够的，也要反过来从源头看数据。

对该现象，所以为什么转录组筛选差异基因时候有多种方式，DESeq2包，limma包，edgeR包一起使用进行筛选。或者单独可视化自身感兴趣的基因集吧~~~~~

朴素的科研打工仔

专注于文献的分享，浙大研究生学习生活的记录。

最新文章

Compass| 单细胞代谢通量预测下游分析

细胞代谢|元细胞构建+代谢通量分析

相关性|空转+空代区域GSVA相关性分析

引爆学术界“ 核弹 ”寒门学子凭借这篇Nature一跃成为特级教授！独占鳌头！

细胞代谢|元细胞构建+代谢通量分析

共表达网络| WGCNA与hdWGCNA实操

细胞比例|一文打通单细胞转录组细胞类型丰度变化分析

数据整合|单细胞转录组多样本/不同测序手段整合

免费免费~影像组学论文拆解训练营火热开展中 | SCI制造机--影像组学+病理组学+深度学习人工智能培训班

Adv. Sci.丨宫内生长受限新生儿对肝损伤的性二型反应（解读）

空间转录组细胞信号流和轨迹推断-COMMOT/SPATA

空间转录组细胞通讯-stLearn（cell2location/RCTD）

单细胞和空间转录组联合分析-Cell2location+MIA

单细胞和空间转录组联合分析-RCTD去卷积

文献合集(五)｜单细胞如何做？做到什么程度？

文献合集(四)｜单细胞如何做？做到什么程度？

文献合集(三)｜单细胞如何做？做到什么程度？

文献合集(二)｜单细胞如何做？做到什么程度？

文献合集(一)｜单细胞技术如何应用？

拟时序| CytoTRACE +slingshot呈现

拟时序| monocle3+velo.R+scvelo呈现

文献合集(二)｜单细胞如何做？做到什么程度？

文献合集(一)｜单细胞技术如何应用？

2022 IF 正式发布

拟时序| monocle3+velo.R+scvelo呈现

WB| 条带变形计

共表达网络| WGCNA与hdWGCNA实操

这几个生信分析常用工具你真的学通了吗？单细胞，多组学or基因都能分析到底！

人工智能基因组学，Chip-Seq、RNA-Seq中预测premiRNA，您想知道的都在这！

单细胞/空间转录组分析常用工具汇总

新手入学ScRNA-seq分析流程

空间转录组|Seurat包初探

表观遗传学|Chip-seq、ATAC-seq分析流程

linux|合并文件命令

表观转录组|m6A-seq分析流程

整理| 常见注释数据库介绍

Shiny|自测单细胞数据供人访问

转录组|DESeq2差异基因分析-小趣事

空间转录组|Seurat包初探

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉