RNA-seq差异分析实战指南：利用DESeq2 R包精准解析差异表达并可视化基因调控！

学术 2024-11-12 19:00 上海

当涉及到RNA-seq差异分析时，你是否曾经感到困惑或无从下手？本期，果叔将带小伙伴们揭开RNA-seq分析的神秘面纱！RNA-seq技术为我们打开了一个全新的窗口，让我们能够深入了解基因表达的奥秘。而在这个探索过程中，DESeq2 R包成为了我们不可或缺的得力助手。凭借其强大的统计功能和精准的分析能力，我们可以精准解析RNA-seq数据中的差异表达。不仅如此，通过可视化手段，我们能够直观地洞察基因调控，并发现隐藏在数据背后的生物学意义。无论是基础研究还是临床应用，DESeq2都能为我们提供有力的支持。那么，你还在等什么？快来和果叔一起探索RNA-seq差异分析的无限可能吧！同时呢，十年的生信之路，果叔已经练就了一身扎实的本领，现在准备用这身本事为小伙伴们服务啦！如果你在生信分析上遇到了难题，那就来找果叔吧！果叔会用自己的专业知识和技能，为你解决困扰，助你一臂之力。期待你的联系哦~

一、DESeq2包简要说明

DESeq2包是一个为RNA-seq数据中的高维计数数据设计的R语言包，专注于数据的归一化、可视化和差异表达分析。其主要功能是利用经验贝叶斯方法（empirical Bayes techniques）来估计对数倍数变化（log2foldchange）和离差的先验值，并计算这些统计量的后验值。这也就是为什么DESeq2能够在RNA-seq数据中精确地探测基因差异表达的原因啦~

lDESeq2包差异表达分析步骤：

ØDESeq2首先对原始reads进行建模，使用标准化因子（scale factor）来解释库深度的差异。

ØDESeq2估计基因的离散度，并缩小这些估计值以生成更准确的离散度估计，从而对reads count进行建模。

ØDESeq2拟合负二项分布的模型，并使用Wald检验或似然比检验进行假设检验。

²果叔提示：在进行差异表达分析之前，需要准备好输入数据。DESeq2包使用基于计数的RNA-seq数据作为输入。通常，我们需要将原始测序数据映射到基因或转录本水平，并计算每个基因或转录本的读数。

二、代码实操

果叔这里将用一段代码和小伙伴们一起学习DESeq2包进行RNA-seq差异分析的一个典型流程。本次介绍的R包操作会占用内存较大，果叔建议使用服务器，欢迎小伙伴们联系果叔租赁性价比居高的服务器！

跑代码时卡顿、电脑不给力让人抓狂！找果叔试用稳定高速的服务器，让分析顺畅无比！

代码学不会？bug 频繁出现，束手无策？实操生信分析课程赶快学起来！滴滴果叔领取体验课程哦~

线上课程教学

课题设计、定制生信分析

云服务器租赁

加微信备注99领取使用

l包的安装与加载：首先，检查是否安装了BiocManager，如果没有，则进行安装。

if (!requireNamespace("BiocManager", quietly = TRUE)) {  install.packages("BiocManager")}    BiocManager::install("DESeq2")library(DESeq2)

l进行模拟数据集的生成：果叔这里使用了set.seed确保模拟结果的可重复性。定义条件和样本。使用rpois生成矩阵，模拟了基因在样本中的表达水平。

set.seed(123)conditions <- c("Condition1", "Condition2")samples <- paste0("Sample_", 1:6)counts <- matrix(rpois(60, 1000), ncol = 6)colData <- data.frame(  sample = samples,  condition = factor(rep(conditions, each = 3)))

l创建DESeq2数据集对象：用DESeqDataSetFromMatrix创建DESeq2数据集对象dds，其中包含了计数数据和样本信息。

dds <- DESeqDataSetFromMatrix(countData = counts, colData = colData, design = ~ condition)

l数据预处理：先用estimateSizeFactors对数据进行标准化，以消除样本之间的大小差异，然后用estimateDispersionsGeneEst进行基因级别的离散度估计，并更新dds对象。

dds <- estimateSizeFactors(dds)dds <- estimateDispersionsGeneEst(dds)dispersions(dds) <- mcols(dds)$dispGeneEst

l差异表达分析：用nbinomWaldTest拟合负二项模型并进行差异表达分析。

dds <- nbinomWaldTest(dds)

l离散度分布的可视化：用plotDispEsts查看数据的离散度分布，这有助于判断模型的适用性。

plotDispEsts(dds, fitType="local")

l差异表达基因结果的获取与过滤：使用results获取差异表达分析的结果后通过subset过滤出FDR校正后P值小于0.05的显著性基因。

res <- results(dds)print(res)resSignificant <- subset(res, padj < 0.05)

l数据可视化（检查数据质量）：果叔这里进行了多种可视化~plotMA绘制火山图，展示基因的log2 fold change和显著性水平；boxplot绘制箱线图，检查基因表达数据中的异常值；vioplot绘制小提琴图，展示基因表达数据的分布；stripchart绘制点图，展示每个样本中每个基因的表达量；heatmap3绘制热图，展示基因表达量的分布；pairs绘制散点图矩阵，展示基因表达量之间的成对关系。

plotMA(res, main="Volcano Plot")boxplot(assay(dds), las = 2, col = "skyblue", pch = 20,        main = "Boxplot of Gene Expression Data")if (!requireNamespace("vioplot", quietly = TRUE)) {  install.packages("vioplot")}library(vioplot)vioplot(assay(dds), col = "lightgreen", pch = 20,        main = "vioplot of Gene Expression Data")stripchart(assay(dds), method = "jitter", pch = 20, col = "yellow",           main = "Stripchart of Gene Expression Data")    install.packages("heatmap3")library(heatmap3)heatmap3(assay(dds), scale = "row", col = heat.colors(100),         main = "Heatmap of Gene Expression Data")pairs(assay(dds), col = "purple", pch = 20,      main = "Scatterplot Matrix of Gene Expression Data")

l样本相关性分析：用dist函数计算样本间的欧氏距离，并使用heatmap3绘制样本相关性热图。

sampleDists <- dist(t(assay(dds)))sampleDistMatrix <- as.matrix(sampleDists)heatmap3(sampleDistMatrix, main="Sample Correlation Heatmap")

l主成分分析（PCA）：使用prcomp进行PCA分析，并通过biplot绘制前两个主成分的二维投影，以展示样本间的相关性。

pca_result <- prcomp(t(assay(dds)), scale. = TRUE)biplot(pca_result, scale = TRUE, col = as.numeric(colData(dds)$condition),       pch = 19, main = "PCA Biplot of Sample Correlation")

三、文章小结

本期，果叔为小伙伴们讲解了DESeq2 R包在基因表达数据分析中的应用。我们模拟了基因表达数据，并利用DESeq2进行数据预处理、差异表达分析，并通过火山图展示分析结果。此外，通过箱线图、点图、热图和散点图等多种可视化手段，深入探索了数据集的内在结构和样本间的相互关系。最后，通过主成分分析（PCA）进一步分析了样本间的相关性。整个过程不仅揭示了差异表达基因，还深入分析了对数据集。快来和果叔一起尝试DESeq2，解锁你的基因表达数据之秘吧！希望本期的内容对你有帮助，期待我们下期再见！最后如果各位小伙伴们觉得自己运行代码太麻烦，欢迎用我们的云生信小工具，只要输入合适的数据就可以直接出想要的图呢，附云生信链接

（http://www.biocloudservice.com/home.html）。

不会分析还想用生信工具助力发文咋办？有这顾虑的朋友，想一步到位就带着想法来，不论是代码实操还是在线文章结果复现，果叔照样能提供，还有大家都想要的服务器，找果叔获取就对了！

往期回顾

顶刊Cell的富贵还是让“多组学”接住了！樊荣团队开发新技术，天花板的代码分享！携单细胞测序玩转空间转录组，别错过！

刚逃过“三花淡奶”又陷入“预制菜”！“NHANES最新数据+多变量回归”实锤：超加工食品会加重骨质疏松！不爱做饭的亲，注意咯！

遇强则强！还是低估孟德尔随机化的实力了！山东第一医科大学团队搭配机器学习+多组学分析，便轻轻松松0实验发了6分+！

思路简直开挂，已经复现坐等毕业了！青岛大学的网络药理学研究咋就这么牛？看来“药” 做就做高级范，毕业才能so easy！

http://mp.weixin.qq.com/s?__biz=Mzg3OTg3MjQyNg==&mid=2247505260&idx=2&sn=bd926c1dd3b66fe98f67c1aa21018717

生信果

生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等

玩转GWAS基因和通路富集评分，PascalX让科研充满趣味！

IF 36.1，还得是Nature methods啊！单细胞和空间转录组王炸组合，全新分析方法推断细胞间通信驱动的细胞间流动

果叔带你解码bulk RNA-seq的反卷积新工具—— BayesPrism

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

恭喜！南昌大学谢明勇院士团队拿下封面文章！药食同源+代谢组学+微生物组学，网药新方向get，这套思路拿下Q1包的！

在R语言中数据转换和分析的保姆级教程

每个生信人都需要一台服务器

本科生登上国际顶刊《Cell》？这个帅小伙，他做到了！三维时空建模工具包，高精度再次提升！

如何从孟德尔随机化内卷中脱颖而出？果叔带你深度解析Radial-MR

能发到顶刊Cell，这么卷也值了！这篇空间转录组生信文的图片堪称艺术啊，作为同行这么牛，都有点吃不消了~

RNA-seq差异分析实战指南：利用DESeq2 R包精准解析差异表达并可视化基因调控！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

你一定好奇细胞间是怎样沟通的吧！！！SingleCellSignalR包，带你深入细胞信号传导，揭示细胞间的相互作用！

一个半月就发表12.2分！河北医科大学马玉霞团队：胜在选择NHANES数据库+网药分析，这才是真正的科研强者！你上你也行！

Omada包：无监督机器学习助你穿越基因表达谱的聚类迷宫！

点赞！贵州中医药团队1个月夺得 2 区毕业神刊，“药食同源” 未来可期，“网络药理学 + 分子对接” 强势出圈，中医药人快行动！

还在为单基因GSEA发愁？看这里！果叔教你如何掌握单基因GSEA通路富集！!

机器学习热得发烫！“纯生信+机器学习”只需稍微分析，便轻取7.7分，这本1区期刊接收纯生信、审稿快，赶紧快来拾buff！

CNV可视化与焦点分析的利器：GenomeTornadoPlot R包

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

思路简直开挂，已经复现坐等毕业了！青岛大学的网络药理学研究咋就这么牛？看来“药” 做就做高级范，毕业才能so easy！

论文最豪华的“装修”道具！两分钟玩转GENECARDS和STRING，轻松构建PPI！！！

遇强则强！还是低估孟德尔随机化的实力了！山东第一医科大学团队搭配机器学习+多组学分析，便轻轻松松0实验发了6分+！

用R进行GWAS分析，原来如此简单

特朗普 “王者归来” 胜选，中国科研界将迎接哪些 “川” 流不息的挑战？

刚逃过“三花淡奶”又陷入“预制菜”！“NHANES最新数据+多变量回归”实锤：超加工食品会加重骨质疏松！不爱做饭的亲，注意咯！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

顶刊Cell的富贵还是让“多组学”接住了！樊荣团队开发新技术，天花板的代码分享！携单细胞测序玩转空间转录组，别错过！

空间转录组学数据处理只依赖R语言？让我们从scanpy开始，拥抱python吧！

这篇NC不仅纯生信，数据还全开源！涵盖了17种肿瘤类型，36万+的TAM多样性图谱！单细胞再度起飞，属实被作者思路装到了！

简单！一行代码完成RNA-seq下游分析！

谁说机器学习玩烂了？那是你没学到精髓！来看看纯“机器学习”“0实验”的14+文章！学会这波操作“paper”皆有可能!

这不就是生物信息学的宝典吗？ggmsa包，让你畅游生物序列的海洋，保守位点、突变位点，统统显露无遗！

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

厉害了，我的宝！哈医大本科生一作，0实验收下5分+纯生信！这波属实“信”福来敲门，被这操作狠狠秀到！

来稿就收，又快又水，不是说说而已！这6本几乎不退稿的毕业神刊，医学宝子们一定要刷到！有它们你不可能会延毕！

发了N篇一区SCI后，目前看来，这种方法是最容易“水”TOP文章的！发不发的出去，全看你的选题如何！

全网最全最准确的肿瘤样本药物敏感性预测教程

纯生信47天冲进Q1区7.7分！这才是当下极品毕业神刊！分析方法全是老“套路”，出奇制胜就因为选题牛！

当实验无趣时：如何通过租赁服务器开启科研新篇章

超级侦探SingleR，揭露单细胞数据细胞类型的奥秘

本科生一作，顶刊14.3分！科研内卷太厉害了！安徽医科大学的小孩哥咋这么优秀？数据库挖一挖，得来全不费工夫！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

甭找了，博士毕业就照这个整！22天，15个样本直接锁定Nature Communications！我宣布单细胞就是生信顶流！

一图胜千言：用ggridges画的山脊图，让你的数据说话

网络药理学保姆级做图教程！轻松构建美观华丽的药物成分靶点基因网络！

IF=10.7！1个月接收的梦中情刊！NHANES数据库新战绩！广州医科大白岩森团队纯分析的SCI！公共数据库还能再开发

一图胜千言：用ggridges画的山脊图，让你的数据说话

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉