【万能代码分享】一键搞定Limma包配对差异分析+热图+火山图+GO分析+KEGG分析+GSEA分析!

文摘   2024-11-07 21:34   美国  

热门免费资源:

一、国自然类:


1 1300份已中标标书全文

国自然项目答辩PPT

标书写作及参考文献模板

7 更多资源在更新中.....

2021历年国自然标书全文

国自然热点培训课

18-21年国自然中标清单

二、SCI实验类:

58套SCI实验操作视频

生物学实验操作手册

27款生物科研软件

qPCR计算万能模板

Excel统计分析模板

11 更多资源在更新中.....

69个SCI实验操作步骤

基因敲降shRNA实验步骤

近3年SCI实验资源汇总

Excel函数合集

10 SCI写作万能模板

三、科研绘图类:

PPT科研绘图素材合集

Office 正版软件安装包

直装版PS+AI安装包

PS修各种SCI实验图视频

资源共享群

PPT科研绘图插件VIP版

PPT/PS/AI科研绘图视频

Adobe全家桶安装包

PS 2021 (Mac)安装包

10 相亲交友群


一键搞定GEO芯片测序
之前我们已经给大家分享了GEO芯片测序limma差异分析非配对的万能代码点击查看下载

我们从GEO下载芯片测序(Array)数据之后,一般都是用limma包进行差异分析。那,今天我们给大家分享的是:

“Limma包配对差异分析+热图+火山图+GO分析+KEGG分析+GSEA分析全套万能代码(附代码交流群)”

如下免费下载:

🔽①长按下方二维码关注🔽

②对话框输入关键词:220708配对

②对话框输入关键词:220708配对

②对话框输入关键词:220708配对


是全套的万能代码,自动判断是否需要log2转换,自动ID转换,自动同基因名处理,你只要知道下载的数据有几个样本就行。大家可以进群,群内不答疑,可代码共享。下面开始操作:

从生物医学之家进入GEO数据库,检索自己想要的测序数据(GSE是测序的代号):


我这里以GSE32575为例,检索之后进入该测序的主页:


我们可以看到,是array芯片测序数据(要注意与sequence区分),有18个配对的样本(药物处理前后测序的数据)。

那我们用R语言跑代码来做(这一套代码是万能代码,全套代码你只需要修改两个参数,其他什么都不用管,比如是否需要log,同基因名怎么办等等,这些你都不需要考虑)。

我们点击下载基因表达矩阵(同时记住测序公司的平台是GPL6102,同时要记住每一个GSM样本是什么,是药物处理前还是后,这样我们后面才好分组,跑代码的时候要用):


下载如下,是txt格式文件,下载后命名为1_GSE32575_series_matrix(配对).txt随后我们还要准备代码文件【0_GEO_limma(配对).R】平台文件【1_PlatformMap.txt】,我们把这三个文件放在一个文件夹下:


分别打开看看R代码:


再看看矩阵格式,可以看到下面就是我们要的矩阵(行名是探针名,列名是样本名,但是我们分析样本名称之后,前面的12列样本不是我们要的,我们要的是后面18+18列配对的样本,后续进行差异分析)



平台文件是我们自己整理的,网上也有很多可以下载,大家也可以自行下载,里面是平台GPL和需要的ID转换R包一一对应,告诉我们哪个GPL平台用哪个R包去进行ID转换:



随后,我们就可以打开代码。具体如下(万能代码):

第零步,添加镜像,免得后面安装R包报错:


第一步,读入探针矩阵文件,提取探针表达矩阵:

读入之后,删除带!的行,也删除1-12不要的样本列,得到真正的18-18,共36个样本的探针矩阵:


点击看一下矩阵:


恩,OK,这个时候我们注意,行名是探针的ID,后面我们要进行ID转换,将探针的ID转换成基因的Symbol。那这里进行下一步。

第二步,表达矩阵预处理

首先是NA去除+log2转换后,看看样本间芯片怎么样(样本间差异需要去除):


矫正之后变平了(不管前面平不平,都可以进行矫正处理):



第三步,探针ID和基因名Symbol转换:

先看看GPL6102探针平台,探针ID是用什么R包将探针ID转换成基因symbol的,这里是illuminaHumanv2.db。


那么,我们就需要下载该包加载该illuminaHumanv2.db包:


那加载之后,不知道用这个包里面的什么函数将探针ID转换成,就在右下角搜索:


这里可以看到是illuminaHumanv2SYMBOL函数会变成Symbol:


运行代码:


发现我们的制作probe2symbol转换文件建立成功,打开看看(建立成功之后,我们就要进行真正的转换了):


第四步、 基因Symbol表达矩阵获取:

一个基因会对应对个探针,有些基因名称会是重复的,这些都需要处理。对于多个探针,我们选取在样本中平均表达量最高的探针作为对应基因的表达量。一下代码完成所有事情,而且可以复用。



转换成功,打开看看,此时行名已经是基因symbol了,我们可以继续差异分析了:


第五步、使用limma包来做芯片的差异分析---配对差异分析:

首先就是分组,分组之后用PCA看看分组怎么样,能否进行后续的差异分析:


我们可以看到其实,有个别样本分的不好(807370不好感觉),应该要删除才行的,这里我们不删除,看看结果怎么样先。

配对差异分析:


总的分析结果如下:


我们打开看看:


一共是7633个,用我们之前的Limma包非配对的差异分析代码(点击下载该代码),结果就是有allDiff得到6799行。所以,不配对和配对还是有差异的。

接着,我们选用adj.P.Val < 0.05和abs(logFC) >0.5为阈值,筛选差异基因,将差异结果保存下来:


结果如下(注意:后期我们做GO和KEGG功能富集分析的时候又要重新导入这个差异基因表格做分析):


记住CHD9这个基因,logFC为0.916328829830393;R3HCC1为-0.513266822373539。我们接着用GEO在线差异分析工具GEO2R进行差异分析一下(注意,GEO2R是不区分配对不配对的),如下:


恩,结果发现CHD9R3HCC1和我们的分析结果还是有区别。所以,该配对的时候还是配对,这样比较好。继续分析。

第七步,作图。

做某一个基因的图:


接着画一些基因的热图(选取一群adj.P.Val < 0.05和abs(logFC) >1的差异基因做热图),:



记得把图片保存为eps格式(后期用AI组图):


接着我们画火山图(分别是logFCfilter = 0.5### 筛选标准和logFCcolor = 1### 筛选标准对应的两种阈值):


第八步,差异基因集的GO富集分析:

这里,我们导入我们之前保存的adj.P.Val < 0.05和abs(logFC) >0.5为阈值的差异基因,做GO分析:


结果,这里是给你自动保存了P小于0.05的富集结果,而不是adj.P:


第九步,KEGG分析:


结果如下:


第十步、GSEA富集分析:


运行之后打开结果看看(P小于0.05的结果):


然后,自己将自己感兴趣的结果可视化出来:


这样,我们全套就搞定了,基本上,代码都是万能的了,要改的参数非常少,就算有,里面也写的非常清楚,0基础就能看懂。

代码和演示数据我都上传了:


如下免费获取:


“Limma包配对差异分析+热图+火山图+GO分析+KEGG分析+GSEA分析全套万能代码(附代码交流群)
如下免费下载:

🔽①长按下方二维码关注🔽

②对话框输入关键词:220708配对

②对话框输入关键词:220708配对

②对话框输入关键词:220708配对


更多免费资源:

三、科研绘图类:

PPT科研绘图素材合集

Office 正版软件安装包

直装版PS+AI安装包

PS修各种SCI实验图视频

AI科研绘图素材合集

11 AI科研绘图视频

13 SPSS统计分析实操课程

15 Origin绘图最全教程

17 Graphpad绘图视频

19 Image J图片处理视频

21 更多资源在更新中.....

PPT科研绘图插件VIP版

PPT/PS/AI科研绘图视频

Adobe全家桶安装包

PS 2021 (Mac)安装包

10 AI 2021安装包及素材

12 30 GB科研作图资源

14 Origin2021软件+教程

16 GraphPad绘图最全模板

18 Stata统计分析视频

20 Sigma plot绘图软件和视频

四、生信和写作类:

15套生信实操课程

TCGA数据挖掘课

零代码复现6分SCI教程

零代码复现4分SCI教程

WGCNA分析课程

11 GO分析傻瓜式教程

13 GSEA分析傻瓜式教程

15 渐变火山图傻瓜式教程图

17 GEO+TCGA数据挖掘课

19 41GB的生信分析+实验资源

GEO数据挖掘课

200篇生信自学范文

零代码复现5分SCI教程

8分SCI零代码复现步骤

10 超全生信数据库使用教程

12 KEGG富集分析教程

14 Meta分析范文+实操课

16 交集基因筛选高级教程

18 生信软件合集

辛苦整理,全文无任何广告!

觉得有用的话,您就点个在看、点赞!

科研部
由哈佛医学院及国内高校硕博们创办,一个共享临床论文、科研实验、生信挖掘、雅思托福等资源的平台!
 最新文章