三种方式下载GEO芯片注释文件GPL

学术   2025-01-15 19:46   广东  

我们最新一期的生信入门群里的小伙伴学完了两周的R语言后,都开始了自己的芯片数据实战分析,其中有个学员遇到了 从GEO数据库中下载 GPL 芯片注释文件失败的问题:

为什么下载这么难呢?我们来看看有哪几种下载方法吧,总有一款适合你!

1、R 包:GEOquery

一般,我最先会使用 GEOquery这个包进行下载,代码如下,只需要给出 GEO编号,设置 getGPL = T即可,随便给一个GSE编号:GSE228568

library(GEOquery)
gset <- getGEO("GSE63678", destdir = '.', getGPL = T)
gpl_anno <- as.data.frame(fData(gset[[1]]))
colnames(gpl_anno)
head(gpl_anno[1:5, c(1:5,10:12)])

这个代码会默认下载 一个 .soft.gz文件在当前目录并读取进来,这样就很快就能得到这个信息了:

2、R包:AnnoProbe

这个包为曾老板方便国内用户解决网速问题,开发的一个包,下载速度非常滴快。网址:https://github.com/jmzeng1314/AnnoProbe

library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)

# 比如常规芯片GPL570,只有fa序列
gpl <- 'GPL570'
probe2gene <- idmap(gpl,type='soft')
head(probe2gene)

# 比如特殊芯片,只有fa序列
gpl <- 'GPL16956'
probe2gene <- idmap(gpl,type = 'pipe')
head(probe2gene)

3、了解下载GPL的网址构成,借用其他各种下载工具

我们去GEO官网:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi ,输入一个GPL号如GPL570,选择下面的参数,点击GO:

你就会得到一个文件,可以进行保存下载:

那么这个文件的网址是什么样的呢:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570&targ=self&form=text&view=data

后续我只需要修改其中的GPL570编号就可以下载任意芯片平台的注释文件了,比如我用IDM多线程进行下载,就非常方便:

三种办法,你学会了吗?

友情宣传:

生信入门&数据挖掘线上直播课2025年1月班

时隔5年,我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
 最新文章