我们最新一期的生信入门群里的小伙伴学完了两周的R语言后,都开始了自己的芯片数据实战分析,其中有个学员遇到了 从GEO数据库中下载 GPL 芯片注释文件失败的问题:
为什么下载这么难呢?我们来看看有哪几种下载方法吧,总有一款适合你!
1、R 包:GEOquery
一般,我最先会使用 GEOquery这个包进行下载,代码如下,只需要给出 GEO编号,设置 getGPL = T即可,随便给一个GSE编号:GSE228568
library(GEOquery)
gset <- getGEO("GSE63678", destdir = '.', getGPL = T)
gpl_anno <- as.data.frame(fData(gset[[1]]))
colnames(gpl_anno)
head(gpl_anno[1:5, c(1:5,10:12)])
这个代码会默认下载 一个 .soft.gz文件在当前目录并读取进来,这样就很快就能得到这个信息了:
2、R包:AnnoProbe
这个包为曾老板方便国内用户解决网速问题,开发的一个包,下载速度非常滴快。网址:https://github.com/jmzeng1314/AnnoProbe。
library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)
# 比如常规芯片GPL570,只有fa序列
gpl <- 'GPL570'
probe2gene <- idmap(gpl,type='soft')
head(probe2gene)
# 比如特殊芯片,只有fa序列
gpl <- 'GPL16956'
probe2gene <- idmap(gpl,type = 'pipe')
head(probe2gene)
3、了解下载GPL的网址构成,借用其他各种下载工具
我们去GEO官网:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi ,输入一个GPL号如GPL570,选择下面的参数,点击GO:
你就会得到一个文件,可以进行保存下载:
那么这个文件的网址是什么样的呢:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570&targ=self&form=text&view=data
后续我只需要修改其中的GPL570编号就可以下载任意芯片平台的注释文件了,比如我用IDM多线程进行下载,就非常方便:
三种办法,你学会了吗?
友情宣传: