神奇 R 包!不到十行代码,就能搞定GEO多组样本数据的分析!

学术   健康   2024-10-05 00:08   浙江  
人类基因组计划鉴定出2万~3万个基因,编码基因10多万,非编码RNA的数量更多,起码几十万。由于传统检测技术并不适合高通量,因此必须依靠新技术。高通量技术只能通过芯片(包括基因芯片和蛋白芯片)和测序(如二代测序、单细胞测序)。这是生物信息学发展和兴起的基础!
1995年,斯坦福大学Ron Davis和Pat Brown首次在Science杂志上发表基因表达谱芯片的论文之后,基因芯片技术迎来黄金发展期。1996年,Affymetrix公司运用激光共聚焦及分子生物学技术研制出首块cDNA芯片,从此拉开了基因芯片开发的帷幕,这一年也被称为基因芯片元年。基因芯片数据主要储存在GEO数据库,通过limma包进行数据挖掘

基于Lunix的上游数据分析流程:①数据下载SRA Toolkit;②数据质控与过滤fastp;③序列比对SAMtools、HISAT2;④序列组装StringTie、TACO;基于 R 的下游数据分析流程①数据导入和读取tidyverse;②数据清洗和分组;③数据质控和判断;④差异分析及可视化limma、ggplot2;⑤富集分析clusterProfiler等。芯片数据分析的教程已经有不少了,但是能像GEPIA2、UALCAN等算法快速分析TCGA数据一样,快速分析GEO芯片数据的网站是没有的,尤其是多组数据。生信技能树团队小洁老师写的tinyarray包就可以快速分析GEO芯片数据,尤其是多样本数据,真的是太棒啦
## tinyarray包可用于多样本的差异分析#1.获取数据gse = "GSE7476"geo = geo_download(gse)
#2.分组信息Group = c(rep("CTRL",times = 3), rep("TaGL",times = 3), rep("T1GH",times = 3), rep("T2-4",times = 3))
Group = factor(Group,levels = c("CTRL","TaGL","T1GH","T2-4"))
#3.探针信息library(tinyarray) # find_anno(gpl_number) ids <- AnnoProbe::idmap('GPL570')ids = ids[!duplicated(ids$symbol),] #去除ids中重复的探针
dcp = get_deg_all(geo$exp,Group,ids,symmetry = T,logFC_cutoff = 1 ,cluster_cols = F,entriz = F)dcp$plots

在实际操作过程中,只需要更改GSE序列号,GPL平台号和分组信息,就可以实现对GEO芯片数据和常规转录组测序数据的快速分析。GSE7476是我们经常使用的示例数据,文章2009年发表在Journal of Urology杂志,题为DNA microarray expression profiling of bladder cancer allows identification of noninvasive diagnostic markers。

Journal of Urology是泌尿学与肾脏学领域期刊,是美国泌尿外科协会AUA的官方期刊,涵盖广泛的泌尿学领域,包括:泌尿肿瘤学、肾移植以及男性不育等泌尿系统常见疾病。该期刊属于JCR1区,中科院1区top;可选择OA模式,免审稿费;审稿周期约73天左右;自引率低!不过,该期刊似乎更倾向于临床试验研究,对生信论文不友好。

从自行分析和文章展示的结果来看,这个芯片数据的质量还是不错的。为什么质量高呢?肿瘤和非肿瘤样本:分别聚类,界限明确;热图表达谱可以看到表达特征组内相似,组间相异;PCA区分别聚类。推荐相关专业的果友,用该数据集进行二次数据挖掘

芒果师兄
1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路,读书,音乐和娱乐。
 最新文章