神奇 R 包！不到十行代码，就能搞定GEO多组样本数据的分析！

学术健康 2024-10-05 00:08 浙江

人类基因组计划鉴定出2万~3万个基因，编码基因10多万，非编码RNA的数量更多，起码几十万。由于传统检测技术并不适合高通量，因此必须依靠新技术。高通量技术只能通过芯片（包括基因芯片和蛋白芯片）和测序（如二代测序、单细胞测序）。这是生物信息学发展和兴起的基础！

1995年，斯坦福大学Ron Davis和Pat Brown首次在Science杂志上发表基因表达谱芯片的论文之后，基因芯片技术迎来黄金发展期。1996年，Affymetrix公司运用激光共聚焦及分子生物学技术研制出首块cDNA芯片，从此拉开了基因芯片开发的帷幕，这一年也被称为基因芯片元年。基因芯片数据主要储存在GEO数据库，通过limma包进行数据挖掘！

基于Lunix的上游数据分析流程：①数据下载SRA Toolkit；②数据质控与过滤fastp；③序列比对SAMtools、HISAT2；④序列组装StringTie、TACO；基于 R 的下游数据分析流程：①数据导入和读取tidyverse；②数据清洗和分组；③数据质控和判断；④差异分析及可视化limma、ggplot2；⑤富集分析clusterProfiler等。芯片数据分析的教程已经有不少了，但是能像GEPIA2、UALCAN等算法快速分析TCGA数据一样，快速分析GEO芯片数据的网站是没有的，尤其是多组数据。生信技能树团队小洁老师写的tinyarray包就可以快速分析GEO芯片数据，尤其是多样本数据，真的是太棒啦！

## tinyarray包可用于多样本的差异分析#1.获取数据gse = "GSE7476"geo = geo_download(gse)
#2.分组信息Group = c(rep("CTRL",times = 3),          rep("TaGL",times = 3),          rep("T1GH",times = 3),          rep("T2-4",times = 3))
Group = factor(Group,levels = c("CTRL","TaGL","T1GH","T2-4")) 
#3.探针信息library(tinyarray)    # find_anno(gpl_number) ids <- AnnoProbe::idmap('GPL570')ids = ids[!duplicated(ids$symbol),]   #去除ids中重复的探针
dcp = get_deg_all(geo$exp,Group,ids,symmetry = T,logFC_cutoff = 1 ,cluster_cols = F,entriz = F)dcp$plots

在实际操作过程中，只需要更改GSE序列号，GPL平台号和分组信息，就可以实现对GEO芯片数据和常规转录组测序数据的快速分析。GSE7476是我们经常使用的示例数据，文章2009年发表在Journal of Urology杂志，题为DNA microarray expression profiling of bladder cancer allows identification of noninvasive diagnostic markers。

Journal of Urology是泌尿学与肾脏学领域期刊，是美国泌尿外科协会AUA的官方期刊，涵盖广泛的泌尿学领域，包括：泌尿肿瘤学、肾移植以及男性不育等泌尿系统常见疾病。该期刊属于JCR1区，中科院1区top；可选择OA模式，免审稿费；审稿周期约73天左右；自引率低！不过，该期刊似乎更倾向于临床试验研究，对生信论文不友好。

从自行分析和文章展示的结果来看，这个芯片数据的质量还是不错的。为什么质量高呢？肿瘤和非肿瘤样本：分别聚类，界限明确；热图表达谱可以看到表达特征组内相似，组间相异；PCA区分别聚类。推荐相关专业的果友，用该数据集进行二次数据挖掘。

芒果师兄

1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路，读书，音乐和娱乐。

最新文章

m6A甲基化是咋影响癌症治疗耐药性的？

十二讲03.探究肿瘤遗传学，就抓分析

新玩法！孟德尔随机化+多组学数据整合分析泛癌生物标志物-TGS1

每个NHANES数据挖掘，都要权重计算！（附系列推文）

梅开二度，更上层楼！王福俤教授的2024！

2025，让生信更落地的利器来了！

十二讲02.探究肿瘤微环境，就抓循环！

免疫治疗新进展—靶向癌症中CD8 T细胞和NK 细胞代谢紊乱

思路推荐！三个临床病例竟能发Nature！

文末福利！与WGCNA、差异分析媲美的时间序列分析Mfuzz！

专注肿瘤三大方向！生信大牛王凌华的2024！关于肺腺癌上皮细胞图谱，尤其出彩！

十二讲01.探究肿瘤的本质，就抓表型

大讨论！肺癌单细胞注释，肥大细胞和髓系细胞可以同时出现吗？

Nature Aging｜揭秘-逆转衰老对免疫抑制的关键！

Nature上是怎么研究TAGLN2的？

重生之生信服务器的救赎

似曾相识！上海九院这篇鉴定头颈肿瘤中新类群的研究，共培养实验做得真棒！

空间组学，定位真的很重要！

孟德尔随机化思维在闪耀！PCSK9 突变驱动肿瘤转移上顶刊！

空间组学！Xenium是个啥？

T 细胞表观重编程上Science！代谢驱动的！

空间组学！Visium是个啥？

牛！重新利用大型微阵列以实现可扩展的空间转录组学

博士到院士有多远，万水千山！

TREM2：胶质母细胞瘤中的新发现，为癌症免疫治疗带来新机遇！

空间组学！CODEX是个啥？

B 细胞表观重编程上Cell，这次是免疫逃逸！

肿瘤异质性，分三个层面可好？！

Immunity！清华伉俪揭示自身免疫病中 B 细胞的表观重编程！

肿瘤干细胞存在吗？做成瘤实验！

科学大发现 | 肿瘤表达CD24，与巨噬细胞上的Siglec-10互作，逃逸抗肿瘤免疫反应

缺氧肿瘤微环境，真的存在吗？请查阅《癌生物学》p637！

这篇Science，打法跟王凌华团队的有点像

肿瘤免疫12讲 (下)，肿瘤的治疗！

赢麻了！一周内发Cell、Nature和Science论文各一篇！这样的西湖大学，光芒万丈！

重磅！Nature揭秘抗衰关键竟是它！

肿瘤免疫12讲 (中)，肿瘤的转移！

“细胞衰老实验”指南来咯！

肿瘤免疫12讲 (上)，肿瘤的发生！

王福俤教授应邀任Cell Metabolism编委！可喜可贺，凭实力入围！

肿瘤微环境的几个特征！从缺氧到酸性，再到代谢重编程，好像都挺热门的！

举报论文造假是不是成了一门生意？！

Cancer Cell | 曹雪涛院士团队新发现！CD28 促进 PD-L1 介导的免疫逃逸

这泼天富贵会落到新一代病理上吗？！mIHC+NGS联合检测或将重新定义肿瘤诊断！

Circulation重磅：上海交通大学揭秘NPM1分子心脏修复新机制

GWAS找表型+多组学定机制！这篇Nature找到调控巨噬细胞炎症反应的核心基因！

代谢分析，让单细胞数据更出彩！感谢吴博开发的scMetabolism包，能修正下就更好了~

靴子落地！eLife 93%文章将继续被WOS收录！

【芒果速递】杀伤性 T 细胞竟促进肿瘤进展

经典综述 — 肿瘤干细胞标志物

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉