基因的功能推断之大队列表达量相关性排序后gsea分析

文摘 2025-01-29 09:35 黑龙江

前面我们强调了，基因功能推断的数据分析的重要性，而且我们已经演示了第一个基因的功能推断方法就是：大队列高低分组后差异分析然后功能富集，但实际情况下，我们的表达量并不是离散变量，它高低分组是我们认为划分的，未必不可以高中低的3分组，或者更多可能性，比如根据它的表达量的密度分布曲线来看最佳的阈值进行分组。实际上既然表达量是连续值，我们就可以直接使用连续变量的统计学方法，连续型变量就可以看相关性。

接下来我们就演示大队列表达量相关性排序后gsea分析，这个时候以2023的这个文章为例：《Comprehensive analysis reveals CCDC60 as a potential biomarker correlated with prognosis and immune infiltration of head and neck squamous cell carcinoma》，研究者们首先说明了Coiled-coil domain containing 60 (CCDC60) 这个基因在头颈癌是一个典型的抑癌基因：

首先呢，它在癌症样品里面的表达量所显著的低于正常的癌旁组织
然后呢，它表达量越高的病人的预后反而越好

典型的抑癌基因

很明显，Coiled-coil domain containing 60 (CCDC60) 这个基因也不是什么明星基因，那么就需要进行基因的功能推断。让我们一起来看看作者所如何做的吧，方法学是：

方法学

可能是研究者们不怎么懂代码，所以使用了LinkedOmics这个数据库，实际上自己很容易下载tcga数据库里面的头颈癌队列里面的转录组表达量矩阵，然后计算目标基因跟所有的其它基因的相关性，然后根据相关性进行排序，就能定位到跟目标基因的表达量最相关的那些基因：

根据相关性进行排序

有了相关性排序列表，同样的可以进行gsea分析或超几何分布检验，针对go或者kegg等生物学功能数据库。下面是一个示例代码：

load(  file = 'step1-output.Rdata')
dat[1:4,1:4] 
head(phe)  
this_gene = 'CCDC60'
cc = apply(dat, 1, function(x) cor( dat[this_gene,],x))
df = as.data.frame(cc) 
head(df)
df$SYMBOL = rownames(df)
df2 <- bitr(unique(df$SYMBOL), fromType = "SYMBOL",
            toType = c( "ENTREZID"),
            OrgDb = org.Hs.eg.db) 
DEG=merge(df2,df,by='SYMBOL')
colnames(DEG)
DEG =na.omit(DEG)
data_all_sort <- DEG %>%  #排序
  arrange(desc(cc))
geneList = data_all_sort$cc #把foldchange按照从大到小提取出来
names(geneList) <- data_all_sort$ENTREZID #给上面提取的foldchange加上对应上ENTREZID
head(geneList) #排序好的基因序列，而且是entrezeID的形式
R.utils::setOption( "clusterProfiler.download.method",'auto' )
kkgsea <- gseKEGG(geneList     = geneList,
                  organism     = 'hsa', 
                  minGSSize    = 10,
                  maxGSSize    = 500,
                  pvalueCutoff = 1,
                  pAdjustMethod = "none" ) #进行gseKEGG富集分析

文末友情宣传：

生信入门&数据挖掘线上直播课2025年1月班

时隔5年，我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

推荐账号，扫码关注

最新文章

基因组数据在精准医学中扮演什么角色

计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型

前瞻 | Nature | 人类细胞图谱：从细胞普查到统一的基础模型

精准医学 | Nat.Med | 使用常规血液检测和临床数据预测癌症检查点抑制剂免疫治疗的疗效

Nat.Genet | 从 DNA 序列预测 RNA-seq 覆盖度作为基因调控的统一模型

生信程序 | Nat.Genet | 在疾病关联位点精细定位因果组织和基因

期刊泛读 | Cell 出版社 | 优质期刊

数据库合集 | 更新至 67 个

数据挖掘之中性粒细胞胞外陷阱相关预后模型

玩转服务器—你的数据是否完整？

ChIP-Seq 简介

基因的功能推断之单细胞亚群的特异性高表达

能根据差异基因来反推样品的分组情况吗

基因的功能推断之敲减过表达的干扰它

基因的功能推断之大队列的共表达分析（比如：WGCNA）

基因的功能推断之大队列表达量相关性排序后gsea分析

基因的功能推断之大队列高低分组后差异分析然后功能富集

单细胞揭示了结直肠癌微环境中肥大细胞的激活

共享服务器助力学习与分析！

你选择哪种三代测序

如何用血常规发 Nature，临床常见指标的深度挖掘

综述 | Nature | 更新一下关于 2 型免疫的认知

生信算法 | 矩阵分解除了NMF，也可以试试这个 NatGenet 新发的 GBCD 算法

机器学习模型都值得用Nature新算法尝试一下，作者似乎想要干掉传统机器学习

数据库介绍 | NAR | LncSEA 2.0：用于长非编码 RNA 相关的集合和富集分析

空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架

期刊泛读 | Cancer_Cell | 第 1 期 | If 48.8

髓外中性粒细胞生成：狡兔三窟？

玩转服务器—Jupyterhub一键开启Python学习之旅

学生信，谁还不是一个菜鸟啊？（至少曾经是吧）

肿瘤病人和正常人有差异表达但并不是说他们的血液层面就很显著

第一眼差点就被这个变化倍数唬住了

还有必要背诵和掌握正则表达式语法规则吗

硕博赶紧用起来！Cell53,026人蛋白质-表型资源库

如何用大语言模型做富集分析，这篇NatMethods文章教你

scRNA分析之后，如何看待结果和进行实验验证？这篇文章告诉你

人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型

生信程序 | NatGenet | 使用潜在嵌入多变量回归分析多条件单细胞数据

数据库介绍 | NAR | SPDB：一个全面的资源和知识库，用于单细胞分辨率下的蛋白质组数据

细胞图谱 | NatMed | 人类血管细胞的器官型图谱

Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码

玩转服务器—从卡顿到秒装，Conda焕新极速体验

10X单细胞转录组全方位吊打BD平台吗

转录组测序的表达量的两个归一化方向会影响差异分析吗

读《人类线粒体基因组》|系统回答：线粒体基因表达阈值到底卡多少合适

基于Python的Xenium空转分析流程

跟着Seurat官网学Xenium空转分析

肿瘤新抗原该怎么分析

强烈推荐！好看免费全面的在线绘图平台，点点即可快速组合成好看的示意图！

泛读合集 | 2024 全年 | Nature 系列优质期刊

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉