python版本的功能富集分析：GSEApy

学术 2025-01-22 19:09 广东

关于 R 版本的富集分析笔记太多了，R 生态的生信分析笔记超全。但是随着数据量的日益壮大，我们有必要开始学习python了。生信技能树从今年开始会大力推行 python 版本的生信生态，写超多关于 python 版本的生信分析教程。敬请关注~新专辑《python生信笔记2025》。

今天是第一篇，我们生信技能树前面推出了一个python单细胞课程：《掌握Python，解锁单细胞数据的无限可能》。群里学员问的最多的一个问题就是: python版本的功能富集分析如何做？一起来看看 python包：GSEApy。

学习笔记最好的网页当然是官网，当然也可以去看其他人写的各种笔记，也有官网没有提到的各种小细节。

GSEApy包官网：https://gseapy.readthedocs.io/en/latest/

GSEApy 包简介

这个包的名字全称为 GSEAPY: Gene Set Enrichment Analysis in Python，就是在python中的基因集富集分析。

他主要是 GSEA（https://www.gsea-msigdb.org/gsea/index.jsp）和 Enrichr（http://amp.pharm.mssm.edu/Enrichr）两种富集分析方法的封装。

适用数据：RNA-seq, ChIP-seq, Microarry data。

这个方法于2022年发表在生信的经典老牌杂志 Bioinformatics 上：

Zhuoqing Fang, Xinyuan Liu, Gary Peltz, GSEApy: a comprehensive package for performing gene set enrichment analysis in Python, Bioinformatics, 2022;, btac757, https://doi.org/10.1093/bioinformatics/btac757

软件安装

我们前面创建了一个python=3.9的conda小环境叫sc，然后在这个环境里面进行安装：

# bash终端
conda activate sc
# 安装 gseapy
pip install gseapy -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

安装完成可以检查一下是否可以成功导入模块，我这里运行 python 的环境为 vscode+jupter 插件连接服务器，超级方便。

# 导入模块
import pandas as pd
import gseapy as gp
import matplotlib.pyplot as plt

# 查看 gseapy 的版本
gp.__version__

gseapy 版本为1.14版本：

差异基因列表

使用前面做过的一个芯片数据的差异结果吧：2万个基因少一半也不影响最后的差异分析富集结果啊？

数据为：https://ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17351，拿到之后进行芯片预处理并做差异表达分析得到一个差异结果，或者微信找我发你：Biotree123。

或者百度云盘：链接: https://pan.baidu.com/s/1sAXzlxs4jU24ZcAW4LThqQ?pwd=uavp 提取码: uavp 。

读取差异基因结果：

# 读取差异分析结果
# 记住文件路径改成自己的
# index_col=0：第一列读取为行名
deg = pd.read_csv("./GSE17351/DEG.csv", index_col=0)
deg.head()

总共有14080个基因，9列：

# 查看有多少行，有多少列
deg.shape
# (14080, 9)

获取显著差异表达基因列表：共有1895个差异基因。

gene_list = deg.loc[deg.g!="stable","name"]
gene_list

获取基因集

基因集这里有好几种获取方式，我们这里看两个来源的吧。

来源一：下载 Msigdb API

使用 get_gmt函数获取基因集：这里选择了 Msigdb数据库 2024.1.Hs 人类版本的 h.all 即hallmark通路基因集，共50个通路。

# 基因集：使用来自 Msigdb 数据库的
# gp为前面加载的gseapy模块的缩写 import gseapy as gp
msig = gp.Msigdb()
gmt = msig.get_gmt(category='h.all', dbver="2024.1.Hs")

简单看一下gmt的属性：

msig
gmt
type(gmt)
gmt.keys()
gmt.values()
print(gmt['HALLMARK_ADIPOGENESIS'])
print(gmt['HALLMARK_WNT_BETA_CATENIN_SIGNALING'])

get_gmt()函数有两个参数：

dbver="2024.1.Hs" 这个参数的选择可以使用 list_dbver()查看，选择数据库的版本，最下面的是最新的
category='h.all' 这个参数的选择可以使用 list_category查看，看数据库下面的基因集合名称

# list msigdb version you wanna query
msig.list_dbver()

# list categories given dbver. 列出该数据库版本下都有哪些基因集合
msig.list_category(dbver="2024.1.Hs") # human

其他的简单探索，不同物种，不同基因集，随便看！

# mouse hallmark gene sets
gmt = msig.get_gmt(category='mh.all', dbver="2023.1.Mm")
# 改成 2024.1.Hs
gmt = msig.get_gmt(category='h.all', dbver="2024.1.Hs")
# 改成 2024.1.Hs,c5.go.bp
gmt = msig.get_gmt(category='c5.go.bp', dbver="2024.1.Hs")
print(gmt['HALLMARK_WNT_BETA_CATENIN_SIGNALING'])

报错：

ModuleNotFoundError Traceback (most recent call last) File /nas2/zhangj/biosoft/miniconda3/envs/sc/lib/python3.9/site-packages/pandas/compat/_optional.py:135, in import_optional_dependency(name, extra, errors, min_version) ...
File /nas2/zhangj/biosoft/miniconda3/envs/sc/lib/python3.9/site-packages/pandas/compat/_optional.py:138, in import_optional_dependency(name, extra, errors, min_version) 136 except ImportError: 137 if errors == "raise": --> 138 raise ImportError(msg) 139 return None 141 # Handle submodules: if we have submodule, grab parent module from sys.modules
ImportError: Missing optional dependency 'lxml'. Use pip or conda to install lxml.

缺个模块 lxml，那就安装：

# bash终端
pip install lxml -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

来源二：查看所有可支持的 enrichr library names

来自 https://maayanlab.cloud/Enrichr/#libraries 的基因集合名称，可以使用 gp.get_library_name() 获取

支持物种：{ ‘Human’, ‘Mouse’, ‘Yeast’, ‘Fly’, ‘Fish’, ‘Worm’ }

以下命令去试试看吧：

# default: Human
# 这些名称也可以用 gp.get_library_name() 获取
names = gp.get_library_name()
names[:10]

# yeast
yeast = gp.get_library_name(organism='Yeast')
yeast[:10]

# mouse
mouse = gp.get_library_name(organism='Mouse')
mouse[:10]

## download library or read a .gmt file
go_mf = gp.get_library(name='GO_Molecular_Function_2018', organism='Human')
print(go_mf['ATP binding (GO:0005524)'])

富集分析：Over-representation analysis

现在基因列表有了，基因集也有了，可以做ORA类的功能富集分析了，使用的函数为 enrichr()，其参数细节可以使用下面的命令查看：

gp.enrichr?

非常简单吧：

选择 hallmark通路进行分析：

msig = gp.Msigdb()
gmt = msig.get_gmt(category='h.all', dbver="2024.1.Hs")

enr_h = gp.enrichr(gene_list=gene_list, 
                   gene_sets=gmt,
                   organism='Human',  # 设置物种
                   outdir='./', # 默认输出结果到当前目录
                   cutoff=0.99, # 设置 校正后pvalue的阈值
                   verbose=True)

运行成功：

看一下结果：目录中会生成两个文件 gs_ind_0.Human.enrichr.reports.txt、gs_ind_0.Human.enrichr.reports.pdf

enr_h.results.head()

绘制富集结果

1、条形图 barplot

figsize=(4,5)：控制绘图的宽和高
color = 'darkblue'：设置绘制图形的颜色

# 条形图
# simple plotting function
from gseapy import barplot, dotplot
barplot(enr_h.res2d, 
  column='P-value', 
  cutoff=0.9,
  top_term=15,
  figsize=(4,5),
  color = 'darkblue'
  )

结果如下：

2、气泡图 dotplot

我们今天的次页给大家介绍了一个超棒的配色资源：https://python-graph-gallery.com/color-palette-finder/。

试试看：

# https://python-graph-gallery.com/color-palette-finder/
from pypalettes import load_cmap
#cmap = load_cmap("Althoff")
cmap = load_cmap("CeriseLimon")
dotplot(enr_h.res2d,
  size=10,
  column='P-value', 
  cutoff=0.9,
  top_term=15,
  cmap=cmap,
  marker='o',
  x='Combined Score', # set x axis, 
  title = "HALLMARK Pathway",
  figsize=(4,6)
  )

分享到此，你开始学习python了吗？

友情宣传：

生信入门&数据挖掘线上直播课2025年1月班

时隔5年，我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

miRNA体外诊断试剂盒可靠吗？

转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

物种Beta多样性PCoA分析

Benchmarking：新鲜出炉的单细胞自动化癌细胞注释

nature communications 杂志同款三元图：Ternary plots

ggplot2（r包）绘制基因棒棒糖图

画出像烟花一样的单细胞umap图，原因竟然是？

G3viz（r包）绘制基因棒棒糖图

Omni-ATAC：更新和优化的ATAC-seq协议（NatProtoc）

GenVisR（r包）介绍：基因组可视化工具

生信技能树2025年展望

春节期间单细胞转录组数据分析全免费

再牛叉的技术也无法解决你网络问题（但是政策可以啊）

Python应该要会一点吧

绘制NC杂志同款高颜值小提琴图

maftools（r包）绘制棒棒图等

IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗？

trackview（r包）包绘制基因棒棒图

公众号已经接入人工智能大模型啦！

如何使用 uniprot ID 进行 KEGG 和 GO 富集？

如何对应两个不同单细胞数据集的分群结果？

python单细胞学习笔记-day6

综述：ATAC-Seq 数据分析工具大全

北京大学—统计基因组与遗传流行病学、功能与单细胞多组/AI方向诚聘博士后

python版本的功能富集分析：GSEApy

在这里看有哪些配色，2500+种！一键复制超方便

给你的单细胞umap图加个cell杂志同款的圈

python单细胞学习笔记-day5

喜大普奔，从此就没有了四青人才！

掌握Python，解锁单细胞数据的无限可能

python单细胞学习笔记-day4（续）

这种作者只提供了每组多个重复样本合并后数据的怎么办

年度总结 | 2024年Nature Communications计算生物学方法论文精选

高颜值复杂热图绘制小技巧

housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗？

65款单细胞亚群注释工具你用过几款？

一种很新的功能富集结果展示方法

100篇！华大时空组学Stereo-seq助力生命科学成果大爆发

单个基因在单细胞里面如何分析呢？

三种方式下载GEO芯片注释文件GPL

单基因绘制组间差异箱线图及ROC曲线

线粒体基因缺失之谜

python单细胞学习笔记-day4

顶刊 Science 文献两分组差异结果比较图复现

KEGG富集结果7大分类展示

5种方式美化你的单细胞umap散点图

python单细胞学习笔记-day3

顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么？

python单细胞学习笔记-day1

python单细胞学习笔记-day2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉