🧬 下游笔记1：最全pySCENIC报错解决！

文摘 2024-10-30 07:43 日本

pySCENIC工作流程示意图 (Aerts Lab)

💫 前言

好久不见～今天带来的是pySCENIC的安装教程和报错处理。SCENIC是一个用来分析单细胞转录组中转录调控网络和预测转录因子活性的工具，也是应用比较广泛的高级分析之一（毕竟很多细胞状态的变化都跟转录因子息息相关）。SCENIC有R和Python两种语言的包，pySCENIC有支持命令行、支持多线程、命令简单、运行快等优点，适合在服务器上跑。然而pySCENIC的依赖包管理做得不是很好，而且官方文档里有！很！多！坑！跟着官方文档走的小伙伴大概率会一头雾水还装不上（是的，我就被各种报错劝退过好几次）。在深挖帮助文件、github讨论之后，我终于总结出了成功安装和运行的秘诀！

🔧 安装步骤

第一步：创建conda环境

# 使用Python 3.10
conda create -n -y pyscenic python=3.10
conda activate pyscenic
# github的开发版本修复了一部分报错，可以试试这个
# pip install git+https://github.com/aertslab/pySCENIC.git
# 网络原因没法下载github版本的，先用pip
pip install pyscenic
# 下载旧版本的dask-expr
pip install dask-expr==0.5.3

第二步：下载转录因子数据库

# 下载人类数据库示例
# motif到转录因子的注释文件
wget https://resources.aertslab.org/cistarget/motif2tf/motifs-v10nr_clust-nr.hgnc-m0.001-o0.0.tbl
# 基因组的排序文件
wget https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg38/refseq_r80/mc_v10_clust/gene_based/hg38_10kbp_up_10kbp_down_full_tx_v10_clust.genes_vs_motifs.rankings.feather
# 转录因子列表
wget https://resources.aertslab.org/cistarget/tf_lists/allTFs_hg38.txt

# 下载小鼠数据库示例
# motif到转录因子的注释文件
wget https://resources.aertslab.org/cistarget/motif2tf/motifs-v10nr_clust-nr.mgi-m0.001-o0.0.tbl
# 基因组的排序文件
wget https://resources.aertslab.org/cistarget/databases/mus_musculus/mm10/refseq_r80/mc_v10_clust/gene_based/mm10_10kbp_up_10kbp_down_full_tx_v10_clust.genes_vs_motifs.rankings.feather
# 转录因子列表
wget https://resources.aertslab.org/cistarget/tf_lists/allTFs_mm.txt

第三步：准备输入文件

如果你使用Seurat，需要先把数据转换成loom格式，我用的是SeuratDisk这个包。注意转换完之后要记得关闭loom文件保存更改。

# R
# 加载必须的包，安装过程就省略了
library(SeuratDisk)
library(SeuratObject)
# 读取数据
obj <- readRDS("seurat_obj.rds")
# 转化为loom
obj.loom <- as.loom(obj, filename = "obj.loom")
# 关闭loom文件
obj.loom$close_all()

🚨 常见报错

太长不看版

报错一览

报错类型	解决方案	何时出现
np.object报错	修改transform.py中的np.object为object	任何pyscenic命令
np.string_报错	修改normalize.py中的np.string_为np.bytes_	grn
Must supply delayed object	pip安装dask-expr==0.5.3	grn
np.float 报错	修改diptest.py 中的np.float 为np.float64	aucell
np.msort报错	修改binarization.py和diptest.py中的msort为sort	aucell
iteritems报错	修改utils.py中的iteritems为items	aucell
numpy.ndarray 报错	修改utils.py中的第26行	aucell

具体报错信息

可以提前修改，避免跑到一半报错！

`np.object` 报错

输入pyscenic --help，或者运行任意pyscenic命令之后报错

AttributeError: module 'numpy' has no attribute 'object'.

这时需要找到pyscenic包的transform.py这个文件，把np.object全部替换成object。具体操作如下：

# bash
# 用nano打开transform.py这个脚本，记得自行替换路径
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/pyscenic/transform.py
# Ctrl+`\` ，输入np.object，回车，输入object，A，Ctrl+X接Y退出

这一步之后再输入pyscenic --help就会正常显示帮助文档了。

`np.string_` 报错

运行pyscenic grn时出现的报错：

AttributeError: `np.string_` was removed in the NumPy 2.0 release. Use `np.bytes_` instead.. Did you mean: 'strings'?

这次问题出在loompy包的normalize.py。跟第一个报错类似，将np.string_替换成np.bytes_即可。

# bash
which loompy # 找到loompy安装目录
# 打开normalize.py
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/loompy/normalize.py
# Ctrl+`\` ，输入np.string_，回车，输入np.bytes_，A，Ctrl+X，Y退出

这一步修复之后应该可以顺利运行pyscenic grn和pyscenic ctx这两步。

`np.float`报错

运行pyscenic aucell时出现的报错：

AttributeError: module 'numpy' has no attribute 'float'.

还是pyscenic的问题。diptest.py中的np.float改成float

# bash
# 自行替换路径
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/pyscenic/diptest.py
# Ctrl+`\` ，输入np.float，回车，输入float，A，Ctrl+X接Y退出

`msort`报错

运行pyscenic aucell时出现的报错：

AttributeError: module 'numpy' has no attribute 'msort'

这次需要同时修改两个文件，pyscenic包里的diptest.py和binarization.py，把msort改成sort。

# bash
# 打开diptest.py
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/pyscenic/diptest.py
# Ctrl+`\` ，输入msort，回车，输入sort，A，Ctrl+X接Y退出
# 打开binarization.py
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/pyscenic/binarization.py
# Ctrl+`\` ，输入msort，回车，输入sort，A，Ctrl+X接Y退出

`iteritems`报错

运行pyscenic aucell时出现的报错：

AttributeError: 'Series' object has no attribute 'iteritems'

修改pyscenic/cli/中的utils.py文件，把iteritems改成items

# bash
# 替换成pyscenic路径
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/pyscenic/cli/utils.py
# Ctrl+`\` ，输入iteritems，回车，输入items，A，Ctrl+X接Y退出

`numpy.ndarray` 报错

运行pyscenic aucell时出现的报错：

AttributeError: 'numpy.ndarray' object has no attribute 'split'

又回到了loompy，这次需要把utils.py里的第26行get_loom_spec_version(f)后加一个[0]，具体操作如下：

# bash
# 替换成loompy路径
nano /path/to/miniconda3/envs/pyscenic/lib/python3.10/site-packages/loompy/utils.py
#找到以下这行，大概率在26/27行
vf = int("".join(get_loom_spec_version(f).split(".")))
#修改成
vf = int("".join(get_loom_spec_version(f)[0].split(".")))
#Ctrl+X退出，按Y保存

终于可以顺利运行～

🏃 运行步骤

#!/bin/bash

# Define data paths
loomfile='/home/miana/mPCa.loom'
tffile='/home/miana/ref/allTFs_mm.txt'
tblfile='/home/miana/ref/motifs-v10nr_clust-nr.mgi-m0.001-o0.0.tbl'
motiffile='/home/miana/ref/mm10_10kbp_up_10kbp_down_full_tx_v10_clust.genes_vs_motifs.rankings.feather'

echo"Step 1: Inferring gene regulatory networks and co-expression modules"
pyscenic grn \
--num_workers 16 \
-o "grn_adj.tsv" \
-m grnboost2 \
--seed 2024 \
"$loomfile" \
"$tffile"
echo"Step 1 completed. Co-expression modules are saved to grn_adj.tsv"
echo"----------"

echo"Step 2: Inferring TF regulons"
pyscenic ctx \
"grn_adj.tsv" \
"$motiffile" \
--output "ctx_reg.csv" \
--annotations_fname "$tblfile" \
--expression_mtx_fname "$loomfile" \
--num_workers 16 \
--all_modules
echo"Step 2 completed. Regulon file is saved to ctx_reg.csv"
echo"----------"

echo"Step 3: Using AUCell to calculate TF activity"
pyscenic aucell \
"$loomfile" \
"ctx_reg.csv" \
-o "aucell_mtx.loom" \
--num_workers 16
echo"Step 3 completed. Final AUC matrix is saved to aucell_mtx.loom"
echo "All done."

最后得到的loom文件可以导入到R中进行下一步分析。当然也可以在第三步aucell选择存储成csv或者tsv的形式，更方便操作。

🎯 还有话说

1. 操作系统不同报错可能不同。比如，我在RHEL9.0系统的HPC上测试就没有出现除了np.object之外的报错。本篇的解决方案是基于Ubuntu的，在20.04 LTS和24.04 LTS上都做了测试，可以顺利运行。
2. 因为本篇教程修改了部分包的源代码，所以建议把pyscenic安装在一个完全独立的conda环境里，以免影响其他程序。
3. 参考：Ubuntu系统的服务器，本地运行，约5000细胞的样本，使用16线程，运行耗时约30分钟；RHEL的系统的计算机集群，24线程约22分钟。当然不同配置的电脑实际运行时间会有差别。用R的SCENIC包的小伙伴们分享一下，这是不是比用R包要快？

📌 重要提示：在运行pyscenic之前，建议先在小数据集上测试，确保流程没问题再处理大数据集。

如果觉得有用的话，欢迎点赞、在看、分享～有任何问题都可以在评论区留言，我们下期再见！

#下游流程 #高级分析

📚 参考资料

1. pySCENIC官方文档
2. pySCENIC GitHub Issues

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247486419&idx=1&sn=5c323755123563bd7e18b45a1f41df3f

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

🧬 下游笔记1：最全pySCENIC报错解决！

💫 前言

🔧 安装步骤

第一步：创建conda环境

第二步：下载转录因子数据库

第三步：准备输入文件

🚨 常见报错

太长不看版

报错一览

具体报错信息

np.object 报错

np.string_ 报错

np.float报错

msort报错

iteritems报错

numpy.ndarray 报错

🏃 运行步骤

🎯 还有话说

📚 参考资料

`np.object` 报错

`np.string_` 报错

`np.float`报错

`msort`报错

`iteritems`报错

`numpy.ndarray` 报错