R调用Taxonkit展示系统发育信息

文摘 2024-10-16 09:00 浙江

Introduction

TaxonKit^[1]是一个用于处理生物分类学数据的命令行工具。它的主要功能是处理NCBI的生物分类学数据，包括对分类单元（如物种、属、科等）的查找、分类单元的上下位关系查询、分类单元名称的标准化等。

为了方便R社区用户（自己）使用和流程整合，我把Taxonkit工具整合进了R包pctax，也开发了一些配套的系统发育分析和可视化方法。

R调用Taxonkit

准备工作

1. 安装pctax pctax稳定版本可在CRAN上获得:

install.packages("pctax")

或者你可以通过以下方式从GitHub安装pctax的开发版本:

# install.packages("devtools")
devtools::install_github("Asa12138/pctax")

1. 安装taxonkit：

library(pctax)
pctax::install_taxonkit(make_sure = TRUE)

#成功后taxonkit会安装在下面这个目录👇
tools::R_user_dir("pctax")

1. 下载NCBI Taxonomy数据文件:

pctax::download_taxonkit_dataset(make_sure = TRUE)

#成功后Taxonomy数据文件会在下面这个目录👇
file.path(Sys.getenv("HOME"), ".taxonkit")

该函数会下载官网最新版本的Taxonomy数据库，如果需要制定版本的数据库，可以自己在官网下载：https://ftp.ncbi.nih.gov/pub/taxonomy/，然后指定位置：

pctax::download_taxonkit_dataset(make_sure = TRUE,taxdump_tar_gz = "~/Downloads/taxdump.tar.gz")

使用

# 下列命令不报错说明可以正常使用
check_taxonkit(print = FALSE)

主要功能与taxonkit一致：

函数	功能
`taxonkit_list`	列出指定TaxId下所有子单元的的TaxID
`taxonkit_lineage`	根据TaxID获取完整谱系（lineage）
`taxonkit_reformat`	将完整谱系转化为“界门纲目科属种株”的自定义格式
`taxonkit_name2taxid`	将分类单元名称转化为TaxID
`taxonkit_filter`	按分类学水平范围过滤TaxIDs
`taxonkit_lca`	计算最低公共祖先(LCA)

并且help(taxonkit_*)可查看详细使用说明。

# 列出[genus] Homo下的所有子单元
taxonkit_list(ids = c(9605), indent = "-", show_name = TRUE, show_rank = TRUE)

##  [1] "9605 [genus] Homo"                                    
##  [2] "-9606 [species] Homo sapiens"                         
##  [3] "--63221 [subspecies] Homo sapiens neanderthalensis"   
##  [4] "--741158 [subspecies] Homo sapiens subsp. 'Denisova'" 
##  [5] "-1425170 [species] Homo heidelbergensis"              
##  [6] "-2665952 [no rank] environmental samples"             
##  [7] "--2665953 [species] Homo sapiens environmental sample"
##  [8] "-2813598 [no rank] unclassified Homo"                 
##  [9] "--2813599 [species] Homo sp."                         
## [10] ""

taxonkit_lineage, taxonkit_reformat, taxonkit_name2taxid, taxonkit_filter 与 taxonkit_lca 默认从文件中读取数据，也可通过指定text = TRUE从字符串输入读取输入数据：

# 查询9606和63221的完整谱系
taxonkit_lineage("9606\n63221", show_name = TRUE, show_rank = TRUE, text = TRUE)%>%
    pcutils::strsplit2(split = "\t",colnames = c("taxid","lineage","name","level"))

##   taxid
## 1  9606
## 2 63221
##                                                                                                                                                                                                                                                                                                                                                                                          lineage
## 1                               cellular organisms;Eukaryota;Opisthokonta;Metazoa;Eumetazoa;Bilateria;Deuterostomia;Chordata;Craniata;Vertebrata;Gnathostomata;Teleostomi;Euteleostomi;Sarcopterygii;Dipnotetrapodomorpha;Tetrapoda;Amniota;Mammalia;Theria;Eutheria;Boreoeutheria;Euarchontoglires;Primates;Haplorrhini;Simiiformes;Catarrhini;Hominoidea;Hominidae;Homininae;Homo;Homo sapiens
## 2 cellular organisms;Eukaryota;Opisthokonta;Metazoa;Eumetazoa;Bilateria;Deuterostomia;Chordata;Craniata;Vertebrata;Gnathostomata;Teleostomi;Euteleostomi;Sarcopterygii;Dipnotetrapodomorpha;Tetrapoda;Amniota;Mammalia;Theria;Eutheria;Boreoeutheria;Euarchontoglires;Primates;Haplorrhini;Simiiformes;Catarrhini;Hominoidea;Hominidae;Homininae;Homo;Homo sapiens;Homo sapiens neanderthalensis
##                            name      level
## 1                  Homo sapiens    species
## 2 Homo sapiens neanderthalensis subspecies

从文件中读取数据：

names <- system.file("extdata/name.txt", package = "pctax")
taxonkit_name2taxid(names, name_field = 1, sci_name = FALSE, show_rank = FALSE)%>%
    pcutils::strsplit2(split = "\t",colnames = c("name","taxid"))

##                                              name   taxid
## 1                                    Homo sapiens    9606
## 2            Akkermansia muciniphila ATCC BAA-835  349741
## 3                         Akkermansia muciniphila  239935
## 4                 Mouse Intracisternal A-particle   11932
## 5                                        Wei Shen        
## 6 uncultured murine large bowel bacterium BAC 54B  314101
## 7                       Croceibacter phage P2559Y 1327037

系统发育树

如果是做16S测序的话，在分析过程中就会得到一个带距离的系统发育树。宏基因组分析如果组装MAG后用GTDB-Tk比对数据库后也可以获得有距离的系统发育树。

但有时候我们想要从物种名或taxid获取整齐的谱系信息，用来一个构建系统发育树（层级树，没有真实的距离，只展示包含关系）。这是一个常见的需求，很多文章都会画一个这样的树图来展示自己的数据。

可以实现这个需求的工具有一些：

• iPhylo：https://iphylo.net/，免费，快速，支持NCBI taxonomy和一些化学物质分类树，赞
• R包taxtree，很慢
• PhyloT：https://phylot.biobyte.de/，收费

当然可以使用pctax包快速完成，对于分析流程都在R里做的人来说非常方便:

names <- system.file("extdata/name.txt", package = "pctax")%>%readLines()

# 首先通过`name_or_id2df`获取整齐的系统发育分类：
tax_df=name_or_id2df(names,mode = "name")

# 去除部分NA，原因可能是学名不标准，或者在新数据库里删除了，因为taxonomy数据库是不断变化的
tax_df=na.omit(tax_df)

#用`df2tree`将分类层级表转化为树对象
tax_tree=pctax::df2tree(tax_df[,3:9])

# tax_tree是phylo对象，可以用ape包直接简单绘图
ape:::plot.phylo(tax_tree)

可视化

pctax还提供了一些系统发育信息展示方法：

1. 系统发育树

data(otutab, package = "pcutils")
#otutab是丰度数据，taxonomy是分类层级表（可通过name_or_id2df获得）
ann_tree(taxonomy, otutab) -> tree

easy_tree(tree, add_abundance = TRUE) -> p
p

添加主要Phylum的strip：

easy_tree(tree, add_abundance = TRUE,add_tiplab = FALSE) -> p
some_tax <- table(taxonomy$Phylum) %>%
  sort(decreasing = TRUE) %>%
  head(5) %>%
  names()
add_strip(p, some_tax)

当然，更多系统发育树的绘制可以参考我之前写的R绘制优美的进化树（基础）和R绘制优美的进化树（进阶），或者使用iPhylo网站来交互式绘图：iPhylo 生成并绘制优美的分类树

1. 桑基图：

sangji_plot(tree)

3.旭日图

sunburst(tree)

TaxonKit 使用

TaxonKit是采用Go语言编写的命令行工具，提供Linux, Windows, macOS操作系统不同架构（x86-64/arm64）的静态编译的可执行二进制文件。发布的压缩包不足3Mb，除了Github托管外，还提供国内镜像供下载，同时还支持conda和homebrew安装。

用户只需要下载、解压，开箱即用，无需配置，仅需下载解压NCBI Taxonomy数据文件解压到指定目录即可。

• 源代码 https://github.com/shenwei356/taxonkit ，
• 文档 http://bioinf.shenwei.me/taxonkit （介绍、使用说明、例子、教程）

选择系统对应的版本下载最新版 https://github.com/shenwei356/taxonkit/releases ，解压后添加环境变量即可使用。或可选conda安装

conda install taxonkit -c bioconda -y

表格数据处理，推荐使用 csvtk 更高效：

conda install csvtk -c bioconda -y

测试数据下载可直接 https://github.com/shenwei356/taxonkit 下载项目压缩包，或使用git clone下载项目文件夹，其中的example为测试数据

git clone https://github.com/shenwei356/taxonkit

TaxonKit为命令行工具，采用子命令的方式来执行不同功能，大多数子命令支持标准输入/输出，便于使用命令行管道进行流水作业，轻松整合进分析流程中。

• 输出：

• 所有命令输出中包含输入数据内容，在此基础上增加列。
• 所有命令默认输出到标准输出（stdout），可通过重定向（>）写入文件。
• 或通过全局参数-o或--out-file指定输出文件，且可自动识别输出文件后缀（.gz）输出gzip格式。

• 输入：

• 除了list与taxid-changelog之外，lineage, reformat, name2taxid, filter 与 lca 均可从标准输入（stdin）读取输入数据，也可通过位置参数（positional arguments）输入，即命令后面不带任何flag的参数，如 taxonkit lineage taxids.txt
• 输入格式为单列，或者制表符分隔的格式，输入数据所在列用-i或--taxid-field指定。

TaxonKit直接解析NCBI Taxonomy数据文件（2秒左右），配置更容易，也便于更新数据，占用内存在500Mb-1.5G左右。数据下载：

# 有时下载失败，可多试几次；或尝试浏览器下载此链接
wget -c https://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz 
tar -zxvf taxdump.tar.gz

# 解压文件存于家目录中.taxonkit/，程序默认数据库默认目录
mkdir -p $HOME/.taxonkit
cp names.dmp nodes.dmp delnodes.dmp merged.dmp $HOME/.taxonkit

Taxonkit的作者大大贴心地提供了中文文档：https://bioinf.shenwei.me/taxonkit/chinese/，非常详细，大家可以参考使用。

关注公众号 'bio llbug',获取最新推送。点击阅读原文，阅读体验更佳。

引用链接

[1] TaxonKit: https://bioinf.shenwei.me/taxonkit/chinese/

http://mp.weixin.qq.com/s?__biz=MzkwMjQxODQ5MA==&mid=2247487499&idx=4&sn=7563ea61965b9096833a5dc64ca6c376

bio llbug

博士生一枚，主攻生物信息学，微生物组，暴露组。分享自己科研道路上的经验方法。

最新文章

微生物的低温适应/抗寒机制研究

Science正刊！AI+R 语言Meta分析与生物群落数据统计绘图

R绘制降维图及其变换（PCA/RDA/t-SNE...）

物种多样性研究的理论和方法

一些有趣的绘图R包

R整理和分析文献信息

炸裂来袭！Nature大动作，生信领域迎来“史无前例”的“风暴”！

R绘制优美的进化树（基础）

R绘制优美的进化树（进阶）

R调用Taxonkit展示系统发育信息

ggh4x包拓展ggplot2绘图

蒋超实验室在Nature Communications发文揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

Nature重磅！机器学习和深度学习的相结合，在生物信息学中缺一不可！

功能基因预测/注释通用工具

使用InStrain进行宏基因组群体分析

功能基因预测/注释通用工具

病毒相关内容学习

使用Orthofinder进行系统发育直系同源推断

太强了！发完Nature又发Science科研界“白热化”状态将被打破！

宏基因组分析流程202408｜持续更新

使用PhaGCN2/vConTACT2进行病毒分类注释

浙江大学蒋超实验室在JHM发文揭示日常使用量的一次性纸杯释放的微塑料或可能影响孕期健康

Zotero 7.0正式版，大更新！

Anti-CRISPR 相关内容学习

CRISPR 相关内容学习

METABOLIC：微生物基因组群落规模功能网络分析

从宏基因组构建基因组规模代谢模型（GEM）

从宏基因组量化细菌生长动态

R绘制降维图及其变换（PCA/RDA/t-SNE...）

全球沸腾！难道说生信行业破局的关键已被公布?那再不出手我可能真的就要out了！

更新一下你的Conda吧

R绘制Venn图及其变换

R绘制箱形图及其变换

R绘制柱形图及其变换

R展示层级数据（桑基/旭日/珠包/Treemap图等）

News | 常微分方程R包ecode用户手册上线

R绘制Venn图及其变换

还在用破解版snapgene？这个神器才是“天花板”！（文末领取粉丝福利）

R展示层级数据（桑基/旭日/珠包/Treemap图等）

公众号长期数据统计（笨方法）

VirRep: 人类肠道微生物组识别病毒新方法

从宏基因组中鉴定病毒序列（1）鉴定方法

从宏基因组中鉴定病毒序列（2）质量评估与应用

R绘制箱形图及其变换

R绘制柱形图及其变换

Positron，新一代数据科学IDE（R+Python+...）

开发一个Rshiny应用（基础）

蒋超实验室在iMeta联合发文揭示构建重症肺炎微生物组千人队列

研究成果 | 常微分方程群生态模拟R包

从宏基因组中鉴定病毒序列（2）质量评估与应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉