iMeta | 李雪萌/刘永鑫-评述开源软件USEARCH 12

学术   2024-10-02 07:39   广东  

点击蓝字 关注我们

USEARCH 12:微生物组和生物信息学领域用于序列分析的开源软件

研究论文

● 期刊:iMeta(IF 23.7)

 原文链接DOI: https://doi.org/10.1002/imt2.236

● 2024年9月2日,广东医科大学李雪萌和中国农业科学院深圳农业基因组研究所刘永鑫团队在iMeta在线发表了题为“USEARCH 12: Open-source software for sequencing analysis in bioinformatics and microbiome”的文章。

● 本文评述广为人知的生物信息学软件USEARCH第12版,作者开放了源代码,只保留了第11版中的22个重要命令。旨在鼓励生物研究领域的科研人员基于源代码持续开发出色的生物信息学软件,为微生物组研究提供更好的基础设施。

● 第一作者:周远平

● 通讯作者:刘永鑫(liuyongxin@caas.cn)、李雪萌(lixuemeng@gdmu.edu.cn

● 主要单位:中国农业科学院深圳农业基因组研究所、广东医科大学

 亮 点

●  广为人知的生物信息学软件USEARCH第12版被作者开放了源代码;

●  其开源旨在鼓励生物研究领域的科研人员基于源代码持续开发出色的生物信息学软件;

●  软件开源及人工智能的普及将为微生物组研究提供更好的基础设施。

摘  要

USEARCH软件是生物学家手中用于各种生境中核酸序列处理、研究微生物组成及群落动态分析的出色工具,但其64位的USEARCH软件一直不能免费获取。2024年,USEARCH软件的作者突然开放了USEARCH v12的源代码,并同时提供了所有64位的USEARCH软件供大众免费下载,这表明任何想要用USEARCH分析自己微生物组项目数据的研究者,皆可免费使用USEARCH中的出色命令完成工作。某种意义上说,USEARCH的开源对相关研究领域的研究者而言是一个令人惊喜的好消息。然而,随着USEARCH的开源,在其第12版中,作者只保留了第11版中的22个重要命令,这或许会鼓励微生物组学领域的科学家们在未来持续开发更多出色的软件。随着人工智能时代的到来及多学科交叉融合,特别是在微生物和移动互联网产业编程人才的交叉合作的基础上,微生物组研究领域一定会有愈来愈多适用于特定领域的出色生物信息学软件被开发出来。

视频解读

Bilibili:https://www.bilibili.com/video/BV1d8ttePE7W/

Youtube:https://youtu.be/W6UK1T5ZSD8

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网:http://www.imeta.science/

全文解读

USEARCH软件在微生物组领域的发展历程

2010年,USEARCH第一版因其极快的序列分析能力而首次发表在《Bioinformatics》杂志上,其中包括usearch和uclust两个算法,它们与序列比对软件megablast和聚类软件CD-HIT相比,速度分别提高了近75倍和26倍。2011年,USEARCH v5首次作为独立程序释放,其中包含cluster、query、makeudb、derep_fullseq、derep_subseq、uchime和sort等命令(图1A)。2018年,作者发布了USEARCH v11,相较前一版本更新了21个命令(总命令达194个),包括引物序列移除命令(fastx_trim_primer),随机森林训练和分类(forest_trim/forest_classify)命令以及可操作分类单元(OTU)表格操作命令(otutab_rare/otutab_samples/otutab_select, https://drive5.com/usearch)。一般而言,USEARCH软件32位版本的内存限制为4GB,对运行几十个样本的扩增子数据来说是比较合适的。然而,功能最为成熟的USEARCH v11由v10升级后常常会报错,例如升级后再运行数据可能会提示“---致命错误---文件对32位软件太大”,即使操作几百KB大小的文件时也会报错。这一报错会让许多用户进一步购买64位的USEARCH软件继续分析自己的数据。但更多的人会选择用如mothur、QIIME2、EasyAmplicon或Parallel-Meta Suite等相似的软件予以替代。2024年,USEARCH v12发布,并且成为了第一个开源版本的USEARCH软件,其中许多命令被作者移出软件,仅留下了22个关键的命令在开源版本USEARCH v12中,例如用于OTU表格操作和多样性分析的命令被完全移除(图1A)。与此同时,作者还在GitHub(https://github.com/rcedgar/usearch_old_binaries/)免费释放了所有的64位版本的USEARCH软件。我们也在GitHub上提供了备用下载链接(https://github.com/YongxinLiu/UsearchChineseManual)。因而,自此以后,生物信息学和微生物组研究领域的研究者不仅可以免费用64位的USEARCH(包括USEARCH v11)来完成他们自己的项目分析内容,而且还可以基于自身科研需求学习并整合USEARCH v12中命令的源码,进一步开发全新的软件。USEARCH软件从 v1发展到v12的成长历程中,经历了一系列功能组件的开发和升级,其中,一些里程碑式的用于微生物组分析的功能组件包括2011年用于嵌合体检测的uchime(截止2024年8月1日被引14,443次,下同),2013年独立于USEARCH的用于质量过滤、序列剪切和聚类的分析流程uparse(被引14,588次),2015年用于扩增序列变体错误过滤和校正的unoise(被引3,800次),2016年用于序列分类的sintax(被引725次)等。最终,USEARCH软件的作者通过不断挑战微生物组研究领域扩增子数据分析中的真实问题而几乎给出了完整的解决方案。

商业软件与开源软件的比较

由于没有获得政府和商业机构的资助,USEARCH的作者作为独立研究员一度只能采用商业策略向需要使用64位USEARCH软件的用户收取软件使用费以维持自己的研究。与此同时,作者也一直提供其32位的USEARCH软件供用户免费下载使用。USEARCH相比其替代软件如QIIME和Mothur有各种优点,如内存占用小、容易安装、运行速度快以及可跨平台使用(Windows,Unix,MacOS)等,被认为是微生物组扩增子数据分析的最佳选择。然而,由于64位USEARCH为商业软件(商业用户1,485美元,非盈利用户885美元),对部分仅申请到少量研究经费的研究者来说有点贵。因此,一款叫做VSEARCH的替代软件在2016年发布后截止2024年8月1日已经被引用了7,910次,主要是因为它替代了USEARCH软件的主要功能,这满足了微生物组研究领域科研人员的海量需求。USEARCH的开源或许会点燃微生物组研究领域科学家在未来开发更多出色生物信息学软件的热情,开源软件和商业软件的优缺点见图1B。

微生物组和生物信息学领域分析流程开发的建议

USEARCH对许多用户而言是一款非常好用的软件。首先,USEARCH中开源的代码可以作为分析组件整合到未来开发的优秀软件中。其次在所有64位USEARCH软件中的大量命令也可以整合到更多的分析流程中,这可改善R和Python分析脚本中运行极为低效的部分。另外,USEARCH软件的开源能够滋养开源文化,这会改善生物学家的软件开发环境,使他们抓住人工智能时代的便利条件,并促进不同领域的人才展开合作,包括促进生物学家、博士生、数学家、生物信息学家、计算机科学家以及移动互联网行业外溢的大量人才之间的交叉合作来开发易于使用、高效的微生物组和生物信息学软件(图1C)。

代码和数据可用性

USEARCH软件的影响力及引用情况来源于谷歌学术网站截止2024年08月01日的统计数据。USEARCH 12的开放源代码可从GitHub https://github.com/rcedgar/usearch12获得。中文手册,扩增子流程及备份下载链接可从Gihub https://github.com/YongxinLiu/UsearchChineseManual获得。附件材料(图文摘要、幻灯片、讲解视频、中文稿件及更新材料)或许可从在线DOI或iMeta官网http://www.imeta.science/获得。


引文格式

Zhou, Yuanping, Yong-Xin Liu, and Xuemeng Li. 2024. “USEARCH 12: Open-source software for sequencing analysis in bioinformatics and microbiome.” iMeta e236. https://doi.org/10.1002/imt2.236.

作者简介

周远平(第一作者)

 云南农业大学作物遗传育种博士,2024年1月入职广东医科大学从事博士后研究工作。

 目前主要研究方向为多组学结合单菌株基因组分析挖掘长寿老人肠道益生菌,旨在揭示人体长寿的肠道微生态学机制。博士期间主要研究稻薯轮作在克服马铃薯土传病害中的作用及机制,目前已在iMeta、agronomy、plants、西南农业学报、云南农业大学学报(自然科学)、食品科学等国内外杂志发表多篇SCI或中文期刊文章。

刘永鑫(通讯作者)

 中国农业科学院深圳农业基因组研究所研究员,博士生导师。

 研究方向为宏基因组方法开发、功能挖掘和科学传播。参与QIIME2项目,主导开发了易扩增子(EasyAmplicon)、易宏基因组(EasyMetagenome)、培养组(Culturome)分析流程、数据分析网站(EVenn、ImageGP)和R包(amplicon、ggClusterNet)等,目标是全面打造宏基因组领域方法学基础设施,推动微生物组学发展。以(共同)第一或通讯作者在Nature Biotechnology、Nature Microbiology、iMeta等期刊发表论文40余篇。合作在Science、Cell Host & Microbe、Microbiome等期刊发表论文30余篇,累计发表论文70余篇,被引21000+次。主编《微生物实验手册》,由300多位同行参与,共同打造本领域长期更新的中文百科全书。创办宏基因组公众号,17万+同行关注,分享原创文章3千余篇,累计阅读量超6千万,打造本领域最具影响力的科学传播平台。发起《iMeta》期刊,联合全球千位专家共同打造宏基因组学、微生物组和生物信息学顶刊,解决我国本领域期刊出版卡脖子问题。

李雪萌(通讯作者)

 广东医科大学高层次(第三层次)引进人才,东莞市特色人才(第二层次),副教授,博士生导师。

 现任广东湛江海洋医药研究院双聘教授。主要从事微生物学挖掘及医学检测的相关研究。已主持国家自然科学基金1项,省级项目2项,市级合校级项目5项,共计主持经费615万。目前共发表SCI论文17篇,以第一作者或通讯作者等发表高水平论文8篇,最高影响因子30.85,累计影响因子62.6分。申请发明专利5项,授权发明专利1项。

更多推荐

(▼ 点击跳转)

高引文章 ▸▸▸▸

iMeta | 引用14000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据

高引文章 ▸▸▸▸

iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法

高引文章▸▸▸▸

iMeta | 高颜值绘图网站imageGP+视频教程合集                                         

1卷1期

1卷2期

1卷3期

1卷4期

2卷1期

2卷2期

2卷3期

2卷4期

3卷1期

2卷2期封底

2卷4期封底

3卷2期

3卷3期

3卷3期封底

3卷4期

3卷4期封底

1卷1期

期刊简介

iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.7,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,同学科研究类期刊全球第一,中国大陆11/514!

iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,是定位IF>10的高水平综合期刊,欢迎投稿!

iMeta主页:

http://www.imeta.science

姊妹刊iMetaOmics主页:

http://www.imeta.science/imetaomics/

出版社iMeta主页:

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页:

https://onlinelibrary.wiley.com/journal/29969514

iMeta投稿:

https://wiley.atyponrex.com/journal/IMT2

iMetaOmics投稿:

https://wiley.atyponrex.com/journal/IMO2

邮箱:

office@imeta.science


宏基因组
宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。
 最新文章