功能预测结果对我们的研究有什么帮助？

学术 2024-11-28 18:02 广东

在上一期“仅有16S/ITS结果，能对微生物功能进行研究吗”中，我们给大家解答了如何选择合适的软件对微生物功能进行预测。就目前来说，PICRUSt还是大多数研究的选择，不仅是因为PICRUSt有着较高的引用率和结果预测准确性，还因为最新升级的PICRUSt2具有更广泛的使用范围（可用于16S、18S、ITS、藻类等）。PICRUSt2支持基于多个基因家族数据库的预测，默认输出文件包括KEGG直系同源物（KO）、酶分类（EC）等，还允许添加自定义参考数据库，如MetaCyc途径丰度的预测等。听到这，很多小伙伴又开始犯嘀咕了，那怎么看这个结果？我应怎样在该结果的基础上做进一步的分析？别着急，今天我们继续解答小伙伴们的疑惑，同时结合典型案例详细聊聊如何将16S/ITS的功能预测结果应用于文章中。

问题3

功能预测结果怎么解读，报告中提到的pathway L1-L3还有KO+数字，分别代表什么？

在结果文件中，我们通常会看到有KO、EC和pathway等内容，这些都代表什么意思呢？首先，KO表示通路，相当于所有物种某一功能步骤的并集，这个通路不分物种。KO ID代表特定的功能基因，Description是功能基因的描述，如KO_metagenome_out/结果路径记录了细菌群落KO（KEGG Orthology）功能的丰度预测结果。同理，可得EC_metagenome_out/为细菌群落酶（KEGG Enzyme）功能的丰度预测结果。

将KO ID代表的特定功能基因映射到具体的KEGG代谢途径中，并统计各途径在各样本中的丰度，得到pathways_out/结果路径中的代谢通路注释结果。KEGG是一个整合了基因组、化学和系统功能信息的数据库，能够把从已经完整测序的基因组中得到的基因与更高级别的细胞、物种和生态系统水平的系统功能关联起来。KEGG官网（https://www.kegg.jp）页面上给出了所有pathway的名字及其隶属关系，分成以下三个级别：

①一级分类：共7个生物代谢通路，分别是Metabolism（代谢）、Genetic Information Processing（遗传信息处理）、Environmental Information Processing（环境信息处理）、Cellular Processes（细胞过程）、Organismal Systems（有机系统）、Human Diseases（人类疾病）和Drug Development（药物开发）。

图1

②二级分类：包含一级分类下面的子功能，例如一级分类Cellular Processes下面包括5个二级分类：Transport and catabolism、Cell growth and death、Cellular community-eukaryotes、Cellular community-eukaryotes和Cell motility。

③三级分类：二级分类下的代谢通路，例如二级分类Cell motility下面包括5个三级分类：Bacterial chemotaxis、Flagellar assembly等。

当我们想知道样本中微生物群落的功能主要涉及哪些路径时，需要对功能预测结果进行绘图，一般情况下展示第一、二层级的图形，还可以挑选感兴趣的特定功能单独呈现。

图2

问题4

道理我都懂，这个结果对我接下来设计实验或者写文章到底有什么帮助呢？

这个应该是大家最关心的问题了，钱花了，这个结果具体能为我的研究做什么？别慌，马上奉上我们总结好的研究思路：

①找差异：对于初步接触微生物测序或经费有限的小伙伴，我们可以通过16S/ITS进行大范围的功能预测分析，得到在研究中需要重点关注或者有显著差异功能的样本。

②挖掘功能基因：基于16S/ITS功能预测结果，挑选有代表性的样本进行宏基因组测序，结合binning分析，将研究深度扩展到更精细的物种和功能层面。

③功能验证：最后通过荧光定量PCR和代谢组等技术，进一步验证是否存在相关功能基因和代谢产物，形成完整的故事闭环。

那么接下来我们以这两篇典型的基迪奥客户文章为例，看看他们是如何运用这套研究思路来设计实验的。

经典案例一

文章题目：

Adaptation of bacterial community in maize rhizosphere for enhancing dissipation of phthalic acid esters in agricultural soil

发表期刊：

Journal of Hazardous Materials（IF：12.2）

客户单位：暨南大学

实验设计：分别采集0、10、20、40、70、100 mg/kg DEHP处理根际和非根际土壤共48个样品进行16S测序，每个处理设置四个重复；单独对100 mg/kg DEHP处理根际土壤共3个样品进行宏基因组测序。

研究目的：分析梯度浓度邻苯二甲酸二（2-乙基己基）酯（DEHP）处理下玉米土壤中的细菌群落组成和功能，确定参与DEHP生物降解的关键菌属，揭示DEHP在土壤根际降解的微生物机制。

经典案例二

文章题目：

Microbiota succession, species interactions, and metabolic functions during autotrophic biofloc formation in zero-water-exchange shrimp farming without organic carbon supplements

发表期刊：

Bioresource Technology（IF：9.7）

客户单位：深圳大学

实验设计：分别采集养殖过程中第0、2、4、6、8、10和12周的生物絮团共27个样品进行16S测序，每个处理设置三个重复；单独对第12周采集的3个样本进行宏基因组测序分析。

研究目的：探索自养生物絮团（ABF）在商业化对虾养殖中的应用潜力，深入解析与ABF循环碳、氮、磷相关的关键菌属的完整功能基因。

第一步：找差异

绘制出STAMP组间差异图或功能分布图（图3）后，一般情况下会重点关注跟本研究最相关的功能，甚至在图中只展示我们关注的功能类型。在这一步，我们通过16S分别对48和27个环境样本进行功能预测分析，挑选出100 mg/kg DEHP处理的根际土壤和养殖第12周的生物絮团是可用于下一步宏基因组测序进行深层次功能研究的最佳样本，花小钱办大事！

图3 基于PICRUSTs和FAPROTAX预测得到STAMP组间差异图和功能分布图

第二步：挖掘功能基因

将上一步挑选的样本进行宏基因组测序，结合binning分析获得bin，由bin的物种和功能注释获得对应关系。通过对多个bin基因组的综合分析，关注样本、群落整体的详细功能特征。如图4，研究按完整度＞50%和污染度＜10%，挑选了bin进行功能基因注释。在这一步，我们将研究深度扩展到更精细的物种和功能层面，将关键物种和功能一一对应起来，同时为下一步功能基因的验证提供了选择。

图4 宏基因组binning分析DEHP降解途径和氮循环途径相关功能基因及关键细菌类群

第三步：功能验证

最后，通过实时荧光定量PCR、代谢组等技术，进一步验证是否含有上述预测功能的代表性功能基因（图5）和代谢物，阐明具体的污染物降解或物质循环过程（图6）。在这一步，我们前面的猜想得到了验证，故事也有了完整的结局！

图5 验证代表性功能基因

图6 阐明DEHP降解过程和氮循环过程