第一作者:Keaton Larson Lesnik
通讯作者:Hong Liu
DOI:https://doi.org/10.1021/acs.est.9b03667
文字摘要
图片摘要
Keywords:
Algorithms; Biofilms; Biotechnology; Electrical Properties; Stability
Illumina测序和序列分析
机器学习模型生成与评估
使用 caret R 包对模型进行训练和评估。对于恢复力和抵抗力,分类模型 MFC 分为 3 类:“低”、“中”和“高”。抵抗力得分 <200 被归类为“低”,200-600 被归类为“中”,>600 被归类为“高”抵抗力。水平由平均抵抗力得分和这些得分的标准差确定。同样,恢复力得分 <40 被认为是“低”,40-150 被归类为“中”恢复力,>150 被归类为“高”恢复力。水平由平均恢复力得分和这些得分的标准差确定。在该研究中,为了应对多元分类和回归挑战,采用了四种不同的算法来训练模型:偏最小二乘法 (PLS)、 k-最近邻 (KNN) 、随机森林 (RF) 以及神经网络 (NNET)。
除了测试不同算法的适用性外,还测试了不同的数据输入压缩方式。该研究评估了仅使用与韧性或抗性变化强相关的属级丰度输入、PCA压缩ASV数据和NMDS压缩ASV数据的模型准确性,与完整ASV数据集输入进行了对比。
回归模型用于预测RL(韧性得分)和RS(抗性得分)系数值,其开发过程与分类模型类似。使用了相同的四种算法(PLS、KNN、RF、NNET)进行评估,并采用了四种不同的输入(完整的ASV数据集、与韧性或抗性相关的属级、PCA坐标值、NMDS坐标值)。
17 个 MFC 在接种后的 1 年内以相同的方式运行,群落演替如图1。另外CCA 的方差分析显示,外部电阻和相应的阳极开路电位和电流密度的变化对微生物群落的大尺度结构没有明显影响(*p* < 0.1)(图1 D)。
图 1. 按 (A) 门、(B) 目和 (C) 属分类的微生物群落相对读取丰度。(D) CCA 将群落组成与外部电阻、阳极电位和电流输出关联起来
功能稳定性风险评估
确定了与抗性和恢复力差异相关的属,并评估了它们作为过程稳定性预测因子的潜在用途。评估了四种机器学习模型(偏最小二乘 (PLS)、k 最近邻 (KNN)、随机森林 (RF)、神经网络 (NNET))从不同分类群的相对丰度准确预测抗性和恢复力的三个稳定性水平(低、中、高)的能力。使用 RF 算法开发的模型获得了最高的抗性水平准确度。
从压缩后的ASV数据中,尤其是使用Bray–Curtis距离度量的NMDS时,韧性水平能够被更容易地区分开来,ADONIS 检验多变量分析确定了低恢复力和高恢复力组之间的显著差异(*p* < 0.1)(图5)。然而,抗性水平的分类准确率平均降低了超过40%,其中使用PCA压缩数据的神经网络模型准确率最高(28.66 ± 17.95%)(见图6)。
图 6. 使用(A)NMDS和(B)PCA压缩数据集作为模型输入的抗性和韧性分类验证模型的准确性和κ系数。
点击“原文链接”,查看论文
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:environmodel@sina.com
若您认为有用,欢迎
将Environmodel设为星标,或
点击“在看”或“分享”给他人