文献速递|哈尔滨工业大学WR:机器学习驱动的水中新污染物伪目标筛选: 四环素案例研究

文摘   2025-01-06 08:09   北京  
cccccccccccccccccccccccccccccccc点击订阅公众号 | 前沿学术成果每日更新

第一作者:Ye Sun

通讯作者:尤世界 教授

通讯单位:哈尔滨工业大学环境学院

DOI:10.1016/j.watres.2024.123039









全文速览

在复杂的水环境中识别新出现的污染物(ECs)是最大的挑战之一。目标筛选(TS)受到缺乏参考标准的限制,而非目标筛选(NTS)受制于复杂和不可靠的数据处理。在这项研究中,我们报道了以四环素(TCs)作为模型的机器学习(ML)驱动的伪靶标筛选(PTS)对ECs的初步鉴定。基于MassBank数据库收集的质谱(MS)数据,通过优化反映干扰峰强度(A)相对于最大峰强度(Amax)的阈值因子(P=1%),去除干扰峰,进行数据纯化。然后,通过输入整合了峰相关和测试相关特征的实验质谱数据,得到训练良好的XGBoost模型,正确识别tc和non - tc的概率接近100%。我们首次证明了这种特征集成策略在提高机器学习模型的准确性、可靠性和抗干扰能力方面的有效性。XGBoost模型还可以识别存在和不存在模型训练集的tc,这表明识别未受管制和未知的ec具有潜在的通用性。与之前报道的TS和NTS相比,我们的基于ml的PTS框架提供了一种高效、简单和可靠的替代方案,可以在不需要先验知识的情况下识别环境样品中的ECs。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义,而且代表了范式转变,即开发基于人工智能的算法框架,以识别本文测试的tc之外的更多ECs。








图文摘要







引言

本研究的目的是以四环素类化合物(TCs)为模型,开发用于水中ECs初筛的ML-powered PTS框架,因为四环素类化合物是自然和工程水系统中最常检测到的ECs之一。首先,从 MassBank 数据库中收集四环素类化合物的质谱数据,然后通过选择在分子量、结构和保留时间方面与四环素类化合物密切相关的特征,建立非四环素类化合物的参考类别。其次,从收集的 MS 中剔除干扰峰,以构建用于 ML 模型训练的稳健数据集。第三,采用各种 ML 算法训练模型并评估其性能。第四,使用 SHapley Additive exPlanations(SHAP)和主成分分析(PCA)方法分析和解释关键特征。最后,利用从真实水样和 MassBank 数据库中收集的 MS 数据验证了 ML 驱动的 TC PTS。





同位素标记技术

图文导读

Fig. 1(a) Accuracy, Precision, Recall, and F1 Score of ML models for P=0–4%, (b) Number of peaks for all the samples at P=0–4%, (c) Schematic diagram of interferential peak removal for doxycycline MS data at P=1%.

Fig. 2(a) ROC curves, (b) confusion matrix and (c) Accuracy, Precision, Recall, F1 Score and Balanced Accuracy of different ML models.

Fig. 3Principal component analysis (PCA) with (a) peak-related (PR) features and (b) both PR features and test-related features (PTR). (c) Comparison of model performance with PR and PTR features, (d) top ten most important features for TCs and Non-TCs categories, (e) the features related to TCs and Non-TCs categories, and (f) Shapley values of different descriptors for Spirodiclofen-enol.

Fig. 4Schematic illustration of ML framework for PTS of TCs by experimental verification.








研究意义

基于以上结果,可以得出以下主要结论:(i)基于ml的PTS框架实现了准确快速的tc识别,无需复杂的手动MS数据解析。(ii)优化阈值因子P=1%进行质谱数据纯化,去除干扰峰,提高质谱数据的可靠性和准确性。(iii)基于MassBank提供的MS数据集收集的峰相关特征和测试相关特征,训练良好的XGBoost模型能够有效识别tc,准确率为0.987,精密度为0.985,召回率为0.962,F1得分为0.980,平衡准确率为0.981。(iv)实验验证表明,实际水样中tc和non - tc的识别准确率接近100%。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义,而且代表了范式转变,即开发基于人工智能的算法框架,以识别本文测试的tc之外的更多ECs。

文献信息

Ye Sun, Baoli Wu, Hongchao Dong, Jiaxuan Zhu, Nanqi Ren, Jun Ma, Shijie You, Machine learning-powered pseudo-target screening of emerging contaminants in water: A case study on tetracyclines, Water Research, 2025, https://doi.org/10.1016/j.watres.2024.123039



声明:本公众号仅分享前沿学术成果,无商业用途。如涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!

邮箱:Environ2022@163.com

欢迎大家将《水处理文献速递》加为星标

即时获取前沿学术成果

若有帮助,请点击“在看”分享!


投稿、转载请扫描下方二维码联系小编吧




水处理文献速递
分享水处理相关的前沿科学成果
 最新文章