第一作者:Ye Sun
通讯作者:尤世界 教授
通讯单位:哈尔滨工业大学环境学院
DOI:10.1016/j.watres.2024.123039
在复杂的水环境中识别新出现的污染物(ECs)是最大的挑战之一。目标筛选(TS)受到缺乏参考标准的限制,而非目标筛选(NTS)受制于复杂和不可靠的数据处理。在这项研究中,我们报道了以四环素(TCs)作为模型的机器学习(ML)驱动的伪靶标筛选(PTS)对ECs的初步鉴定。基于MassBank数据库收集的质谱(MS)数据,通过优化反映干扰峰强度(A)相对于最大峰强度(Amax)的阈值因子(P=1%),去除干扰峰,进行数据纯化。然后,通过输入整合了峰相关和测试相关特征的实验质谱数据,得到训练良好的XGBoost模型,正确识别tc和non - tc的概率接近100%。我们首次证明了这种特征集成策略在提高机器学习模型的准确性、可靠性和抗干扰能力方面的有效性。XGBoost模型还可以识别存在和不存在模型训练集的tc,这表明识别未受管制和未知的ec具有潜在的通用性。与之前报道的TS和NTS相比,我们的基于ml的PTS框架提供了一种高效、简单和可靠的替代方案,可以在不需要先验知识的情况下识别环境样品中的ECs。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义,而且代表了范式转变,即开发基于人工智能的算法框架,以识别本文测试的tc之外的更多ECs。
Fig. 1. (a) Accuracy, Precision, Recall, and F1 Score of ML models for P=0–4%, (b) Number of peaks for all the samples at P=0–4%, (c) Schematic diagram of interferential peak removal for doxycycline MS data at P=1%.
Fig. 2. (a) ROC curves, (b) confusion matrix and (c) Accuracy, Precision, Recall, F1 Score and Balanced Accuracy of different ML models.
Fig. 3. Principal component analysis (PCA) with (a) peak-related (PR) features and (b) both PR features and test-related features (PTR). (c) Comparison of model performance with PR and PTR features, (d) top ten most important features for TCs and Non-TCs categories, (e) the features related to TCs and Non-TCs categories, and (f) Shapley values of different descriptors for Spirodiclofen-enol.
Fig. 4. Schematic illustration of ML framework for PTS of TCs by experimental verification.
基于以上结果,可以得出以下主要结论:(i)基于ml的PTS框架实现了准确快速的tc识别,无需复杂的手动MS数据解析。(ii)优化阈值因子P=1%进行质谱数据纯化,去除干扰峰,提高质谱数据的可靠性和准确性。(iii)基于MassBank提供的MS数据集收集的峰相关特征和测试相关特征,训练良好的XGBoost模型能够有效识别tc,准确率为0.987,精密度为0.985,召回率为0.962,F1得分为0.980,平衡准确率为0.981。(iv)实验验证表明,实际水样中tc和non - tc的识别准确率接近100%。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义,而且代表了范式转变,即开发基于人工智能的算法框架,以识别本文测试的tc之外的更多ECs。
Ye Sun, Baoli Wu, Hongchao Dong, Jiaxuan Zhu, Nanqi Ren, Jun Ma, Shijie You, Machine learning-powered pseudo-target screening of emerging contaminants in water: A case study on tetracyclines, Water Research, 2025, https://doi.org/10.1016/j.watres.2024.123039
声明:本公众号仅分享前沿学术成果,无商业用途。如涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:Environ2022@163.com
欢迎大家将《水处理文献速递》加为星标
即时获取前沿学术成果
若有帮助,请点击“在看”分享!
投稿、转载请扫描下方二维码联系小编吧