文献速递|哈尔滨工业大学WR:机器学习驱动的水中新污染物伪目标筛选：四环素案例研究

文摘 2025-01-06 08:09 北京

cccccccccccccccccccccccccccccccc点击订阅公众号 | 前沿学术成果每日更新

第一作者：Ye Sun

通讯作者：尤世界教授

通讯单位：哈尔滨工业大学环境学院

DOI:10.1016/j.watres.2024.123039

全文速览

在复杂的水环境中识别新出现的污染物（ECs）是最大的挑战之一。目标筛选（TS）受到缺乏参考标准的限制，而非目标筛选（NTS）受制于复杂和不可靠的数据处理。在这项研究中，我们报道了以四环素（TCs）作为模型的机器学习（ML）驱动的伪靶标筛选（PTS）对ECs的初步鉴定。基于MassBank数据库收集的质谱（MS）数据，通过优化反映干扰峰强度(A)相对于最大峰强度（Amax）的阈值因子（P=1%），去除干扰峰，进行数据纯化。然后，通过输入整合了峰相关和测试相关特征的实验质谱数据，得到训练良好的XGBoost模型，正确识别tc和non - tc的概率接近100%。我们首次证明了这种特征集成策略在提高机器学习模型的准确性、可靠性和抗干扰能力方面的有效性。XGBoost模型还可以识别存在和不存在模型训练集的tc，这表明识别未受管制和未知的ec具有潜在的通用性。与之前报道的TS和NTS相比，我们的基于ml的PTS框架提供了一种高效、简单和可靠的替代方案，可以在不需要先验知识的情况下识别环境样品中的ECs。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义，而且代表了范式转变，即开发基于人工智能的算法框架，以识别本文测试的tc之外的更多ECs。

图文摘要

引言

本研究的目的是以四环素类化合物（TCs）为模型，开发用于水中ECs初筛的ML-powered PTS框架，因为四环素类化合物是自然和工程水系统中最常检测到的ECs之一。首先，从 MassBank 数据库中收集四环素类化合物的质谱数据，然后通过选择在分子量、结构和保留时间方面与四环素类化合物密切相关的特征，建立非四环素类化合物的参考类别。其次，从收集的 MS 中剔除干扰峰，以构建用于 ML 模型训练的稳健数据集。第三，采用各种 ML 算法训练模型并评估其性能。第四，使用 SHapley Additive exPlanations（SHAP）和主成分分析（PCA）方法分析和解释关键特征。最后，利用从真实水样和 MassBank 数据库中收集的 MS 数据验证了 ML 驱动的 TC PTS。

同位素标记技术

图文导读

Fig. 1. (a) Accuracy, Precision, Recall, and F1 Score of ML models for P=0–4%, (b) Number of peaks for all the samples at P=0–4%, (c) Schematic diagram of interferential peak removal for doxycycline MS data at P=1%.

Fig. 2. (a) ROC curves, (b) confusion matrix and (c) Accuracy, Precision, Recall, F1 Score and Balanced Accuracy of different ML models.

Fig. 3. Principal component analysis (PCA) with (a) peak-related (PR) features and (b) both PR features and test-related features (PTR). (c) Comparison of model performance with PR and PTR features, (d) top ten most important features for TCs and Non-TCs categories, (e) the features related to TCs and Non-TCs categories, and (f) Shapley values of different descriptors for Spirodiclofen-enol.

Fig. 4. Schematic illustration of ML framework for PTS of TCs by experimental verification.

研究意义

基于以上结果，可以得出以下主要结论：(i)基于ml的PTS框架实现了准确快速的tc识别，无需复杂的手动MS数据解析。（ii）优化阈值因子P=1%进行质谱数据纯化，去除干扰峰，提高质谱数据的可靠性和准确性。（iii）基于MassBank提供的MS数据集收集的峰相关特征和测试相关特征，训练良好的XGBoost模型能够有效识别tc，准确率为0.987，精密度为0.985，召回率为0.962，F1得分为0.980，平衡准确率为0.981。（iv）实验验证表明，实际水样中tc和non - tc的识别准确率接近100%。该研究不仅对处理与ECs发生相关的水污染突发事件具有重要意义，而且代表了范式转变，即开发基于人工智能的算法框架，以识别本文测试的tc之外的更多ECs。

文献信息

：

Ye Sun, Baoli Wu, Hongchao Dong, Jiaxuan Zhu, Nanqi Ren, Jun Ma, Shijie You, Machine learning-powered pseudo-target screening of emerging contaminants in water: A case study on tetracyclines, Water Research, 2025, https://doi.org/10.1016/j.watres.2024.123039

声明：本公众号仅分享前沿学术成果，无商业用途。如涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：Environ2022@163.com

欢迎大家将《水处理文献速递》加为星标
即时获取前沿学术成果
若有帮助，请点击“在看”分享！

投稿、转载请扫描下方二维码联系小编吧

水处理文献速递

分享水处理相关的前沿科学成果

文献速递|江南大学JMST:晶面依赖性CuO/{010}BiVO4S型光催化剂增强过一硫酸盐活化，有效去除诺氟沙星

上海海洋大学王有基团队JHM｜海洋热浪通过破坏肠-肝轴加剧了纳米二氧化钛对贻贝的生理损伤

Chinese Journal of Catalysis||ZIF-62(Co)玻璃催化活化过一硫酸盐降解水中微污染物

文献速递|哈尔滨工业大学WR:机器学习驱动的水中新污染物伪目标筛选：四环素案例研究

文献速递|河海大学SPT:制备用于PMS活化的 Fe-CoTiO3/TiO2/Ti 催化膜以高效降解SMX

中科院地理资源所于贵瑞院士团队Nature Communications｜揭示社会经济发展驱动的全球氮沉降新格局

文献清单：“空气污染”方向 | MDPI Environments

文献速递|南京师范大学ACB:用于过氧化单硫酸盐活化的笼中笼超晶格 FeSeS@C：表面酸度调节铁的自旋态

文献速递|重庆三峡大学ER:ZIF-67锚定棉花对环丙沙星降解过程中过氧单硫酸盐的高效活化作用

河北医科大学张荣团队JHM｜m5C甲基化介导的内质网自噬在母体孕期纳米炭黑暴露致子代肺组织上皮细胞间充质化及肺纤维化中的作用研究

苏黎世联邦理工学院Raffaele Mezzenga团队AM：利用食品垃圾淀粉样蛋白气凝胶从电子垃圾中回收黄金

文献速递|同济大学WR:阴极介导的废水中苯酚到苯醌的电化学转化：高产率和低能耗

文献速递|中科院李梦凯/强志民研究员CEJ:紫外线/H2O2和紫外线/PDS降解油田废水中的聚丙烯酰胺：快速实验测量和模型模拟

“硬质材料”专栏 | Coatings：CoCrFeMnNi0.8V/Cr3C2-Ni20Cr高熵合金复合热喷涂涂层

同济大学/喀什大学马杰教授团队CEJ：Bi-O重构实现rBi@C快效电化学除氯

文献速递|国立成功大学ACB:Z型光催化燃料电池中过氧单硫酸盐在可见光驱动下的O2-H2O2同步活化，用于废水净化发电

文献速递|兰州大学JECE:用于增强左氧氟沙星 O3/PMS 降解的 Co-Ce ZIF 衍生物的绿色合成

全球农田保护、粮食安全与土地利用规划 | MDPI Topics

河北医科大学张荣团队JHM｜m5C甲基化介导的内质网自噬在母体孕期纳米炭黑暴露致子代肺组织上皮细胞间充质化及肺纤维化中的作用研究

文献速递|新加坡国立大学STOTEN：用臭氧和生物活性炭处理后再用紫外线/氯(胺)烯工艺处理的废水中的消毒副产物控制

“硬质材料”专栏 | Coatings：CoCrFeMnNi0.8V/Cr3C2-Ni20Cr高熵合金复合热喷涂涂层

大连理工大学李雪花团队EST｜基于大数据挖掘预测纳米金属氧化物肺部毒性的IVIVE模型

文献速递|湖南大学ACB:可见光促进过氧单硫酸盐活化以降解 ACE：被忽视的光生空穴作用

文献速递|沙特阿拉伯CEJ:过一硫酸盐介导的膜封闭催化超薄无定形氧化钴-氧化铁纳米片高效分解微污染物

华中农业大学刘广龙课题组WR｜使用FT-ICR MS解析颗粒有机物分子组成与湖泊富营养化的关系

华南师范大学应光国团队EI｜污染物降解细菌是城市垃圾填埋场中抗生素抗性基因的超级携带者：一项基于宏基因组学的研究

文献速递|生态环境部南京环境科学研究所SPT:通过氯改性铁基三金属高效激活PMS，实现诺氟沙星的解毒和矿化：铜价态的深刻调节

文献速递|中国地质大学JHM:氧化锑（III）的原核生物能否在有氧和无氧条件下氧化砷（III），反之亦然？

【美文赏析】南京大学最新Nature：低品质卤水中提取锂资源

文献清单：“机器学习在水文学研究中的应用”方向 | MDPI Hydrology

文献速递|中国计量大学JHM:全氟丁酸：一种通过雌激素相关受体γ途径显示雌激素效应的短链全氟烷基物质

文献速递|重庆工商大学SPT:通过CuO-CeO2的强相互作用活化和稳定Cu物种，增强水中难分解芳香族有机污染物的分解能力

河北医科大学张荣团队JHM｜m5C甲基化介导的内质网自噬在母体孕期纳米炭黑暴露致子代肺组织上皮细胞间充质化及肺纤维化中的作用研究

文献清单：“基于自然的解决方案”方向 | MDPI Land

文献速递|河北农业大学ACB:用于降解水中新污染物的超稳定钴基链帆催化剂

文献速递|南开大学JCIS：氮化石墨碳纳米片/硼酸铜通过光助过一硫酸盐增强抗生素降解：氧活化和界面电荷转移的高效性

南京信息工程大学沈李东团队WR｜中国东部滨海湿地转变为稻田大幅降低了甲烷氧化活性和甲烷氧化菌丰度

文献清单：“地下水位预测”方向 | MDPI Water

文献速递|厦门大学WR:卤代双酚 F 化合物：日照地表水中氯化介导的形成和光化学归宿

文献速递|北京工业大学CEJ：利用真空紫外线活化PMS高效去除污水处理厂二级出水中的大小分馏抗生素耐药基因

Nature｜发现有孔虫在未来快速变暖情景下适应能力有限

光响应型MOF复合物固定于PET塑料片实现高效吸附及光控脱附磺胺甲噁唑

文献速递|意大利WR:评估厌氧消化污泥中的痕量有机化学物质及其分配行为：同时索氏化学萃取和通过 LC-MS/MS 分析定量

文献速递|湖南大学SPT：具有平衡吸附和非自由基氧化活性的调谐双金属MOFs可高效去除亚砷酸盐

南京信息工程大学沈李东团队WR｜中国东部滨海湿地转变为稻田大幅降低了甲烷氧化活性和甲烷氧化菌丰度

文献清单：“降水预测”方向 | MDPI Water

文献速递|哈尔滨工业大学ACB:重构铁-锰二原子对的电子结构，揭示类似芬顿反应中的活性-稳定性权衡

文献速递|云南大学SPT：用于高效磷酸盐吸附的掺钇MOFs：电化学特性、电辅助解吸和机理研究

中国海洋大学熊久强副教授JHM｜多组学揭示水稻赤霉素信号通路是幼苗抗逆环丙沙星的关键

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

文献速递|哈尔滨工业大学WR:机器学习驱动的水中新污染物伪目标筛选： 四环素案例研究

文献速递|哈尔滨工业大学WR:机器学习驱动的水中新污染物伪目标筛选：四环素案例研究