普林斯顿大学任智勇团队ES&T观点文章：环境机器学习、基础报告和全面评估：EMBRACE检查表

政务 2024-11-11 16:41 湖北

‍英文原题：Environmental Machine Learning, Baseline Reporting, and Comprehensive Evaluation: The EMBRACE Checklist

第一作者：朱俊杰

通讯作者：任智勇

通讯单位：普林斯顿大学

原文简介

机器学习 (ML) 正在以其强大的功能性和广泛的应用性从根本上变革了环境研究。在高质量的环境期刊中使用 ML 的论文数量正在呈指数级增长。创新的应用涵盖了多个环境领域，比如从预测海滩水质、资源回收的材料设计，到降雨诱发滑坡的风险评估。鉴于 ML 的复杂性以及通常涉及的各种假设和数据处理操作，参考遵循报告方法和结果的最佳实践（Best Practices）变得至关重要。在我们最近的综述里发现，许多环境 ML 论文可以通过更切实地参考这些最佳实践来增强其清晰度和影响力。在对 148 篇高引用的环境 ML 论文的仔细审查中，我们发现仅有 24%、48%、37% 和 26% 的研究分别清楚地报告了它们对缺失数据管理、特征选择、特征缩放和超参数优化的方法。

在该综述发表后，我们收到了许多关于开发一个便捷指南的请求，以协助作者、审稿人和编辑更好地构思、准备、实施和评估 ML 研究。为此，我们在本观点文章中介绍“环境机器学习、基础报告与全面评估 (EMBRACE) 检查表”。EMBRACE 检查表配有附录中的详细说明 (SI) ，并创建了一个新的 GitHub 仓库，旨在帮助研究人员最大化他们的 ML 研究的全面性和影响力，同时参考遵循报告的最佳实践。通过使用该检查表，研究人员可以确保提供重要的方法学细节，识别关键问题，实施稳健且可解释的模型，并提高 ML 研究的整体质量和影响力。

我们鼓励在环境应用中使用 ML 的研究人员利用该检查表来协助报告其工作的关键信息。在开展 ML 研究之前参考 EMBRACE 检查表，可以有效地付诸于最佳实践和避免常见的误区、误解与误用。此外，通过将检查表作为论文 SI 的一部分，审稿人、编辑和读者都可以方便地获取相关信息。

图1. EMBRACE 检查表中的主要部分及其子类别，帮助作者、审稿人、编辑和读者进行、报告和评估环境机器学习研究 (GitHub仓库：https://github.com/starfriend10/EMBRACE)。

原文要点

从基础报告到全面评估（检查表中的主要部分）：

· 第一部分：研究目标和可行性评估，帮助研究人员更好地评估其可用资源

· 第二部分：包括对数据来源、来源类型、数据类型、数据伦理的报告，以及关于数据点数量及其质量的详细信息

· 第三部分：包括对数据清理、数据增强、特征工程、数据分割及最终处理后数据的方法和明细的报告

· 第四部分：包括对所选ML方法和总体建模安排的报告

· 第五部分：包括了模型性能的评估和超参数优化 (HPO) 的重要方面

· 第六部分：包括了更好地理解和报告模型的可解释性、解释性以及因果关系

· 第七部分：着重于数据泄露和污染的管理，强调了机器学习建模并非简单的线性过程，而是一个相互嵌套的过程，其中每一步都对其他步骤产生影响

· 第八部分：数据和代码的分享，及其他重要信息

原文展望

创建一个惠及全社区的开放资源

构建一个开放协作的环境机器学习社区能极大的提升研究质量和创新型，而EMBRACE 检查表的目标则是迈出这第一步，共同推动该领域的发展。我们鼓励大家使用该检查表，并共同为这个社区做出贡献，共同推进用于环境研究和应用的数据科学工具。虽然开发了这一检查表，但我们认为它应该是由社区共同拥有和维护。我们鼓励大家在论文的“方法”部分中使用该检查表提供研究的关键信息或将该表作为“附录“的补充材料。总的来说，此检查表旨在提供研究的关键信息，以便其他同行参考的研究工作，并为准备和正在开展环境机器学习的研究者提供分步指南。为支持和扩展这一惠及全社区的资源，我们创建了一个开源、开放的 GitHub 仓库（https://github.com/starfriend10/EMBRACE），提供关于如何使用检查表的详细指南，并作为一个社区平台来优化和完善实践指南（例如提交问题和拉取请求），同时上传和共享参考文献和资源。我们相信随着越来越多的期刊或数据和代码共享的要求，通过共同的开发协作，研究人员可以帮助构建一个更加强大和协作的环境机器学习社区。展望未来，随着研究社区的不断壮大，这些标准也将持续演变，并且持续推进制定基于社区的指导方针。

作者简介：

朱俊杰普林斯顿大学

朱俊杰：普林斯顿大学土木与环境工程系和Andlinger能源与环境中心的副研究员。研究重点为开发和应用机器学习、深度学习、语言模型以及机理和混合模型，以应对环境和可持续性挑战，特别是在废水管理中的智能过程、脱碳减排和资源回收。在Nature子刊，ES&T, WR等期刊发表论文 30 多篇。担任国际水协会（IWA）混合建模（Hybrid Modeling）工作组的副主席，该工作组旨在促进机理模型和数据驱动模型技术在水领域的更好利用。

任智勇普林斯顿大学

任智勇：普林斯顿大学土木与环境工程系教授, Andlinger能源与环境中心副主任。他领导的水和能源技术实验室 (WET LAB) 近年在污水资源化，低碳化，和智能化等领域取得多项突破，获得资助总额 1500 多万美元。近几年团队毕业的成员进入清华大学，哈尔滨工业大学（深圳），密西根大学，新墨西哥大学等高校任教或成功创业。团队在Nature 及多个子刊，SA，ES&T, EES, WR等期刊发表论文 200 多篇。任教授现任ES&T和ES&T Letters 副主编和ESE，CEJ，ES&T Engineering期刊编委。他是英国皇家化学会（RSC）和国际水协会（IWA ）会士，曾任北美华人环境教授协会主席。任教授曾获得环境科学与工程教授协会AEESP Walter J. Weber, Jr. 前沿研究奖，美国土木工程师协会ASCE Walter L. Huber 科研奖, 和美国水协会WRF Paul L. Busch 科研奖。任教授团队诚邀有人工智能或温室气体监测背景的博士后和博士生申请。

扫描二维码阅读英文原文

Environ. Sci. Technol. 2024, ASAP

Publication Date: October 29, 2024

https://doi.org/10.1021/acs.est.4c09611

Editor-in-Chief

Julie B. Zimmerman

Yale University

Environmental Science & Technology 是一本有极高影响力的环境科学与技术研究期刊，为科学家、政策制定者和广泛的环境社区等多学科和多样化的读者发表严谨和有力的论文。一直是引领思想、改变政策的基础性刊物，并将继续作为重要的、广泛相关的、可推广的研究的家园，为决策提供参考。

2-Year Impact Factor

CiteScore

Time to First Peer Review Decision

10.9

17.5

45.5

点击“阅读原文”

你“在看”我吗？

http://mp.weixin.qq.com/s?__biz=MzU0MDczMjA2MA==&mid=2247568819&idx=1&sn=aa6622bf1f0b3c1da16162ead6d4ee99

生态环境科学

最新学术成果与讯息

最新文章

征稿 | 环境工程/可持续能源/电气电网EI会议盘点，多项支持政策可申请！

浙江大学WR｜环境波动下藻际中微藻-细菌-病毒相互作用以及病毒功能的宏基因组学见解

南京师范大学WR｜地下水源碳激发了青藏高原源头溪流CO2排放潜力

中国科学院城市环境研究所E&H｜破译蓝藻毒素的自然衰减：消散、转化途径和遗传毒性

中山大学npj CAS｜从土壤湿度角度预估中国干湿突变

PNAS｜中科院生态环境中心周伟奇课题组在城市绿地降温效率尺度推绎方面取得新进展

Nature Reviews Microbiology｜水生生态系统中的微生物磷循环：从分子到全球的视角

Nature Sustainability｜不施氮肥的豆科作物N2O排放很少的假设是错误的

Nature Climate Change｜绘制全球海洋碱度提升对二氧化碳清除效率的变化图

2024软科世界一流学科排名｜环境科学与工程/地理学/地球科学/遥感技术/生态学/大气科学

江桂斌院士：新污染物与多种疾病密切相关

清华大学王书肖团队EST｜苯酮类中等挥发性有机物光氧化形成的二次有机气溶胶

普林斯顿大学任智勇团队ES&T观点文章：环境机器学习、基础报告和全面评估：EMBRACE检查表

华东理工大学张卫、彭程团队JHM｜生物可降解微塑料的老化及其对土壤性质的影响：土壤水分的控制

中科院兰州化物所赵培庆研究员团队WR｜揭示H2O2在过碳酸氢盐体系降解对乙酰氨基酚的主要作用

香港城市大学WR｜水力压裂返排水和产出水颗粒中疏水性有机物的鉴定与危害优先级排序：对水管理的启示

JAMA Network Open: 环境空气污染增加中国精神分裂症入院风险

Nature Geoscience｜在北部高纬度地区，植树并非气候解决方案

2025年院士增选高校候选人名单（813人）

中科院新疆生态地理所Nature Ecology & Evolution｜近40年来全球极端高温事件对陆地生态系统碳汇能力的影响

Science｜双面通道的膜使油和水从乳液中同时回收

Science｜AI模型揭露美国约9500万人可能受地下水PFAS致癌物污染影响

苏州科技大学李大鹏团队WR｜死亡藻类沉积对沉积物表面的长期影响：沉积物中的内源磷释放行为

河北大学万师强团队PNAS｜首次发现生态恢复主要通过降低风蚀造成的土壤碳损失提升旱地碳储量

西湖大学EST｜中国表层土壤中的传统和新型PFAS：来源追踪及空间分布的主要驱动因素

ES&T | 系统小众而美妙的毒理学研究思路

第18届中国青年科技奖公示｜环境领域4人拟获表彰

Nature｜特朗普胜利选举对人工智能，气候变化和健康的研究意味着什么

四川大学Nature Communications｜适合中国且具有成本效益的气候减缓路径，同时带来可持续发展的协同效益

Nature Geoscience｜火灾对植物-土壤水分关系的广泛和系统影响

香港大学汤初阳教授&暨南大学李万斌教授Nat. Commun.｜通过氧化亚铁/氧化石墨烯催化膜纳米约束高级还原实现超快速完全脱氯

北京大学朴世龙院士团队联合王腾蛟教授团队NSR｜人工智能近实时追踪陆地碳汇，破解2023年大气CO2激增之谜

CEJ｜使用海藻酸钠/氧化石墨烯复合珠有效去除溴化乙锭：对吸附机理和性能的洞察

EST｜土壤−水界面有机污染物的加速间接光降解

EST｜模拟老化条件下食品包装薄膜快速产生微塑料和塑料溶解有机物

浙江大学李艳团队Science｜滨海盐沼生态系统保护与修复

Nature｜如何让作物不受气候变化影响？科学家说秘密就在泥土中

任洪强院士团队：从颠覆创新视角看环境工程技术的未来 | Engineering

华侨大学邹景教授课题组EST｜碳酸氢钠强化Mn(II)/过氧乙酸体系高效降解新污染物：Mn(V)的形成和贡献

南京大学殷冉EST｜硝酸盐远紫外光光解产生的活性氮物种有助于农药降解和含氮副产物的形成

南科大环境学院朱雷课题组EI｜量化土壤氮氧化物排放导致的健康负担

广东省科学院生态环境与土壤所方利平EST｜双配体驱动氢氧化铁上暗活性氧物种的产生：对环境修复的影响

EST｜开发用于预测有机磷农药内部暴露的通用生理基础动力学模型！

南开大学周明华教授ACB｜综述：面向电化学水处理的单原子催化剂

浙江大学程磊团队Nature Geoscience｜揭示了稻田土壤自养硝化微生物响应大气CO2浓度升高的微生物生态学机理

环境期刊最新即时IF发布！

土壤酶活测定参考方法汇总，干货多多

中国科大环境系Trends in Biotechnology｜开发高版本电活性微生物底盘研究新进展

复旦大学李金全/聂明教授团队GCB｜揭示干旱驱动下微生物碳利用效率的变化及其与土壤碳储量的联系

One Earth｜东北林业大学周正虎教授证明植物多样性提升土壤多功能性“后劲”十足

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

普林斯顿大学任智勇团队ES&T观点文章： 环境机器学习、基础报告和全面评估：EMBRACE检查表

普林斯顿大学任智勇团队ES&T观点文章：环境机器学习、基础报告和全面评估：EMBRACE检查表