普林斯顿大学任智勇团队ES&T观点文章: 环境机器学习、基础报告和全面评估——EMBRACE检查表

学术   2024-11-21 13:31   江苏  

英文原题:Environmental Machine Learning, Baseline Reporting, and Comprehensive Evaluation: The EMBRACE Checklist

第一作者:朱俊杰

通讯作者:任智勇

通讯单位:普林斯顿大学


原文简介


机器学习 (ML) 正在以其强大的功能性和广泛的应用性从根本上变革了环境研究。在高质量的环境期刊中使用 ML 的论文数量正在呈指数级增长。创新的应用涵盖了多个环境领域,比如从预测海滩水质、资源回收的材料设计,到降雨诱发滑坡的风险评估。鉴于 ML 的复杂性以及通常涉及的各种假设和数据处理操作,参考遵循报告方法和结果的最佳实践(Best Practices)变得至关重要。在我们最近的综述里发现,许多环境 ML 论文可以通过更切实地参考这些最佳实践来增强其清晰度和影响力。在对 148 篇高引用的环境 ML 论文的仔细审查中,我们发现仅有 24%、48%、37% 和 26% 的研究分别清楚地报告了它们对缺失数据管理、特征选择、特征缩放和超参数优化的方法。


在该综述发表后,我们收到了许多关于开发一个便捷指南的请求,以协助作者、审稿人和编辑更好地构思、准备、实施和评估 ML 研究。为此,我们在本观点文章中介绍“环境机器学习、基础报告与全面评估 (EMBRACE) 检查表”。EMBRACE 检查表配有附录中的详细说明 (SI) ,并创建了一个新的 GitHub 仓库,旨在帮助研究人员最大化他们的 ML 研究的全面性和影响力,同时参考遵循报告的最佳实践。通过使用该检查表,研究人员可以确保提供重要的方法学细节,识别关键问题,实施稳健且可解释的模型,并提高 ML 研究的整体质量和影响力。


我们鼓励在环境应用中使用 ML 的研究人员利用该检查表来协助报告其工作的关键信息。在开展 ML 研究之前参考 EMBRACE 检查表,可以有效地付诸于最佳实践和避免常见的误区、误解与误用。此外,通过将检查表作为论文 SI 的一部分,审稿人、编辑和读者都可以方便地获取相关信息。


图1. EMBRACE 检查表中的主要部分及其子类别,帮助作者、审稿人、编辑和读者进行、报告和评估环境机器学习研究 (GitHub仓库:https://github.com/starfriend10/EMBRACE)。


原文要点


从基础报告到全面评估(检查表中的主要部分):

· 第一部分:研究目标和可行性评估,帮助研究人员更好地评估其可用资源

· 第二部分:包括对数据来源、来源类型、数据类型、数据伦理的报告,以及关于数据点数量及其质量的详细信息

· 第三部分:包括对数据清理、数据增强、特征工程、数据分割及最终处理后数据的方法和明细的报告

· 第四部分:包括对所选ML方法和总体建模安排的报告

· 第五部分:包括了模型性能的评估和超参数优化 (HPO) 的重要方面

· 第六部分:包括了更好地理解和报告模型的可解释性、解释性以及因果关系

· 第七部分:着重于数据泄露和污染的管理,强调了机器学习建模并非简单的线性过程,而是一个相互嵌套的过程,其中每一步都对其他步骤产生影响

· 第八部分:数据和代码的分享,及其他重要信息


原文展望


创建一个惠及全社区的开放资源


构建一个开放协作的环境机器学习社区能极大的提升研究质量和创新型,而EMBRACE 检查表的目标则是迈出这第一步,共同推动该领域的发展。我们鼓励大家使用该检查表,并共同为这个社区做出贡献,共同推进用于环境研究和应用的数据科学工具。虽然开发了这一检查表,但我们认为它应该是由社区共同拥有和维护。我们鼓励大家在论文的“方法”部分中使用该检查表提供研究的关键信息或将该表作为“附录“的补充材料。总的来说,此检查表旨在提供研究的关键信息,以便其他同行参考的研究工作,并为准备和正在开展环境机器学习的研究者提供分步指南。为支持和扩展这一惠及全社区的资源,我们创建了一个开源、开放的 GitHub 仓库(https://github.com/starfriend10/EMBRACE),提供关于如何使用检查表的详细指南,并作为一个社区平台来优化和完善实践指南(例如提交问题和拉取请求),同时上传和共享参考文献和资源。我们相信随着越来越多的期刊或数据和代码共享的要求,通过共同的开发协作,研究人员可以帮助构建一个更加强大和协作的环境机器学习社区。展望未来,随着研究社区的不断壮大,这些标准也将持续演变,并且持续推进制定基于社区的指导方针。


作者简介:

朱俊杰 普林斯顿大学


朱俊杰:普林斯顿大学土木与环境工程系和Andlinger能源与环境中心的副研究员。研究重点为开发和应用机器学习、深度学习、语言模型以及机理和混合模型,以应对环境和可持续性挑战,特别是在废水管理中的智能过程、脱碳减排和资源回收。在Nature子刊,ES&T, WR等期刊发表论文 30 多篇。担任国际水协会(IWA)混合建模(Hybrid Modeling)工作组的副主席,该工作组旨在促进机理模型和数据驱动模型技术在水领域的更好利用。

任智勇 普林斯顿大学


任智勇:普林斯顿大学土木与环境工程系教授, Andlinger能源与环境中心副主任。他领导的水和能源技术实验室 (WET LAB) 近年在污水资源化,低碳化,和智能化等领域取得多项突破,获得资助总额 1500 多万美元。近几年团队毕业的成员进入清华大学,哈尔滨工业大学(深圳),密西根大学,新墨西哥大学等高校任教或成功创业。团队在Nature 及多个子刊,SA,ES&T, EES, WR等期刊发表论文 200 多篇。任教授现任ES&TES&T Letters 副主编和ESE,CEJ,ES&T Engineering期刊编委。他是英国皇家化学会 (RSC)和国际水协会(IWA )会士,曾任北美华人环境教授协会主席。任教授曾获得环境科学与工程教授协会AEESP Walter J. Weber, Jr. 前沿研究奖,美国土木工程师协会ASCE Walter L. Huber 科研奖, 和美国水协会WRF Paul L. Busch 科研奖。任教授团队诚邀有人工智能或温室气体监测背景的博士后和博士生申请。



来源:ACS美国化学会投稿、合作、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领最大的学术公号,拥有近15W+活跃读者。由于微信修改了推送规则,请大家将环境人Environmentor加为星标,或每次看完后点击页面下端的“在看”,这样可以第一时间收到我们每日的推文!环境人Environmentor现有综合群、期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群。


往期推荐

论文推介

ES&T主编/副主编:我的论文为啥未送审就被拒稿?

清华大学曲久辉院士团队Angew: 限域强化利用自由基主导的快速类芬顿反应
耶鲁大学Menachem Elimelech团队和哈工大马军团队Nat. Commun.:Janus电催化膜高选择性合成ROS
清华大学曲久辉院士团队ES&T:绿色芬顿——原子氢介导的双氧水电还原活化过程
同济大学赵红颖、赵国华团队ES&T: 电芬顿阴极氧化-还原协同深度处理含卤污染物
丹麦科大张翼峰团队ES&T:导电型的厌氧颗粒污泥应用于污水处理及产电的研究
香港科大劳敏慈团队ES&T: 如何实现水体中磷酸盐选择性吸附去除?
美国范德堡大学林士弘教授ES&T展望:脱盐过程能效的直观理解
清华大学环境学院文湘华团队WR: 污水可生物降解性决定了污水厂微生物的构建机制
卡内基梅隆大学Lowry教授团队AM:硫含量和形态调控硫化纳米零价铁的疏水性、电子传递、反应活性和选择性
学术招聘
美国范德堡大学环境工程研究生项目招生 (博士硕士)
加州大学河滨分校化学与环境工程系门玉洁课题组招收博士生(或博士后)
香港城市大学能源与环境学院Dr. Sam H. Y. HSU课题组招聘博士
美国圣母大学环境分子与合成生物学实验室拟招收2名全奖博士生
瑞典斯德哥尔摩大学和瑞士Eawag联合招聘全奖博士生(环境方向)
北京大学环境科学与工程学院赵华章教授团队招聘博士
学术资讯
耶鲁大学Julie B. Zimmerman教授出任ES&T主编
贝勒大学Bryan W. Brooks教授出任ES&T Letters主编
韩国科学院院士Wonyong Choi将出任ACS ES&T Engineering创刊主编
CEJ Advances创刊 | 潘丙才教授任主编,四位华人学者任副主编
ACS对话 | ACS ES&T Engineering创刊副主编马军院士
专访:Environmental Science & Ecotechnology 主编团队!


扫描二维码,快速入群~

环境人Environmentor
分享环境领域内学术进展、热点资讯、招聘信息
 最新文章