英文原题:Environmental Machine Learning, Baseline Reporting, and Comprehensive Evaluation: The EMBRACE Checklist
第一作者:朱俊杰
通讯作者:任智勇
通讯单位:普林斯顿大学
原文简介
机器学习 (ML) 正在以其强大的功能性和广泛的应用性从根本上变革了环境研究。在高质量的环境期刊中使用 ML 的论文数量正在呈指数级增长。创新的应用涵盖了多个环境领域,比如从预测海滩水质、资源回收的材料设计,到降雨诱发滑坡的风险评估。鉴于 ML 的复杂性以及通常涉及的各种假设和数据处理操作,参考遵循报告方法和结果的最佳实践(Best Practices)变得至关重要。在我们最近的综述里发现,许多环境 ML 论文可以通过更切实地参考这些最佳实践来增强其清晰度和影响力。在对 148 篇高引用的环境 ML 论文的仔细审查中,我们发现仅有 24%、48%、37% 和 26% 的研究分别清楚地报告了它们对缺失数据管理、特征选择、特征缩放和超参数优化的方法。
在该综述发表后,我们收到了许多关于开发一个便捷指南的请求,以协助作者、审稿人和编辑更好地构思、准备、实施和评估 ML 研究。为此,我们在本观点文章中介绍“环境机器学习、基础报告与全面评估 (EMBRACE) 检查表”。EMBRACE 检查表配有附录中的详细说明 (SI) ,并创建了一个新的 GitHub 仓库,旨在帮助研究人员最大化他们的 ML 研究的全面性和影响力,同时参考遵循报告的最佳实践。通过使用该检查表,研究人员可以确保提供重要的方法学细节,识别关键问题,实施稳健且可解释的模型,并提高 ML 研究的整体质量和影响力。
我们鼓励在环境应用中使用 ML 的研究人员利用该检查表来协助报告其工作的关键信息。在开展 ML 研究之前参考 EMBRACE 检查表,可以有效地付诸于最佳实践和避免常见的误区、误解与误用。此外,通过将检查表作为论文 SI 的一部分,审稿人、编辑和读者都可以方便地获取相关信息。
图1. EMBRACE 检查表中的主要部分及其子类别,帮助作者、审稿人、编辑和读者进行、报告和评估环境机器学习研究 (GitHub仓库:https://github.com/starfriend10/EMBRACE)。
原文要点
从基础报告到全面评估(检查表中的主要部分):
· 第一部分:研究目标和可行性评估,帮助研究人员更好地评估其可用资源
· 第二部分:包括对数据来源、来源类型、数据类型、数据伦理的报告,以及关于数据点数量及其质量的详细信息
· 第三部分:包括对数据清理、数据增强、特征工程、数据分割及最终处理后数据的方法和明细的报告
· 第四部分:包括对所选ML方法和总体建模安排的报告
· 第五部分:包括了模型性能的评估和超参数优化 (HPO) 的重要方面
· 第六部分:包括了更好地理解和报告模型的可解释性、解释性以及因果关系
· 第七部分:着重于数据泄露和污染的管理,强调了机器学习建模并非简单的线性过程,而是一个相互嵌套的过程,其中每一步都对其他步骤产生影响
· 第八部分:数据和代码的分享,及其他重要信息
原文展望
创建一个惠及全社区的开放资源
构建一个开放协作的环境机器学习社区能极大的提升研究质量和创新型,而EMBRACE 检查表的目标则是迈出这第一步,共同推动该领域的发展。我们鼓励大家使用该检查表,并共同为这个社区做出贡献,共同推进用于环境研究和应用的数据科学工具。虽然开发了这一检查表,但我们认为它应该是由社区共同拥有和维护。我们鼓励大家在论文的“方法”部分中使用该检查表提供研究的关键信息或将该表作为“附录“的补充材料。总的来说,此检查表旨在提供研究的关键信息,以便其他同行参考的研究工作,并为准备和正在开展环境机器学习的研究者提供分步指南。为支持和扩展这一惠及全社区的资源,我们创建了一个开源、开放的 GitHub 仓库(https://github.com/starfriend10/EMBRACE),提供关于如何使用检查表的详细指南,并作为一个社区平台来优化和完善实践指南(例如提交问题和拉取请求),同时上传和共享参考文献和资源。我们相信随着越来越多的期刊或数据和代码共享的要求,通过共同的开发协作,研究人员可以帮助构建一个更加强大和协作的环境机器学习社区。展望未来,随着研究社区的不断壮大,这些标准也将持续演变,并且持续推进制定基于社区的指导方针。
作者简介:
朱俊杰 普林斯顿大学
朱俊杰:普林斯顿大学土木与环境工程系和Andlinger能源与环境中心的副研究员。研究重点为开发和应用机器学习、深度学习、语言模型以及机理和混合模型,以应对环境和可持续性挑战,特别是在废水管理中的智能过程、脱碳减排和资源回收。在Nature子刊,ES&T, WR等期刊发表论文 30 多篇。担任国际水协会(IWA)混合建模(Hybrid Modeling)工作组的副主席,该工作组旨在促进机理模型和数据驱动模型技术在水领域的更好利用。
任智勇 普林斯顿大学
任智勇:普林斯顿大学土木与环境工程系教授, Andlinger能源与环境中心副主任。他领导的水和能源技术实验室 (WET LAB) 近年在污水资源化,低碳化,和智能化等领域取得多项突破,获得资助总额 1500 多万美元。近几年团队毕业的成员进入清华大学,哈尔滨工业大学(深圳),密西根大学,新墨西哥大学等高校任教或成功创业。团队在Nature 及多个子刊,SA,ES&T, EES, WR等期刊发表论文 200 多篇。任教授现任ES&T和ES&T Letters 副主编和ESE,CEJ,ES&T Engineering期刊编委。他是英国皇家化学会 (RSC)和国际水协会(IWA )会士,曾任北美华人环境教授协会主席。任教授曾获得环境科学与工程教授协会AEESP Walter J. Weber, Jr. 前沿研究奖,美国土木工程师协会ASCE Walter L. Huber 科研奖, 和美国水协会WRF Paul L. Busch 科研奖。任教授团队诚邀有人工智能或温室气体监测背景的博士后和博士生申请。
往期推荐
扫描二维码,快速入群~