ES&T观点文章 | 环境机器学习、基线报告和综合评估:EMBRACE清单

文摘   2024-11-15 22:31   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               
机器学习 (ML) 凭借其强大的功能和广泛的适用性正在改变环境研究。高影响力环境期刊中使用 ML 的论文数量正在呈指数级增长。最近的创新环境应用包括预测海滩水质、设计用于资源回收的聚合物,模拟降雨引起的滑坡敏感性。鉴于机器学习的复杂性以及通常需要的各种假设和数据操作,遵循机器学习应用的报告方法和结果的最佳实践至关重要。作者最近的综述文章强调许多环境 ML 论文可以通过更严格地遵循这些最佳实践来增强其影响力和清晰度。在仔细审查 148 篇被高度引用的环境 ML 论文时,作者发现只有 24%、48%、37% 和 26% 的研究清楚地报告了缺失数据管理、特征选择、特征缩放和超参数优化的方法。
发布综述文章后,作者收到了很多请求,要求提供易于使用的指南,以帮助研究人员、审稿人和编辑更好地概念化、准备、开展和评估 ML 研究。作为回应,作者在此观点中介绍了环境机器学习、基线报告和综合评估(EMBRACE) 检查表。EMBRACE 检查表以及支持信息中的随附说明和新建的 GitHub 存储库,旨在帮助研究人员在遵循报告最佳实践的同时,最大限度地提高其 ML 研究的综合评估和影响。通过使用清单,研究人员可以确保他们提供重要的方法细节,识别关键问题,实施稳健且可解释的模型,并提高其 ML 研究的整体质量和影响力。作者鼓励使用 ML 方法进行环境应用的研究人员利用清单来帮助报告其工作的关键细节。通过在实施 ML 研究之前参考 EMBRACE 清单,可以纳入最佳实践。此外,通过将清单作为论文中支持信息的一部分,审稿人、编辑和读者可以轻松访问它。

从最低限度的报告到全面的评估

EMBRACE 检查表可在 GitHub 存储库中开放获取并包括八个部分,遵循典型的 ML 模型开发流程图(图 1)。

图 1. EMBRACE 清单中的主要部分及其子类别,可帮助作者、审阅者、编辑和读者开展、报告和评估 ML 研究。

  • 第 I 部分指导明确报告研究目标。它还包含可行性评估,帮助研究人员更好地评估其可访问的资源,并确保清楚地传达他们对数据可用性、模型可访问性、计算资源、时间可用性和风险承受能力的评估。可行性评估中的这些信息将帮助其他人更好地了解开展具有类似目标和范围的研究所需的承诺和要求。
  • 第 II 部分和第 III 部分分别概述了数据收集和预处理的报告指南;这是开发稳健模型的基本组成部分:
    • 第 II 部包括有关数据源、源类型、数据类型、数据伦理以及有关数据点数量及其质量的详细信息的报告。值得注意的是,解决复杂问题可能需要多种数据类型,而多模态模型(利用多种数据类型的单一模型)的开发可能会扩大其在环境科学与工程 (ESE) 领域的应用。第 II 部列出了有关数据伦理的重要问题,作者鼓励报告伦理考量、许可和数据源信用。此外,作者还建议在可行的情况下公开共享数据,或为其他研究人员提供访问有价值数据和任何相关材料的替代方法。
    • 第 III 部分介绍了数据清理、丰富、特征工程、数据拆分和描述最终数据的方法建议报告。清楚地报告如何处理异常数据、异常值、替换、归因或增强非常重要。此外,描述如何以及是否转换、选择和缩放特征也很有帮助。通过遵循这些做法,研究人员可以确保他们的工作透明且可重复,从而提高研究的质量和影响力。
  • 第 IV 和 V 节分别描述了方法选择和模型初始化以及模型评估和优化的报告。
    • 第 IV 节包括所选方法的报告和一般建模安排。当时间和资源允许时,检查和比较多种方法是有益的。然而,通常情况下,根据方法的特征、数据可用性和计算资源来选择方法会是一种更好的策略。与典型的实验室实验一样,进行重复和随机性评估以了解模型输出的敏感性和不确定性也是必不可少的。第 V 节重点介绍了评估和超参数优化 (HPO) 的重要方面。理想情况下,应使用多个互补指标 (例如调整后的R2和 RMSE) 来评估模型,以从不同角度评估性能,包括欠拟合和过拟合。报告有关 HPO 的基本信息并确认它们得到正确实施以实现更准确和更稳健的模型也很重要。
  • 第VI和第VII部分涵盖了典型 ML 模型开发中最容易被忽视的两个部分:模型解释和数据泄漏管理。
    • 第VI部分呼吁更好地理解和报告模型的可解释性。报告模型解释以及详细的分析和讨论至关重要。这会影响建模步骤,从方法选择(例如,不同的可解释性级别)到底层环境机制理解(例如,将模型解释结果与领域知识相结合)。
    • 第VII强调了这样一个事实:ML 建模不是一个简单的顺序过程,而是一个相互影响的过程,每个步骤都会影响其他步骤。特征工程和数据拆分等步骤与后续建模和数据泄漏管理密切相关。因此,在发现错误或问题后,通常会多次迭代建模过程。总体而言,使用清单需要结合环境领域知识对不同的 ML 方法进行广泛的分析和更深入的理解。鼓励研究人员在清单末尾提供额外的解释或发表评论,特别是如果没有一个预先设计的选择完全代表特定的方法或背景。

建立开放获取资源以造福社区

EMBRACE 检查表的目标是迈出第一步,建立一个开放、协作的环境 ML 社区,共同推动该领域的发展。作者鼓励所有人使用清单并为这个社区拥有的平台做出贡献,帮助共同推进环境研究和应用的数据科学工具。这是一个社区拥有的清单,研究人员受邀填写清单,检查论文的方法部分(或支持信息)是否提供了重要项目,并提供清单作为支持信息来说明最佳实践的实施。共享的清单旨在为报告他人参考工作所需的关键信息提供指导,并为准备和执行有影响力的环境 ML 研究提供分步指南。为了支持和扩大这一集体努力,作者创建了一个开源、开放访问的 GitHub 存储库,它提供了使用清单的详细指导,以及一个社区平台来完善和优化实践指南,以及一个上传和共享参考和资源的地方。随着越来越多的期刊推荐或要求共享数据和代码,研究人员可以通过存储库为这项工作做出贡献,帮助建立一个更强大、更具协作性的环境 ML 社区。展望未来,随着研究社区的扩大,这些标准将继续发展,制定基于社区的指南的努力应该持续下去。

数据可用性

EMBRACE Checklist 的最新版本、未来发展、修正和学习他人的 Checklist 可以在 GitHub 存储库中找到:
  • EMBRACE 检查表 1.0 版说明 ( PDF ):https://github.com/starfriend10/EMBRACE
文献信息             
:5              

点击“原文链接”,查看论文

               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章