从最低限度的报告到全面的评估
图 1. EMBRACE 清单中的主要部分及其子类别,可帮助作者、审阅者、编辑和读者开展、报告和评估 ML 研究。
第 I 部分指导明确报告研究目标。它还包含可行性评估,帮助研究人员更好地评估其可访问的资源,并确保清楚地传达他们对数据可用性、模型可访问性、计算资源、时间可用性和风险承受能力的评估。可行性评估中的这些信息将帮助其他人更好地了解开展具有类似目标和范围的研究所需的承诺和要求。 第 II 部分和第 III 部分分别概述了数据收集和预处理的报告指南;这是开发稳健模型的基本组成部分: 第 II 部分包括有关数据源、源类型、数据类型、数据伦理以及有关数据点数量及其质量的详细信息的报告。值得注意的是,解决复杂问题可能需要多种数据类型,而多模态模型(利用多种数据类型的单一模型)的开发可能会扩大其在环境科学与工程 (ESE) 领域的应用。第 II 部分列出了有关数据伦理的重要问题,作者鼓励报告伦理考量、许可和数据源信用。此外,作者还建议在可行的情况下公开共享数据,或为其他研究人员提供访问有价值数据和任何相关材料的替代方法。 第 III 部分介绍了数据清理、丰富、特征工程、数据拆分和描述最终数据的方法建议报告。清楚地报告如何处理异常数据、异常值、替换、归因或增强非常重要。此外,描述如何以及是否转换、选择和缩放特征也很有帮助。通过遵循这些做法,研究人员可以确保他们的工作透明且可重复,从而提高研究的质量和影响力。 第 IV 和 V 节分别描述了方法选择和模型初始化以及模型评估和优化的报告。 第 IV 节包括所选方法的报告和一般建模安排。当时间和资源允许时,检查和比较多种方法是有益的。然而,通常情况下,根据方法的特征、数据可用性和计算资源来选择方法会是一种更好的策略。与典型的实验室实验一样,进行重复和随机性评估以了解模型输出的敏感性和不确定性也是必不可少的。第 V 节重点介绍了评估和超参数优化 (HPO) 的重要方面。理想情况下,应使用多个互补指标 (例如调整后的R2和 RMSE) 来评估模型,以从不同角度评估性能,包括欠拟合和过拟合。报告有关 HPO 的基本信息并确认它们得到正确实施以实现更准确和更稳健的模型也很重要。 第VI和第VII部分涵盖了典型 ML 模型开发中最容易被忽视的两个部分:模型解释和数据泄漏管理。 第VI部分呼吁更好地理解和报告模型的可解释性。报告模型解释以及详细的分析和讨论至关重要。这会影响建模步骤,从方法选择(例如,不同的可解释性级别)到底层环境机制理解(例如,将模型解释结果与领域知识相结合)。 第VII强调了这样一个事实:ML 建模不是一个简单的顺序过程,而是一个相互影响的过程,每个步骤都会影响其他步骤。特征工程和数据拆分等步骤与后续建模和数据泄漏管理密切相关。因此,在发现错误或问题后,通常会多次迭代建模过程。总体而言,使用清单需要结合环境领域知识对不同的 ML 方法进行广泛的分析和更深入的理解。鼓励研究人员在清单末尾提供额外的解释或发表评论,特别是如果没有一个预先设计的选择完全代表特定的方法或背景。
建立开放获取资源以造福社区
数据可用性
EMBRACE 检查表 1.0 版说明 ( PDF ):https://github.com/starfriend10/EMBRACE
点击“原文链接”,查看论文
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:environmodel@sina.com
若您认为有用,欢迎
将Environmodel设为星标,或
点击“在看”或“分享”给他人