ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

文摘 2024-11-15 22:31 新加坡

点击订阅公众号 | 前沿学术成果每日更新

机器学习 (ML) 凭借其强大的功能和广泛的适用性正在改变环境研究。高影响力环境期刊中使用 ML 的论文数量正在呈指数级增长。最近的创新环境应用包括预测海滩水质、设计用于资源回收的聚合物，模拟降雨引起的滑坡敏感性。鉴于机器学习的复杂性以及通常需要的各种假设和数据操作，遵循机器学习应用的报告方法和结果的最佳实践至关重要。作者最近的综述文章强调许多环境 ML 论文可以通过更严格地遵循这些最佳实践来增强其影响力和清晰度。在仔细审查 148 篇被高度引用的环境 ML 论文时，作者发现只有 24%、48%、37% 和 26% 的研究清楚地报告了缺失数据管理、特征选择、特征缩放和超参数优化的方法。

发布综述文章后，作者收到了很多请求，要求提供易于使用的指南，以帮助研究人员、审稿人和编辑更好地概念化、准备、开展和评估 ML 研究。作为回应，作者在此观点中介绍了环境机器学习、基线报告和综合评估(EMBRACE) 检查表。EMBRACE 检查表以及支持信息中的随附说明和新建的 GitHub 存储库，旨在帮助研究人员在遵循报告最佳实践的同时，最大限度地提高其 ML 研究的综合评估和影响。通过使用清单，研究人员可以确保他们提供重要的方法细节，识别关键问题，实施稳健且可解释的模型，并提高其 ML 研究的整体质量和影响力。作者鼓励使用 ML 方法进行环境应用的研究人员利用清单来帮助报告其工作的关键细节。通过在实施 ML 研究之前参考 EMBRACE 清单，可以纳入最佳实践。此外，通过将清单作为论文中支持信息的一部分，审稿人、编辑和读者可以轻松访问它。

从最低限度的报告到全面的评估

EMBRACE 检查表可在 GitHub 存储库中开放获取并包括八个部分，遵循典型的 ML 模型开发流程图（图 1）。

图 1. EMBRACE 清单中的主要部分及其子类别，可帮助作者、审阅者、编辑和读者开展、报告和评估 ML 研究。

第 I 部分指导明确报告研究目标。它还包含可行性评估，帮助研究人员更好地评估其可访问的资源，并确保清楚地传达他们对数据可用性、模型可访问性、计算资源、时间可用性和风险承受能力的评估。可行性评估中的这些信息将帮助其他人更好地了解开展具有类似目标和范围的研究所需的承诺和要求。
第 II 部分和第 III 部分分别概述了数据收集和预处理的报告指南；这是开发稳健模型的基本组成部分：

第 II 部分包括有关数据源、源类型、数据类型、数据伦理以及有关数据点数量及其质量的详细信息的报告。值得注意的是，解决复杂问题可能需要多种数据类型，而多模态模型（利用多种数据类型的单一模型）的开发可能会扩大其在环境科学与工程 (ESE) 领域的应用。第 II 部分列出了有关数据伦理的重要问题，作者鼓励报告伦理考量、许可和数据源信用。此外，作者还建议在可行的情况下公开共享数据，或为其他研究人员提供访问有价值数据和任何相关材料的替代方法。
第 III 部分介绍了数据清理、丰富、特征工程、数据拆分和描述最终数据的方法建议报告。清楚地报告如何处理异常数据、异常值、替换、归因或增强非常重要。此外，描述如何以及是否转换、选择和缩放特征也很有帮助。通过遵循这些做法，研究人员可以确保他们的工作透明且可重复，从而提高研究的质量和影响力。

第 IV 和 V 节分别描述了方法选择和模型初始化以及模型评估和优化的报告。

第 IV 节包括所选方法的报告和一般建模安排。当时间和资源允许时，检查和比较多种方法是有益的。然而，通常情况下，根据方法的特征、数据可用性和计算资源来选择方法会是一种更好的策略。与典型的实验室实验一样，进行重复和随机性评估以了解模型输出的敏感性和不确定性也是必不可少的。第 V 节重点介绍了评估和超参数优化 (HPO) 的重要方面。理想情况下，应使用多个互补指标 (例如调整后的R2和 RMSE) 来评估模型，以从不同角度评估性能，包括欠拟合和过拟合。报告有关 HPO 的基本信息并确认它们得到正确实施以实现更准确和更稳健的模型也很重要。

第VI和第VII部分涵盖了典型 ML 模型开发中最容易被忽视的两个部分：模型解释和数据泄漏管理。

第VI部分呼吁更好地理解和报告模型的可解释性。报告模型解释以及详细的分析和讨论至关重要。这会影响建模步骤，从方法选择（例如，不同的可解释性级别）到底层环境机制理解（例如，将模型解释结果与领域知识相结合）。
第VII强调了这样一个事实：ML 建模不是一个简单的顺序过程，而是一个相互影响的过程，每个步骤都会影响其他步骤。特征工程和数据拆分等步骤与后续建模和数据泄漏管理密切相关。因此，在发现错误或问题后，通常会多次迭代建模过程。总体而言，使用清单需要结合环境领域知识对不同的 ML 方法进行广泛的分析和更深入的理解。鼓励研究人员在清单末尾提供额外的解释或发表评论，特别是如果没有一个预先设计的选择完全代表特定的方法或背景。

建立开放获取资源以造福社区

EMBRACE 检查表的目标是迈出第一步，建立一个开放、协作的环境 ML 社区，共同推动该领域的发展。作者鼓励所有人使用清单并为这个社区拥有的平台做出贡献，帮助共同推进环境研究和应用的数据科学工具。这是一个社区拥有的清单，研究人员受邀填写清单，检查论文的方法部分（或支持信息）是否提供了重要项目，并提供清单作为支持信息来说明最佳实践的实施。共享的清单旨在为报告他人参考工作所需的关键信息提供指导，并为准备和执行有影响力的环境 ML 研究提供分步指南。为了支持和扩大这一集体努力，作者创建了一个开源、开放访问的 GitHub 存储库，它提供了使用清单的详细指导，以及一个社区平台来完善和优化实践指南，以及一个上传和共享参考和资源的地方。随着越来越多的期刊推荐或要求共享数据和代码，研究人员可以通过存储库为这项工作做出贡献，帮助建立一个更强大、更具协作性的环境 ML 社区。展望未来，随着研究社区的扩大，这些标准将继续发展，制定基于社区的指南的努力应该持续下去。

数据可用性

EMBRACE Checklist 的最新版本、未来发展、修正和学习他人的 Checklist 可以在 GitHub 存储库中找到：

EMBRACE 检查表 1.0 版说明 ( PDF )：https://github.com/starfriend10/EMBRACE

文献信息

：5

点击“原文链接”，查看论文

声明：本公众号分享的前沿学术成果来源于各学术网站，不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：environmodel@sina.com

若您认为有用，欢迎
将Environmodel设为星标，或
点击“在看”或“分享”给他人

http://mp.weixin.qq.com/s?__biz=MzkzMzYzNDYyOQ==&mid=2247490581&idx=1&sn=09adc8f58f313f6820ffbce21bb2e979

Environmodel

Environmodel（环境模型）专注于环境科学与工程领域的建模及模型研究进展，并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。

最新文章

科研绘图教程 06 | 有代码！学会rcParams让你的底蕴更加深厚！

ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

资讯分享 | 2024年度博后基金第76批面上资助拟资助人员名单和简单统计分析

ES&T | 微生物群落预测微生物燃料电池的功能稳定性

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

Nat. Water | 人工智能在水系统中的回报、风险与如何负责任地部署

科研绘图教程 05 | 有代码！默念Catppuccin口诀，手里的Matplotlib竟变得更加光鲜亮丽！

ES&T water | 增强对污水处理厂出水预测的洞察力：基于 SHAP 的全面深度学习模型解释

模型漫谈 05 | 双向RNN模型: 不仅从历史中学习，还可以从未来学习

通过机理模型和机器学习预测全尺寸活性污泥系统中的 N2O排放量：通用模型结构开发

深度学习入门到放弃系列教程 05 | 解析Softmax函数的原理与应用

WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

科研绘图教程4 | 有代码！功法多不压身，绘制线条的7种实用方法！

WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

模型漫谈 | transformer模型: 每一个成功的大模型的背后都有一位美丽的transformer

基于模型识别全尺寸活性污泥系统中主要的N2O排放途径

深度学习从入门到放弃 | 深入理解链式法则：数学原理与在高效误差反向传播中的应用

确定单原子M–N–C催化剂上过硫酸盐活化的关键因素：密度泛函理论与机器学习相结合的研究

每日一词 | 成对排序（Pairwise Ranking）

科研绘图教程3 | 有代码！绘制一张优雅的散点图竟然使我突破了练气第三层！

ES&T | 瞬态光和氮条件下微藻生长和脂质产生的动态建模

模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

J. Clean. Prod. | 基于新型多目标蚁狮优化和深度学习算法的污水处理过程动态优化

每日一词 | 蚁狮优化算法

深度学习从入门到放弃 | 有代码！今天就掌握深度学习超人气组件 —— 残差块（Residual Block）

CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

python科研绘图教程2:从熟悉cbook模块和Matplotlib示例数据集开始练气第一层

WR | 强化脱氮除磷（EBPR）活性污泥在不同碳源和电子受体下的N2O产生过程模拟

模型漫谈：时间序列分析中常用的四种自回归模型

WR | 利用基于边的图神经网络构建可迁移的供水系统元模型

深度学习从入门到放弃：时间序列分析中的自相关函数（ACF）和（PACF）

转载自UQ水中心|昆士兰大学郭建华教授、香港理工大学刘涛助理教授Nature Water综述：通过氮循环微生物实现可持续污水管理

Nat. Water综述（普林斯顿任智勇教授团队）| 污水处理行业的碳净零排放的定义和实现

WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

python科研绘图教程 1| 恭喜宿主获得了matplotlib的炼气期功法

诺贝尔化学奖颁发给蛋白质结构预测专家又一次说明了AI不仅是顶流，还将是主流

Nat. Water | 综述：水质预测中的深度学习

模型漫谈：获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

模型漫谈：图神经网络（GNN）是什么样的存在

ES&T | 整合了首要原则模型和深度学习模型的污水处理厂氧化亚氮排放建模方法

深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

周一到周六更新内容，周末只happy

Nature Water | 全球高分辨率总水储量异常：使用深度学习算法的自监督数据同化

Python从入门到放弃必看：用PyCharm新建Python文件其实一点不简单，好吗!

基于拥挤距离的动态多目标粒子群优化实现污水处理过程的最优控制

深度学习入门教程：国庆花半个小时在windows平台上搭建起深度学习环境！

喜迎盛世华诞，用CHATGPT生成的庆典海报点亮你的国庆

一种改善污水处理厂实时出水质量预测的混合深度学习方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉