Nat. Water | 综述:水质预测中的深度学习

文摘   2024-10-10 20:25   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               

第一作者:Wei Zhi

通讯作者:Li Li

DOIhttps://doi.org/10.1038/s44221-024-00202-z

                 

                 

                 

                 

                 

                 

     

             
图文速览

               

文字摘要:理解和预测内陆水体质量是一项挑战,特别是在预期未来气候极端情况加剧的背景下。这些挑战部分源于调控水质的复杂过程,以及繁重且昂贵的数据收集工作,这加剧了数据稀缺的问题。传统的基于过程的和统计模型在预测水质方面往往表现不佳。在该综述中,认为深度学习是一种尚未充分利用但极具前景的方法,可以解开高维数据中复杂的结构和关系。作者展示了深度学习方法通过填补时间和空间的缺口,以及通过识别影响水质的重要驱动因素,来帮助解决数据稀缺(data scarcity)问题,并有助于构建和测试假设。该综述强调了与传统方法相比,深度学习方法的优势和局限性,并强调其作为克服挑战和发现水质科学新知识的新兴和不可或缺的方法的潜力。


               

               

               

               

               

               

               
研究背景
                   
人工智能(AI)自20世纪30年代和40年代起就被用于数据处理。二战期间,图灵机这一早期形式的AI通过解码德国恩尼格玛加密的数据,估计挽救了2000万人的生命。然而,“深度学习”这一术语直到1986年才被提出,此前在1970年代已经出现了经典算法,如循环神经网络(RNN)和卷积神经网络(CNN)。深度学习(DL),一种以多个隐藏层(≥2)为特征的AI方法,自2006年以来经历了一次复兴。这一复兴是由新算法推动的,这些新算法无需领域专家和人工监督,加之图形和张量处理单元(GPU和TPU)的出现。这些进步使得自动提取复杂模式和关系成为可能,几乎在每一个学科都激发了应用的爆炸。地球和环境科学也不例外。自20世纪90年代末以来,DL已被用于预测洪水和沉积物,尽管其在水文学中的广泛应用相对较晚(自2016年以来)。然而,DL在水质领域的应用相对滞后。

在这里,作者认为DL为解决水质挑战提供了有希望的机会,特别是因为DL能通过利用多样化的、广泛可得的数据预测水质并填补数据空缺。特别是,DL能预测稀少测量的水质变量并在高度复杂的关系中检测模式。在这里作者:

(1)描述了DL可以帮助解决的水质科学中的挑战;

(2)回顾了DL在水质预测中的机会,特别是在解决数据稀缺和促进新知识方面;

(3)介绍了新兴工具如过程引导的DL(PGDL)、差分模型(DM)和可解释DL(XDL)方法;

(4)提供了对水质预测未来的前瞻性看法。

 图:从Web of Science检索到的同行评审的深度学习出版物的数量(截至2022年底)。其中的信息:灰红色圆圈标示了水文学领域中关于洪水(1997年,1999年)和河流流量(1999年)的首批深度学习(DL)相关出版物。黑红色圆圈标示了2003年和2004年关于水质的首批深度学习出版物,具体研究了叶绿素a和有色溶解有机物(DOM),以及的沉积物。CAMELS是美国大规模水文研究的基准数据集。在其他国家(例如智利、英国、巴西、澳大利亚、法国、瑞士)也开发了一系列类似的数据集,从而促成了全球Caravan的发展。同样地,CAMELS-Chem流域化学数据库整合了来自CAMELS的大气和流域水化学数据,这些数据常常是深度学习模型所需的。同心圆插图表示人工智能(AI)、机器学习(ML)、神经网络(NN)与深度学习(DL)之间的子集关系。

               

               

               

               

               

               

               
主要观点
                  
数据稀缺的挑战
数据收集和测量是科学发现的基础。它们使得假设的制定和概念及数值模型的开发成为可能。与流量数据相比,水质数据通常更加稀少、不一致且在时间、空间和频率上受限(图 1),部分原因是由于水质变量的复杂性。常见的水质测量包括水温、总悬浮固体(TSS)、溶解氧(DO)、生物和化学需氧量、盐度、电导率、浊度、沉积物、清晰度、碱度、叶绿素a、碳和各种形式的营养物质(例如,溶解有机碳、硝酸盐、总氮、总磷和有毒金属如砷、铅)。大多数水质变量仍需通过手工采集样本和使用大型复杂的分析仪器进行化学分析,这一过程需要大量人力。即使对于最广泛测量的总悬浮固体(TSS),全球平均每个站点的数据仅为29次,仅有1.1%的日子有数据,记录时长为4.2年(图1),相较于流量的12,066次、84%的日子有数据和38年的记录时长,这是很有限的数据可用性高度不均匀:大约83%的全球TSS数据来自17%的被抽样河流,主要在北美。其他变量的覆盖率甚至更低(图 1 b-d)。

图 1.  a和b展示了全球站点报告至少一个流量(Q)数据点(a)和水质数据点(b)的时间趋势,数据分别来自全球流量指数和元数据档案(GSIM)和全球河流水质档案(GRQA)。插图显示了全球测站位置。数据长度(c)和时间覆盖(d)的25%、50%(中间线)和75%百分位数。时间长度(年,c)是指拥有数据点的年数。覆盖率(%,d)是指数据点在日数中的时间覆盖百分比。流量Q从30,959个站点共有3.74亿个数据点,而总悬浮固体(TSS)从68,592个站点共有约200万个数据点。其他变量包括总磷(TP;1.9百万个数据点,来自44,943个站点)、溶解氧(DO;1.2百万个数据点,来自48,066个站点)、硝酸盐(NO3;1.2百万个数据点,来自44,551个站点)和颗粒有机碳(POC;62万个数据点,来自22,877个站点)。流量(Q)测量从1880年代在美国开始,并持续稳定增加直到1960年代,当时测站开始扩展到欧洲和其他大陆(a)。

深度学习进行时空数据填充
将从监测良好的地点到未设测站和未监测地点的预测一直是一个长期挑战。最近,深度学习(DL)模型在对化学未监测流域的预测方面显示出了希望。监测地点的水质数据已被用来与水文气象数据、遥感数据或如流域特征这样的空间特征一起构建模型,然后推广到未设测站的河流。例如,一个以美国480条河流的溶解氧数据为训练基础的大陆规模的长短期记忆(LSTM)模型,在100条故意从训练数据集中排除数据的河流中做出了稳健的预测,这些河流被视为未设测站的河流(见图2)。使用基于过程的模型预测和来自145个监测良好的湖泊的水温观测训练的LSTM,在转移到美国中西部1,882个监测较少的湖泊时,其性能优于纯基于过程的湖泊温度模型。

图 2. 使用 DL 模型填补空缺的时空水质. 使用来自 480 条河流的水文气象数据(a)、稀疏 DO 数据(b)和恒定流域属性(c)训练大陆尺度的 LSTM 模型(d),以预测 100 个“未进行化学测量的流域”(美国地图中带有三角形的空白区域;e)中的 DO 动态趋势,注意这些数据在训练期间中被排除在外。(f)DL 模型稳健地再现了这些100个河流的长期(1980-2019 年)DO 趋势和季节性变化(放大),表明其在预测未进行化学测量的流域中的 DO 方面具有潜力。
深度学习用于知识发现

深度学习方法被批评为“黑匣子” :算法找到层和权重函数的最佳组合来拟合数据,但没有提供对机制的洞察。这种黑匣子方法不会揭示其内部工作原理和新流程知识。随着对这一局限性的认识不断提高,对判断深度学习方法可信度的方法的追求日益增长,旨在将黑匣子变成可解释性和知识发现的透明玻璃盒(图 4)。

此类技术的工具箱正在不断壮大。可解释的深度学习(XDL)方法旨在通过评估模型“推理”、解释模型决策以及提取模式和驱动因素来阐明“黑匣子”(图4)。XDL 包括与模型无关和特定于模型的方法,它们识别和排序有助于模型预测的重要特征、关系和机制。模型无关概念包括积分梯度、预期梯度、Shapley 加性解释(SHAP)和代理模型(如局部可解释的模型无关解释(LIME))。它们不需要特定的模型结构,因此可以为不同的模型提供可比较的输出。特定于模型的方法包括注意力机制、显著图和决策树,并且可以为特定模型(例如,分别是Transformer、CNN 和基于树的算法)定制解释。这些技术阐明了深度学习的“行为” 至关重要。因此,这个过程促进知识发现,增强基于过程的理解,并促进更具解释性的预测和明智的决策。

图 4. 概念图,展示了从黑箱到玻璃箱(glass boxes)以实现稳健模型性能和知识发现的思想和方法。这些努力包括使用过程引导的深度学习 (PGDL)(紫色)和差分建模 (DM)和可解释的深度学习(XDL)(绿色)以及模型可视化。领域知识可以在各个阶段集成到 DL 中,例如:选择重要特征;使用基于过程的模型的输出预训练 DL 模型;多任务学习。或者,可以使用过程引导的损失函数或可微分的基于过程的模块(例如虚线框)来结合质量守恒、能量平衡、流动传输或其他过程知识来增强模型性能。知识发现可以从准确的预测本身、检查模型本身内的变量和学习参数(例如内部信号)以及 XDL 中产生。XDL 包括常见的事后方法,例如积分梯度 (IG)、预期梯度 (EG)、SHAP 和 LIME,以及特定于模型的方法,例如注意力机制。

PGDL: process-guided deep learning,过程引导的深度学习

DM: differential modelling,差分建模

XDL: Explainable deep learning, 可解释机器学习

深度学习在水质领域的未来

作者认为深度学习方法在改善全球水质方面的新兴力量将通过以下方式实现:

  • (1)整理公开的时空数据,探索它们与水质变量的关系,以进行时空预测;
  • (2)带来新工具和新视角,发现调节水质动态的隐藏模式、过程和关系;
  • (3)预测未来和未监测的水质状况,探索在极端气候下以及在快速变化的世界中管理和减轻水质损害的方案。

结果不仅可能对水质领域产生深远影响,而且可能对理解和预测全球碳、营养物、其他元素及其他元素循环的未来产生深远影响。

该综述提供了大量的有价值的观点以及研究文献评述。本推文仅摘录其中一部分进行分享。强烈推荐阅读原文获得更多启发

文献信息             
:5              

点击“原文链接”,查看论文         


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人

Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章