使用可解释的Transformer神经网络预测天气预报的多样化环境时间序列
社区、经济和自然生态系统极易受到极端天气和气候相关灾害的影响。气候变化的增加和平均气候的变暖导致了更频繁和严重的事件。 近年来,跨地区和生态系统对可靠的环境预报系统来指导灾害规划和自然资源管理的需求大大扩大。
机器学习方法与对开放访问的高质量环境数据库(即高分辨率原位和遥感观测数据以及基于过程的存档模拟)的广泛访问相结合,允许以出色的计算效率和通常出色的性能对高度复杂的系统和现象进行建模。
Transformer 神经网络的性能优于递归神经网络 (RNN),现在是自然语言处理 (NLP) 建模的当前最先进技术,自然语言处理 (NLP) 建模是人工智能 (AI) 的一个子领域,由于其相似的顺序性质,许多 TSF 框架已经从该子领域进行了改编。TNN 在图像分类等任务中也优于卷积神经网络 (CNN),在空间和时间领域以及视频处理模型时空方面都显示出尖端的建模能力,甚至用于解决强化学习问题。因此,TNN 被认为是深度学习模型中第一个统一的架构,这最终为时空建模的研究和新发展提供了机会,这是 CNN 和 RNN 自己无法做到的。TNN 查找和建模时空模式的能力可能是 TNN 当前最吸引人的优点,以及它们在生成式 AI(例如 ChatGPT)中日益增长的应用。
本研究探讨了 TNN 在两个生态重要区域(和平河流域(佛罗里达州)和墨西哥湾北部(路易斯安那州))跨多个环境变量(溪流、阶段、水温和盐度)执行 TSF 的潜力。使用过去的观测和空间分布的天气预报,对 TNN 进行了测试,并量化了从 1 到 14 天提前预报的每个响应变量的预测不确定性。对经过训练的 TNN 的注意力权重进行敏感性分析 (SA),以确定每个输入变量对预测窗口中每个响应变量的相对影响。总体模型性能从好到非常好(所有变量和预测范围的 NSE 为 0.78 < < 0.99)。通过 SA,我们发现 TNN 能够学习数据背后的物理模式,根据每个预报调整输入变量的使用,并随着预测窗口的增加越来越多地使用天气预报信息。TNN 出色的性能和灵活性,以及突出模型预测决策过程背后的逻辑的直观可解释性,为该架构对其他 TSF 变量和位置的适用性提供了证据。
1 数据来源
本研究中的 TNN 是使用来自美国东南部两个不同地区的数据集开发和测试的。数据集 1 包括佛罗里达州和平河流域的观测和建模径流、阶段和气候数据,包括 24 个测量特征(溪流和标高)、13 个遥感特征(土壤湿度)和 175 个模拟特征(降雨量、比湿度、气温、风速的水平和垂直分量以及太阳辐射),涵盖 2004 年 1 月 1 日至 2020 年 12 月 31 日的时间段。数据集 2 包括 63 个测量特征(溪流和溢洪道排放、溪流和潮汐计高度以及目标盐度和温度)和 530 个模拟特征(降雨量、地表压力、气温以及风速的水平和垂直分量),位于密西西比河流域下游、庞恰特雷恩湖、墨西哥湾北部以及流入它的各州的相邻河流(即 路易斯安那州、密西西比州和阿拉巴马州)以及 2010 年 1 月 7 日至 2020 年 12 月 31 日期间 Bonnet Carre 溢洪道开口的排放量。
2 研究方法
(1)Transformer架构
这项工作中使用的通用 TNN 架构遵循 Vaswani 等人提出的原始序列到序列编码器-解码器框架。TNN 是由 L Transformer 块相互堆叠而成的多层架构。在每个 Transformer 模块中,编码器模块读取并处理输入序列 X 并输出其数字表示,而 decoder 模块读取编码器输出并执行响应变量的预测。
(2)多头注意力机制
注意力机制是 TNN 的支柱。它的功能是以单一序列(自我注意)或不同序列之间(交叉注意力)生成步骤内相互依赖关系的表示。因此,它仍然关注最相关的Ne时间步长,并使用该表示形式预测响应提前 M 个时间步长。注意力机制 A 主要由三个矩阵的后续乘法组成,即查询 (Q)、键 (K) 和值 (V):
其中每个 Q = XWq,K = XWk和 V = XWv将输入序列 X 乘以相应的权重矩阵 (Wq、 Wk、 Wv).这些权重矩阵包含将在训练期间校准的参数,其中对预测响应变量所需的序列中包含的最相关信息进行编码。α 是一个比例因子。softmax 运算是一个归一化指数函数,它将实数向量转换为输出概率分布。
(3) 数据预处理:对输入数据集进行缺失值插补、滚动窗口划分、标准化等预处理操作,并通过随机搜索优化超参数。
(4)模型实现和敏感性分析:使用 TNN 对四个环境响应变量进行预测,包括和平河流域的流量和水位,以及墨西哥湾北部的水温及盐度,采用 k - fold 交叉验证评估模型性能,通过敏感性分析评估模型输出对输入因素的敏感性。
研究结果表明,TNN模型在所有变量和预测范围内的性能从好到非常好(所有变量和预测范围的NSE值在0.78到0.99之间)。通过SA,研究发现TNN能够学习数据背后的物理模式,根据每个预测调整输入变量的使用,并随着预测窗口的增加越来越多地使用天气预报信息。TNN的优异性能和灵活性,以及突出模型预测决策过程逻辑的直观可解释性,为这种架构在其他TSF变量和地点的应用提供了证据。
尽管TNN在环境预测中显示出巨大潜力,但研究也指出了一些限制。首先,TNNs需要大量的数据进行训练,这在数据稀缺的场景中可能是一个挑战。其次,研究中使用的是再分析的天气预报数据,未来的研究应关注使用实际未修改的预报数据进行训练和测试。此外,对于像河口盐度这样的复杂环境变量,较短的数据可用性可能导致模型性能降低。研究还讨论了模型在极端事件预测中的局限性,特别是在训练数据中未包含的极端事件。
该文章题目为“Interpretable Transformer Neural Network Prediction of Diverse Environmental Time Series Using Weather Forecasts”,于2024年发表在《Water Resources Research》,IF=4.6。
引用:López OE ,KaplanD ,LinhossA .Interpretable Transformer Neural Network Prediction of Diverse Environmental Time Series Using Weather Forecasts[J].Water Resources Research,2024,60(10):e2023WR036337-e2023WR036337.
欢迎转载、转发本号发布的内容,可留言或后台联系小编进行授权。未经授权允许的,请勿在其他渠道或平台转载转发。文中部分来源于网络的图片,以及转述他人的内容,如涉及作品版权和其他问题,请留言联系小编处理。
本期编辑:邬欣阳
本期文案:邬欣阳