图片来源:Created by ChatGPT-DALL.E
人工智能有望变革许多学科,显著加速科学探索。本文呼吁发展以数据为中心的水工程,以应对不断变化的水挑战。基于水工程从经验和理论范式到当前计算范式的历史演变,我们认为第四范式,即以数据为中心的水工程正在随着最近AI的进步而出现。我们在此定义了一个新的以数据为中心的水工程框架,其中数据通过AI技术驱动的数据转化为知识和见解。提出以数据为中心水工程应遵循三项原则——数据优先、集成和决策。
以数据为中心的水工程的发展需要一个跨学科的研究集群、以及学术界和水行业心态和文化的转变,同时也需要指导AI发展和应用的伦理和风险框架。希望本文能激发研究,加速水行业向数据中心水工程的范式转变,根本上改造水基础设施的规划和管理。
1. 大数据和人工智能的时代
我们的世界正在经历人类历史上最深刻的变革,由大数据和人工智能(AI)驱动。数字技术比我们历史上任何创新进步得更快,随着传感设备和数据设施的激增,我们社会进入了大数据时代。特别是机器学习的AI技术,已经开发并部署用于处理大量数据以解决问题和进行决策任务,显著提高了许多行业的效率和生产力。AI对工业和日常生活的影响才刚刚开始,有可能为人类带来前所未有的利益。
AI可能彻底改变许多学科的科学研究方式,其影响才刚刚显现。计算机科学先驱Jim Gray描述了一种新型的科学研究范式——数据密集型科学,作为继经验、理论和计算范式之后的第四科学范式。包括数学、医学、物理、化学和地球科学在内的广泛基础科学已经受到AI的影响。例如,AlphaFold在预测3D蛋白质结构方面的成功,将蛋白质结构数据库的规模扩大了200倍,有可能加速生物学领域的科学发现。
水工程同样有望受到AI技术的显著影响。水工程是一个应对不断变化世界中可持续水管理复杂问题的工程子领域,通常涵盖水资源、水处理、水分配、雨水和污水系统。AI已经应用到了各种问题中,包括异常检测、预测、资产状况评估、操作、规划和维护,以及开发通往可持续和韧性水系统的路径。尽管水务公司的数字化转型已经取得了很大进展,但各水务公司的发展成熟度仍不尽相同。
2. 水工程的范式
从历史上看,水工程作为一个研究学科和实践专业,经历了经验、理论和计算范式。近年来,水工程中对数据驱动研究和开发的兴趣大幅增加。力求以将数据为中心水工程作为水研究的支柱。在引入新范式之前,简要解释前几种范式,以理解水工程的历史演变。
2.1 经验水工程
水工程可以追溯到古代文明,当时建造了许多水力基础设施用于供水和排水。公元前2950-2400期间,美索不达米亚建造了长长的分支运河,约2500年前斯里兰卡建造了一个复杂的小型水库网络用于灌溉。罗马人以建造复杂的高架渠运输水到远距离城市供水和排水闻名。大约5100年前,在中国良渚建造了由堤坝、堤岸和沟渠组成的大型水力综合体。都江堰是另一个中国工程壮举,建于公元前256年,通过鱼嘴堤、防洪堰和瓶颈渠三大结构共同解决灌溉和防洪问题。
在这个阶段,水工程基于通过观察和理解当地环境和自然现象发展起来的经验法则,而不是科学原理。然而,由于对流体力学知识有限,项目失败或产生意外后果并不罕见,例如罗马人使用铅制水管造成的公共卫生危害。相反,成功的项目如都江堰,得益于对地理和水力的详细理解。先进的水利工程知识通常被认为是古代文明社会、政治和经济发展的关键驱动力。
2.2 理论水工程
直到公元1500年左右,达芬奇在一本书中总结了水力学的最新进展,水力学才有了很大的进步。经典的水工程在17世纪开始发展,随着水力实验和理论的进步。1653年,随着帕斯卡定律的发现,流体力学开始成形。随着数学和物理学的进步,18和19世纪出现了流体力学,一些基本理论逐渐发展,例如伯努利理论、谢茨和曼宁公式、普朗特和冯·卡门定律和纳维尔-斯托克斯方程。实验是确定关键系数、验证理论和理解流体力学的关键工具。仪器的显著进步,例如压力计和皮托管,分别实现了压力和流速测量。另一重要发展是1914年的活性污泥法,帮助解决了许多欧洲城市的水体污染问题而引发的公共健康危机。
水力学理论显著增强了对基本水力行为的理解,与第一范式相比,为快速发展大型和复杂的城市水基础设施奠定了基础。例如,在18世纪中叶,伦敦通过约50公里的木质和铸铁管道网络输送水,由水轮和后来的蒸汽机从河流抽水。然而,在这个阶段,工程师们在构建系统方面的能力远高于进行分析以理解水力行为的能力,因为他们依赖于简化、经验法则和保守主义的结合。
2.3 计算水工程
当数字计算机在20世纪50年代初首次应用于解决水利问题时,水工程进入了一个新时代。早期模型只能解决稳态水力问题,需要在大型主机计算机上进行打孔卡输入,有些水务公司已开始使用此类模型进行流量模拟。随着1970年代个人计算机的普及及其计算能力的迅速增加,基于物理的模型被开发出来,实现更详细的过程和更高的时空分辨率。例如,流体力学模拟维度从1D到2D再到3D逐渐增加,径流过程从块状到亚米级网格单元,水系统建模中,也逐渐将水质、绿色基础设施规划和排放质量许可等问题融入。因此,水信息学作为一个研究领域建立起来,专注于计算机模拟/优化建模以支持明智的决策。
与前一阶段相比,这一阶段显著提高了理解详细过程、预测其行为和在实际实施前评估工程解决方案的能力。计算机实际上被用作水力实验的虚拟实验室。使用计算机模拟和优化,支持水系统规划和管理中的决策已被广泛接受。
2.4 以数据为中心的水工程
数据在水工程历史上一直发挥着中心作用:从观察和测量水过程的活动,通过实验验证物理定律,到建立可用于设计和操作目的的计算机模型。在大数据和AI时代,与过去根本不同的是我们在分辨率、规模和体量上收集、管理和分析数据的能力已经超出了我们的想象。以数据为中心的水工程作为水工程的第四范式正在出现,代表了水系统规划、管理和运营中数据使用的根本变化。
3. 定义数据中心水工程
数据中心工程作为一个新兴的研究领域,位于数据科学和工程的交界处。它是基础物理和化学定律与数据驱动和经验定律的系统融合。由于许多行业数据的日益可用性和AI的进步,数据中心工程近年来获得了显著认可,使得能够利用大量数据理解复杂系统行为并做出明智决策。水工程作为工程学科的一个分支,沿着类似的数据中心工程发展模式。数据中心水工程的框架和关键原则将在下文讨论。
3.1 新框架
在最基本的层面上,水系统可以被认为是一个信息处理系统,尽管是一个极其复杂和动态的系统,因为它处理与流动、水质、资产、社会经济系统以及相互依赖的环境和工程系统相关的各种数据。以数据为中心的水工程在这里被用来描述设计和管理水系统的范式,重点在于数据的处理和管理,可以被视为一个跨专业的学科,将水研究与最前沿的AI技术结合起来,为应对社会和环境变化中的可持续和弹性管理提供有意义的见解、可操作的知识和高性能干预措施。
上图显示了以数据为中心的水工程的新框架,其中数据通道在水基础设施规划和管理以及利益相关者参与中起着核心作用。在数据通道中,从水基础设施、其环境和相互依赖的系统以及各种利益相关者收集数据和信息。它们被输入框架的计算核心——一个集成的数据驱动(即机器学习)和基于物理的建模引擎——以提取新知识和见解。知识和见解应用于水基础设施系统并反馈给利益相关者。这个过程被迭代以满足通过利益相关者参与输入到数据管道中的社会和环境需求。
数据渠道中集成的建模方法,由AI技术支持,与传统建模方法有根本不同。ChatGPT展示了自动化建模和编码任务的能力,我们可以预见其在水文和地球科学以及水资源管理中的应用,建模过程可以自动化,使得数据转化成知识和见解。
3.2 基本原则
我们提出以下以数据为中心的水工程的关键原则,使其与前几种范式根本不同。
3.2.1 数据优先
数据应在水系统的规划、设计、运营和管理中被视为最优级。这意味着数据应在基础设施的每个阶段得到维护和更新。这种方法与传统系统在第三计算范式中的方法形成对比,后者倾向于关注系统的功能和它将支持的过程,而不是数据本身。数据优先原则要求考虑数据相关的活动:获取、传输、存储、策划和分析,并且数据基础设施的设计和管理应成为水基础设施管理的一个集成部分。
水系统现在被视为网络物理系统(cyber-physical systems- CPS),集成传感器、控制器、数据管理和计算能力,以控制和监控物理过程。网络系统应与物理系统在整个生命周期中以集成方式进行规划和管理。这将涉及许多问题,如传感器的最优放置、数据质量保证、传感器异常检测、安全性、主动维护和与其它系统(如通信)的相互依赖性,从而影响投资决策。除了从水系统收集的数据外,还应包括来自其他来源的数据,如卫星、雷达、无人机和社交媒体的天气和地理空间数据,它们可以具有不同的规模和形态,如文本和视频。
3.2.2 集成
以数据为中心的水工程应被视为一个集成框架,不仅统一了之前的经验、理论和计算范式,还提供了一种新的方法,使它们能够互动并改进。这主要体现在数据和信息如何被处理和学习,以形成水系统规划和管理的新知识和见解。
AI与人类集成,在知识和见解的生成中是关键。在之前的范式中,知识和见解的生成主要依赖于人类:基于观测和实验开发和测试物理理论和定律以理解水系统,然后用于建立基于物理的模型,以预测环境变化和人类干预。然而,许多水系统的过程和性质仍然不太理解或在时空上高度异质,特别是在环境变化和规模增加的情况下。这反映在基于物理的模型中的假设和经验关系中。基于物理的模型通常在高计算需求和跨系统和规模转移中需要高人力资源和技能方面存在限制。机器学习的进步提供了一种直接从收集到的越来越多的数据中理解水系统行为的新方法,尽管在提高可解释性和外推方面仍然存在挑战。因此,物理模型和机器学习模型的集成可以有效提高我们开发自然和工程水系统数字表达的能力,并可以用于规划和管理决策。
物理模型和机器学习模型的集成可以采取不同形式。如物理引导或理论引导的机器学习、混合建模和可微建模。然而,一个关键挑战是识别物理和数据驱动模型之间的协同作用,并找到合适的方法来利用AI的力量进行准确的系统建模。最重要的是,AI的进步可以显著提高模型开发的效率,减少所需的人力。例如地理空间AI基础模型的发展,这可以用来重新训练深度学习模型,以适应特定区域,或与水动力模型集成进行洪水模拟。
3.2.3 决策
AI驱动决策自动化。在以数据为中心的水工程中,从决策支持到更高水平的决策自动化是不可避免的。
在第三范式中,计算机模拟和优化模型在涉及水力学、水文学和环境工程的水管理中发挥着越来越重要的作用。然而,这些模型通常被视为一种支持明智决策的工具,通过提高对水系统的理解、估计干预措施的潜在影响或探索决策空间,尽管其范围不限于水系统,还包括与水系统相关的社会经济问题。这被称为“人类参与(human in the loop)”方法,即人类进行决策,而AI只提供决策支持。
与人类参与方法相比,AI驱动的决策方法存在更高的自动化水平:1)无需人类干预,大多数决策自动化,但在极端事件或高不确定性AI系统的例外情况下需要人类干预;2)人类干预协助AI自动决策,但人类审查决策结果并调整未来决策的参数;3)人类不参与的情况下,AI做出每个决策,但人类仅通过设置新约束和目标进行干预,例如响应利益相关者不断演变的需求。
水行业中已经在实现自动化决策。例如,自动化级别不同的控制系统在整个城市供水和污水系统中得到应用,主要用于水和污水处理厂的过程单元控制。通过以数据为中心的水工程,可以预见,自动化系统控制在水系统中变得更加普遍,特别是用于实时控制问题,如泵调度、雨水控制和绿色基础设施控制。此外,与规划、设计和维护任务相关的决策也可以实现自动化,尽管不同级别和不同方式的人类干预可能是必需的。例如预测性维护,通过机器学习监控系统,开发和实施投资计划。这些更高自动化水平的例子意味着需要对参与人员进行不同的培训,因此可能需要更多的培训以接受AI的应用。
4. 前进之路
首先需要一个跨学科的研究群体,发展共同愿景,实现向数据中心水工程的范式转变,这本质上是跨学科的。对于水工程,解决越来越复杂的水问题需要水工程、数据和计算机科学以及社会科学等多个学科的综合知识。在水信息学的背景下,跨学科的方法已经被广泛认可。然而,在AI时代,建立数据科学家和水研究人员之间的跨学科合作变得更加重要,以解决越来越多的数据中高度复杂的水问题。此外,与大IT公司的合作,可能在利用AI解决水问题方面发挥关键作用,因为他们正越来越多地推动AI进步,正如最近AlphaGo、ChatGPT和地理空间AI基础模型的成功所展示的那样。
其次学术界和水行业需要心态和文化的转变,需要改变组织工作方式和水基础设施的管理,包括采用新工具和流程。一个关键挑战是提高组织内的数据素养水平,这意味着工程师和研究人员必须接受培训,以更深入地理解数据及其在改进水管理中带来的价值。开发足够的传感系统和数据基础设施具有挑战性,尤其是对于发展中国家来说,需要大量投资。
再次,需要一个伦理和风险管理框架来解决与AI系统及相关数据使用相关的重要问题。这是成功实施以数据为中心的水工程的基本前提。风险可能在许多方面产生,包括数据隐私、安全、偏见和歧视、不平等和社会不公正、设计错误和滥用。AI系统的故障或设计错误可能对水系统操作产生直接影响,导致水系统故障,甚至影响其它相互依赖系统和带来更广泛的社会问题。例如,当一个AI系统优化城市污水处理过程,但并不考虑直接和间接碳排放时,可能会对全球气候变化缓解产生意外后果。然而,人们也正在采取措施管理AI风险,例如,发布了安全AI系统设计、开发、部署、操作和维护的指南,欧洲AI法案是世界上第一个全面的AI法律,以规范AI的使用。尽管如此,在水行业中,仍需要具体指南。
以数据为中心的水工程正在成为水研究和开发的新范式。通过AI技术驱动,从数据中提取知识和见解,可能是这一新范式的基本特征,并且可以显著提高效率和生产力。尽管挑战可能来自网络物理基础设施、制度治理、社会经济系统和更广泛社会的技术发展方面,我们设想新范式将改变水系统的规划和管理方式,实现水系统的可持续性和韧性。
更多全球数字水务进展,敬请关注第三届IWA数字水务大会,2024年11月12-14日,西班牙毕尔巴鄂市(Bilbao, Spain)。
https://digitalwatersummit.org/
阅读原文:
Guangtao Fu, Dragan Savic, David Butler. Making Waves: Towards data-centric water engineering. Water Research 256 (2024) 121585
https://doi.org/10.1016/j.watres.2024.121585