地下水质量调查产生大量数据集,可能需要各种复杂的处理。本文介绍了信息处理和评估的结构,并描述了在此过程中可能出现的一些陷阱。
▲ 地下水浓度比色卡
一旦获得了一组经过验证的地下水水质数据,就需要对其进行处理,以提取其科学和实际意义。这通常应该分三个阶段完成:标准报告、探索性数据分析和假设检验。
标准报告描述了结果的基本呈现,以便其他人了解已经做了什么,并为数据解释打开了大门。主要表现形式是表格,由描述性图支持,如箱线图,强调标准或指导方针的范围和超出,并辅以某一点上单个参数的简单时间趋势和汇总统计,如平均值和中位数等。表格和文字应明确单位和准确性。如果对重复数据进行分析,可能值得注意构成潜在显著差异的因素。报告的一个重要组成部分是说明调查的目的以及由此产生的排除情况。没有一项调查是真正全面的,列出每一种没有测试的化学物质或群体是令人难以置信和虚伪的。然而,一个调查是可以判断是否符合目的的,一个深思熟虑的局限性声明既保护了作者,又有助于读者。
探索性数据分析是数据分析中一个重要但又被低估或误解的部分。在检查大量地下水质量数据集时,很容易过早得出结论,并错过重要的关联。这个阶段可以被认为是假设识别,以开放的心态进行,并以“相关性不是因果关系”这句格言为指导。通过可视化技术最有效地完成数据分析,通常从准备双参数交叉图、参数与深度图以及GIS中的并行制图参数开始。如果将这些点按地质单元、土地利用差异以及井的年龄和所有权进行分类,则这些图形显示的定性解释将大大增强。模式方面,在三线图上显示数据也很有用,例如Piper或Durov图。
假设检验是数据分析的自然继承者,可能涉及许多不同的技术,如统计分析、钻探调查、示踪剂或同位素研究、地球化学建模,甚至流行病学研究。统计检验是假设检验的核心部分,但假设必须先于检验。最好避免使用统计工具对大型数据集进行随机搜索,或者至少持怀疑态度。正如诺贝尔经济学奖得主罗纳德·科斯所说,“如果你折磨数据的时间足够长,它会承认任何事情。”由于无指导的数据搜索既可能产生新的见解,也可能产生混淆,因此建议的预防措施是对统计规程进行预先注册。
虽然地理信息系统(GIS)和地质统计分析不是一个单独的阶段,但它们在评价水质数据方面得到如此广泛的应用且非常重要,值得特别提及。尽管它们的起源不同,但地质统计学(例如克里格及其变体)被视为GIS的扩展,因为它被广泛嵌入标准GIS软件中,并且在理解、分析和交流地下水质量信息方面具有巨大的潜力。然而,像所有的统计方法一样,它可能被误用,因此提供一些注意事项,以帮助它最好地使用。在插值和推断点数据时出现的特别问题包括:
与地下水位不同,许多地下水质量参数不会形成存在于含水层中的连续场。pH、TDS或碳酸氢盐等参数在任何地方都有一个值,可以安全地插入;然而,大多数污染物并非无处不在,因此必须小心指定内插和外推的范围。
概率解决方案,例如最可能的浓度,有掩盖小范围变化的风险,例如在严重污染的含水层中存在一些(关键的)安全井,反之亦然。
同样,由于大多数空间分析是二维的,它们有掩盖垂直变化的风险,例如当存在特定的优质或劣质含水层时。
点数据的插值应尊重地质边界或水文特征,如主要河流。分析应该考虑在这样的边界或特征处截断插值曲面。一般来说,只应在单一含水层内进行分析。
由于所谓的数值偏移,在比较插值曲面的时间序列时需要特别注意,因为在没有记录变化的情况下,一个点上测量到的变化向所有距离的点传播变化。然而,现实中并非如此。相反,有一个尖锐的化学前沿正远离高浓度点,但超过该点则没有变化。
在插入浓度之前,应该对数据集进行测试,看看它是否接近正态分布,如果不是,可以探索各种转换。
地图及其旋转等同物、横断面和三维图像是解释和传播地下水质量信息的有力方法。然而,伴随这种力量而来的是可能产生误导的健康警告。图的样式永远不能代替实质。图的编制现在几乎是一项默认的GIS活动,应该仔细规划,考虑到表示样式、感知心理和背景信息的选择(例如,地质、土地使用、污染源、地表水特征等)。
表示样式的主要选择是在显示点(即,井或泉)信息和插值曲面之间。然而,绘图的基本前提是确定要显示数据的含水层或水文地质单位。如果这些边界作为背景主题显示,则可以显示跨地质边界的点数据,但理想情况下,应该为每个地质单元单独计算插值面。
使用颜色、符号样式和大小的组合来显示点数据是简单且相对安全的,但作者应该意识到这可能带来的偏差。大胆的颜色,如红色,奇异或大符号吸引眼球,有助于读者定位关键地点,但也可能夸大其空间重要性。此外,像红色这样的颜色带有危险的潜意识信息,而绿色或灰色可能会产生相反的效果。通过使符号大小与浓度成正比,可以实现类似的效果;但是,最好避免在同一地图中结合符号大小和颜色。红黄绿灯颜色系统很受欢迎;然而,红绿色盲降低了一些读者的阅读效果。对于这些读者,结合颜色和符号样式(例如,红色三角形和绿色圆圈)是有帮助的。这传达给地图制作者的信息是,颜色和符号的选择不仅仅是美学问题:偏见不一定是错误的,但未被认识到的偏见是危险的。
当数据点密度较大且使用较大的彩色符号时,点图可以过渡到虚构插值曲面。真正的插值表面图基于计算方案,例如逆距离加权、最近邻和克里格方法。方法的选择很重要,但与数据的概念化、编制和提出相比,往往被过分强调,而且在任何情况下,其重要性随着点的密度增加而减少。
表面插值方法已经变得很流行,主要有两种应用方式:要么计算最可能的浓度,要么计算超过浓度阈值的概率,比如饮用水标准。前者更适合描述含水层的性质,而后者更适合描述公共卫生风险。插值曲面中的其他不确定性包括小于检测限值的处理和近似正态分布的数学变换,以防止过于重视少数极值。插值图的一个普遍问题是,由于它们是概率性的,它们有可能掩盖空白中的不可见性;因此确定最大插值距离是很重要的。考虑到水质图中未被充分认识到的不确定性,提供两种或更多不同的表示来强调没有单一的正确图是有很多道理的。
专业软件有可能计算出污染羽的三维图像,并将这些图像动画化,以显示时间变化和运动。该方法最常应用于模型输出,并且可以在演示文稿中产生影响决策的因素,这可能与其科学有效性不成比例。
一种特殊类型的地下水水质图是 Stiff 图(图1)。原始的 Stiff 图允许在单个样品中快速可视化六种主要阴离子和阳离子的绝对数量和相对比例。在地图中的 Stiff 图可以显示一个地区地下水的总体组成是如何变化的。
图1. 地下水 Stiff 图
图2显示了采样问题如何混淆地下水数据解释的示例。在这里,相隔十年的两次家用井中砷调查的插值图表明,地下水污染已大幅减少,但根据抽取的水量,地下水的整体成分不可能发生如此大的变化。这种错觉的产生是因为井用户放弃了受污染的井,转而使用安全的水源,或者在不同深度钻了新井。这两幅地图之间的差异实际上反映了不同地区缓解措施的有效性。这些地图显示了井水中砷的分布,而不是地下水中砷的情况。借用George Box的话,可以说“所有的水质图都有偏见,但有些是有用的。”
在水文地质剖面上绘制地下水质量数据的频率没有达到应有的水平,因为它们能有效地解释地下水污染的基本三维性质。从概念上讲,解释两个单独的二维表示(即地图和横截面)比解释一个三维图像更容易。实际上,将水质数据纳入二维GIS程序比纳入可能为钻孔数据管理而创建的程序更为容易。合适的软件是存在的,但不太容易得到,可能很昂贵,而且熟练的用户较少。当这是一种限制时,分析师不应该羞于依赖手绘或不缩放计算机绘制的截面。这远远优于仅依赖地图演示。
图2. 采样问题造成对地下水水质的错觉
在一个厚的冲积含水层中,两次对浅手动抽水井中的砷进行的调查间隔了10年(图2):第一次是在大多数人不知道砷污染的时候,第二次是在许多井用户试图通过更换井或钻新井来避免砷污染之后。
每张地图都显示了随机钻探的井(顶部150米)产出含砷量超过50 ppb 的地下水的可能性。污染急剧减少的错觉之所以产生,是因为我们的头脑将含水层中地下水的不均匀水质与从井中抽取的水的质量混为一谈。这两张地图都很好地描述了调查时饮用的水的质量,但都没有准确地描述含水层中砷的分布。
(编译于WBG的相关报告)