《IJGIS》:解锁空间过程的新视角:可视化分析助力地理模型解释

文摘   2024-11-22 21:18   安徽  

本推文来源:未名时空



内容导读


理解地理变量的空间过程是地理分析中的核心任务。近年来,XAI方法在地理分析中的普及给空间过程的研究提供了新的视角。然而,更高级的数值解释方法并不必然带来更准确或负责任的空间过程的判断。地理变量的空间过程常具有异质性和复杂的交互性,容易导致数值分析方法得出误导性的结论。例如,地理上的辛普森悖论或遗漏变量可能会导致错误的相关性解释。针对这个问题,我们认为可视化作为一种重要的地理信息的高维特征表征手段,能够有助于引导人们发现正确的结论。如图1所示,可视化分析已经在事实上被作为一种空间分析的必要环节 (Geo visual analytics), 通过对数据进行空间制图,来揭示有关变量空间过程的的辅助信息。然而,目前的可视化分析往往只关注变量本身的空间分布,与模型解释环节独立,作为两个并行的部分帮助人们判断空间过程。当前,将模型解释与可视化分析结合(图1中红色箭头)的潜力尚未被充分挖掘。我们认为二者的结合能够有助于正确的地理模型解释,引导人们进行正确的推理与地理知识发现(我们会在后面进行论证)。因此,我们提出了GeoVisX,这是一种模型无关的可视化框架,适用于所有旨在揭示空间过程的空间分析任务,包括因果推断和相关性分析。

图1. 地理推理与知识发现的基本过程:红色箭头表示主流分析方法未重视的环节,将模型解释与可视化分析结合



可视化分析与模型理解结合的必要性:

空间数据的本质说起


尽管各种解释性算法,包括XAI,被广泛应用于理解各种变量之间的复杂关系,但其在地理问题中的应用需要得到特别关注,这主要是由于空间数据的特殊性质。见图2左边的示意图:首先,数据的生成过程在空间中存在异质性。因此,在探究地理变量的空间过程时,必须重视结论可能会因不同位置或不同空间归并方法而有所不同。其次,地理变量通常不是独立的,而是相互之间具有复杂的交互关系。在实际地理研究中,通常难以收集所有相关变量,导致基于现有数据识别真正影响地理变量分布的因素常常面临挑战。这些空间数据的特性对XAI在地理变量上的应用提出了挑战,但通过结合可视化分析,可以解决其中一些问题。

图2. 可视化分析帮助理解空间过程


图2a展示了空间可视化分析如何帮助避免对地理现象的错误解读。地理变量固有的空间异质性意味着,在全局层面观察到的趋势和关系可能在局部层面不一致,甚至相反,从而导致地理空间上的辛普森悖论。如图2a所示,尽管在整个研究区域内,变量X和Y之间的关系为负相关(图中灰点和灰色区域所示),但基于另一个变量Z的值进行分组后,在每个子组内,X和Y却表现为正相关(图中彩色区域所示)。变量Z可能代表自然环境因素或行政区划规定。

图2b展示了可视化分析能够通过发现遗漏变量以加深对空间过程的理解。在研究区域内,变量X和Y之间存在显著的非线性关系(如图2b中的灰点和灰色区域所示)。然而,当将这种关系映射到空间并引入其他变量Z1 Z2 进行可视化分析后,我们发现X和Y之间的关系实际上可能受到变量Z1的影响。基于Z1的数值分组(绿色区域和橙色区域)后,观察到X和Y在每个分组内呈现出显著的线性关系。在这一过程中,可视化技术不仅帮助我们理解X和Y之间的正确关系,还协助我们识别潜在的混杂因素Z1



GeoVisX:面向地理解释的可视化分析

框架 


如图3所示,GeoVisX 对地理变量的可预测性和不确定性进行双重探索,因此我们采用了两步训练策略(图3a)。具体来说,在解释可预测性的任务中,我们将完整数据集和测试集进行了两步划分(图3a)。

在第二步中(图3b),GeoVisX 将可解释性机器学习与预测性机器学习模型相结合,以理解地理变量的空间分布。随后,我们计算机器学习模型在人口预测中的误差,并使用相同的过程,利用这三个解释变量对误差进行建模和预测,从而揭示解释变量对模型预测误差的贡献。在第三步(图3c)中,在通过可解释性机器学习模型获得空间过程的统计结果后,GeoVisX 将数据进行三个角度的空间可视化:解释变量对被解释变量影响的空间映射,解释变量影响与其交互作用的空间映射,以及两个不同解释变量影响之间相互作用的空间映射。

图3. GeoVisX的框架



Case study:理解人口空间分布的可预

测性不确定性



我们选择慕尼黑的人口分布作为case study,使用GeoVisX来展示可视化分析对于理解空间过程的重要性。

在图4中,我们选取了四个变量来可视化它们对人口分布贡献的空间分布。有趣的是,夜间灯光在大多数人口密集区域通常会提升人口数量,这一点可以通过点的大小来体现。然而,在慕尼黑的市中心区域,这种影响却呈现负值。该区域主要由商业区和大型交通枢纽组成。因此,过多的夜间灯光可能更多地来源于商业活动,而非居民生活。此外,我们的研究发现,建筑高度在城市中心促进了人口的集中。相反,在郊区,由于建筑高度较低,人口密度受到限制,导致居民较少。图4c和4d还显示,在慕尼黑市中心,居民人口受到教育和餐饮等娱乐活动的积极影响。

图4. 变量对人口贡献的空间分布


图5展示了变量“建筑高度”(height)和“建成区比例”(p_urban_fa)之间的交互效应。结果表明,在大多数人口密集区域,这两个变量对人口增长均有正向贡献。然而,在某些区域,我们观察到“建成区比例”具有正向作用,但“建筑高度”却产生了负面影响。为深入分析,我们对特定区域进行了可视化分析,判定该区域为慕尼黑的宁芬堡区。在这一区域内可以清晰地看到一条分界线,揭示了两种不同的空间人口分布过程。左侧社区中,“建筑高度”对人口产生负面影响,而右侧社区则呈现正向作用。通过在卫星图像上的直观核查发现,这两个社区的住房结构存在显著差异。左侧主要由低层别墅组成,而右侧则以较高的住宅楼为主。对于高层住宅,较高的楼层通常可容纳更多居民;然而,在别墅区,建筑高度的增加并不会显著提升内部的居住人口数量。

图5. 建筑物高度与建成区比例与人口分布的交互关系


在图6中,我们进一步探索了可视化分析在理解人口分布空间过程中的潜力,我们选择教育POI密度作为例子,对它的特征值与其的模型解释值(i.e. SHAP value)进行了双变量可视化。在慕尼黑的郊区,尽管教育资源的数值较低,但对人口分布具有正向影响。这表明教育设施在郊区潜在人口增长中起到了重要作用。在慕尼黑的城市区域,虽然教育资源的数值较高,但其对人口分布的影响并不总是显著。如选定的局部区域所示,深红色点标记了教育促进人口分布的区域,主要集中在慕尼黑的两所大学周边。这表明大学吸引了人们因教育目的选择在其附近居住。然而,在远离大学的区域,即使有众多初等学校(主要是幼儿园,小学,中学)存在,教育对人口增长的影响并不强。这说明在城市区域,影响人们居住选择的因素更加多样化,包括就业机会、周边自然环境和休闲活动等,初等学校的作用相对较小。

图6. 教育特征值与其对人口贡献的交互效应



讨论


地理变量的空间过程极为复杂,通常涉及多个变量之间的交互。在地理分析中,由于大量相关变量的存在,识别和收集所有影响空间分布的因素变得困难,限制了我们对空间过程的深入理解。例如,人口分布的空间过程在城乡边界可能表现出显著差异。如果在XAI分析中未将这些差异作为解释变量,仅凭统计数据难以明确原因。地理变量的独特性在于其数值在空间上呈现出特定的模式(Spatial pattern)。通过比较不同地理变量的空间模式,可以揭示解释性变量的相对影响。如果某一结果的空间模式与某特定变量的空间模式一致,该变量可能是空间过程的关键因素。这表明,可视化分析不仅是数据呈现的工具,更是理解地理变量分布的有效手段,能够提供超越统计特征的洞察力。

GeoVisX是一种模型无关的可视化框架,适用于因果推断或相关性分析等任何空间过程的探索。其设计目标并非提升统计模型中因果或相关性估计的精度,而是帮助避免地理数据分析中对结果的误解。空间异质性使变量间的关系因地而异,而聚合统计分析往往掩盖这些模式。地理变量之间的复杂交互也使高维数据分析容易受到隐藏混杂效应的影响。GeoVisX通过结合XAI模型的输出,提供对空间过程更深入的洞察,缓解这些问题。

我们认为可视化分析不仅限于简单的数据制图与展示,而是探索高维空间中空间过程的有效工具。其直观性使研究者能够识别传统分析模型遗漏的细微模式,揭示更复杂的洞察。特别是,可视化分析能够展现全局分析中被掩盖的局部变化,通过比较局部模式与其他变量的相似性,发现新的潜在变量或混杂因素。这种方法在处理复杂地理数据集及其复杂交互方面尤为有效,为地理科学提供了新的研究方向和实践路径。



Takeaways


在GIS研究中,除了对高级复杂任务和算法的追求,一些看似简单的任务和基本事实可能仍未得到充分重视与讨论。在本研究中,我们想要呼吁这样一个简单的理念:在进行地理空间的解释性任务时,请务必结合空间视角进行观察。



文献参考


Luo, P., Chen, C., Gao, S., Zhang, X., Majok Chol, D., Yang, Z., & Meng, L. (2024). Understanding of the predictability and uncertainty in population distributions empowered by visual analytics. International Journal of Geographical Information Science, 1–31. 

https://doi.org/10.1080/13658816.2024.2427870


GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
 最新文章