论文快报:地理加权建模理论与技术框架

文摘   2024-12-25 21:41   安徽  

  摘要  

根据地理学第二定律,空间数据及其变量关系的异质性或非平稳性特征逐渐成为空间计量分析的重要内容之一。结合第一定律所阐释的空间依赖性原理,涌现了以地理加权回归分析技术为代表的一系列地理加权建模技术,功能层面覆盖描述性、探索性、解释性预测模拟等不同分析需求层次。本文系统梳理了地理加权建模技术理论与技术框架,归纳了其共性特点与核心准则,从前提假设、距离度量、权重计算带宽优选四个方面阐述了地理加权建模技术的基础构成,并从四个分析需求层次讨论了不同地理加权模型的潜在适用范围。但是,现有地理加权建模技术在理论基础、完备性、互补性和时空拓展方面仍然存在一定问题,距离成为一个完整的空间异质性量化分析框架仍然任重而道远。


Part.1

引言

自20世纪50年代开始,在地理学计量革命的推动下越来越多的数理统计方法被引入到地理学相关研究中,尤其空间统计为自然科学和社会科学的广泛研究领域提供重要的分析技术。2004年,Goodchild院士提出了地理学第二定律,亦被称为空间异质性原理,指出地理空间变量及其关系在不同空间位置或区域内所呈现的复杂、多样、各异的地理过程、现象或规律,即空间异质性(Spatial Heterogeneity)或非平稳性(Spatial Non-stationarity)特征。针对空间异质性特征的量化分析研究成为了地学学科研究基础与重要分支,出现了一系列空间统计技术与计量分析方法,如多层级模型、随机系数模型、贝叶斯空间变参数模型、特征向量空间滤波模型和地理探测器技术。其中,结合地理学第一定律所阐释的空间依赖性原理,即地理空间对象及其属性特征在空间上呈现距离衰减作用规律,1996年Brunsdon、Fotheringham和Charlton提出了地理加权回归分析(Geographically Weighted Regression,GWR)技术,按照“距离越近,那么赋予的权重值也就越高;反之,权重值越低”的原则,通过关于空间位置的局部回归分析模型求解量化表征空间变量关系的异质性或非平稳性特征。GWR技术被广泛应用于区域经济学、城市规划、社会学、生态学、公共卫生与健康和环境科学等多个研究领域,已成为空间统计领域空间异质性分析的基础技术之一。

随着GWR技术研究与应用的不断深入,其在带宽选择、假设检验、距离度量等方面不断完善,涌现了基于局部线性估计的GWR技术(Local linear estimation-based GWR)、区域地理加权回归分析方、广义地理加权回归分析(Generalized GWR)、地理加权序数回归分析(Geographically Weighted Ordinal Regression)、多尺度地理加权回归分析(Multiscale GWR)、鲁棒性地理加权回归分析(Robust GWR)、结果不确定性分析、时空地理加权回归分析技术(Geographically and Temporally Weighted Regression, GTWR)、时空地理加权分位数回归分析 和高性能求解方案等拓展技术,极大丰富了GWR技术的应用场景。

在GWR技术发展的同时,面向其他层次的空间数据分析需求,出现了一系列其他地理加权类技术,如面向平均数、标准差、相关系数和协方差等空间数据汇总统计的地理加权汇总统计技术(Geographically Weighted Summary Statistics,GWSS)、面向空间数据降维、理解或指标综合的地理加权主成分分析技术(Geographically Weighted Principal Components Analysis, GWPCA)、面向多元空间变量约束下的目标分类预测的地理加权判别分析(Geographically Weighted Discriminant Analysis)技术、适用空间预测的地理加权人工神经网络技术(Geographically Weighted Artificial Neural Network,GWANN)等,形成了覆盖不同需求层次的空间计量分析技术体系,推动了探索性数据分析、高维数据理解、数据关系解释、变量预测模拟等实践问题从区域局部视角下进行精细尺度地理解与解读。尤其随着地理加权建模工具GWmodel函数包和GWmodelS软件的发布,在遥感、社会经济、生态学、公共卫生与健康、城市地理、乡村振兴和环境科学等领域得到了广泛应用。

而随着以GWR技术为代表的地理加权建模技术及其应用场景的不断拓展,模型误用问题凸显,不同类型的技术在复杂场景下的应用也呈现脱节、碎片化现象。作为对地理学第一定律(空间依赖性)和地理学第二定律(空间异质性)的集中体现,地理加权建模技术遵循统一的核心规则与精细化分析目标,不同技术之间功能互补。从数据分析的需求层次与技术类型来说,其在描述性分析、探索性分析、解释性分析和预测模拟分析方面能够发挥各异、递进、互补的作用与效果。因此,本文对地理加权建模技术理论与算法梳理的基础上,深入剖析地理加权建模技术体系的核心要素,从不同层次的分析需求系统性回顾与剖析现有地理加权模型,以更好地推动与提升地理加权建模技术的创新研发及其跨学科交叉应用服务能力,对丰富与拓展局部空间计量分析技术具有重要意义。

Part.2

地理加权建模技术基础

地理加权建模技术通用的基础流程如图1所示,针对给定的空间位置点 ,首先计算其与数据点之间的距离 ,在带宽优选的基础上利用核函数计算权重矩阵 ,进行关于每一个解算点位置的地理加权模型遍历求解 ,其具有以下四个核心的准则

  1. 地理加权模型的应用假设为空间变量或其关系具有显著的空间异质性或非平稳性特征;

  2. 在地理加权建模过程中,所有的目标统计量或参数估计((对空间关系的度量))均是关于位置的函数,即所有地理加权模型算法是关于空间位置的求解;

  3. 地理加权建模技术通过在每一个位置计算对应的权重矩阵并用于模型解算,进而实现位置-参数或系数对应的模型估计;

  4. 根据地理学第一定律所呈现的空间依赖性(Spatial Dependence)原理,按照距离衰减规律进行权重计算,即针对每个解算位置点,距离越近的数据点所对应的权重也越高,反之亦然。

通过对地理加权建模技术四个核心准则的系统概括,地理加权建模技术框架基础选项包括前提假设、距离度量、权重计算带宽优选四个方面,构成了地理加权建模类技术研发与应用的基础,也是此类技术区别于其他空间计量分析技术的核心特征。

2.1 假设前提

地理加权建模技术的本质属性是针对空间数据变量及其关系的空间异质性特征进行量化分析,因此存在显著的空间异质性或非平稳性特征地理加权建模技术的应用前提。现实中,地理加权模型结果所呈现的异质性或非平稳性表征可能来自以下几个方面:

  • 空间变量及其关系本身存在显著空间异质性或非平稳性特征;

  • 空间数据在不同区域中存在采样偏差;

  • 不合理的模型变量所带来的结果误读;

  • 空间语境信息所带来的交互影响。

在上述情形中,仅第一种情况是采用地理加权建模技术的根本原因,而其他情形下贸然使用此类技术是不恰当的,甚至会造成结果误导。值得注意的是,相比于传统的全局统计方法,地理加权建模技术算法复杂度很高,根据奥卡姆剃刀定律(Occam's Razor),如果传统的简单、易于理解的模型能够很好地解释相关规律,为什么要采用一个更加复杂、需要进行关于空间位置的精细化求解的地理加权模型呢?因此,在实践中应用地理加权建模技术需要慎重选择,合理判断空间数据变量及其关系是否存在显著的空间异质性特征是其应用的必要前提。

在整个地理加权建模技术框架中,地理加权描述性统计中的地理加权平均数、地理加权标准差和地理加权相关系数分别提供了检验单因子和二元变量关系空间异质性特征的直接手段,是探索性空间数据分析过程的首选技术。此外,蒙特卡洛模拟、Bootstrap方法也提供了面向特定地理加权模型非平稳性特征的统计检验途径,如GWR,读者在使用对应模型前进行必要的空间异质性特征检验。

2.2 距离度量

如图1所示,地理加权模型解算首要环节即为分析位置点与数据点之间的距离度量计算。在大多数地理加权算法中,往往将欧式距离度量(Euclidean distance metric, 即直线距离)作为默认选项。但现实地理世界绝对不仅仅是一个简单的几何容器,而是人们通过对复杂空间现象和关系的感知而建立的综合认知空间。因此,针对地理加权建模技术应用的复杂场景,更加多样与灵活的距离度量选择是一个必然趋势。

图1 地理加权建模技术流程


在实际研究中,针对复杂的地理空间有许多距离度量可供选择,如曼哈顿距离(Manhattan distance)、倒角距离(Chamfer distance)、网络距离(Network distance)和语义距离(Qualitative distance)。Longley等指出距离度量的选择主要取决于以下几个方面的因素:1)自然条件(如河流、道路以及其他相关的联通/阻隔因素);2)社会经济因素(如对医院、学校、商场等设施的倾向性);3)行政区域划分(如等级)。因此,在复杂地理度量空间框架下,合理的距离度量选择能够实现地理加权模型系数估计的“微整形”,模型结果更加合理精确,模型应用面和适用性均得到扩展与增强。

为了进一步增强距离度量计算的泛化特征,笔者提出了采用Minkovski距离函数作为基础的距离算子用于地理加权建模过程,其表达式如下:

2.3 权重计算

地理加权建模技术的本质特征是依据地理学第一定律所阐释的空间决定性特征,即随着距离增加而关联影响衰减的现象,在每一个解算位置点计算对应的权重矩阵。理论上讲,任意定义域为、值域为[0,1]的单调减函数均可用于权重计算,即为将距离度量空间映射为权重表达的一种核函数(Kernel function)表达。

在地理加权建模技术的应用过程中,常用核函数包括高斯(Gaussian)函数、指数(Exponential)函数、盒状(Box-car)函数、二次(Bi-square)函数和立方体(Tri-cube)函数,它们的表达式如表1所示。其中,表示位置与位置之间的空间距离或邻近度度量,为常量参数,称为带宽(Bandwidth)。如图2所示,不同的核函数在计算权重时呈现了各异的衰减特征,可依据空间数据分布特征酌情选用合适的函数。

图2 常用核函数示例


值得注意的是,上述核函数是按照以往经验所提出的,而整个地理加权建模技术框架中权重计算环节可采用灵活的核函数,如表1中高斯函数和指数函数也可进行距离阈值限制,也可考虑空间数据的周期性或各向异性特征,进而构造新的核函数以满足对应情形下的模型需求。

表1 常用核函数及其表达式

2.4 带宽优选

核函数是权重计算的关键选择,但在实际的地理加权模型技术应用过程中,往往根据对空间数据初步理解进行一次性选择,而其中常量参数带宽值的定义对于模型结果的影响更大,且更为重要,因此本文将其作为地理加权建模的基础元素之一进行单独讨论。如图3所示,随着带宽值的不断变大,随着距离值的增加权重值减小逐渐趋于平缓,而高斯核函数和二次核函数在不同的带宽值定义下可呈现类似的权重计算效果。

(a)高斯核函数

(b)二次核函数

图3 权重计算与带宽大小关系

在实践中,带宽多被分为固定型(Fixed bandwidth)和可变型(Adaptive bandwidth,又称自适应型)带宽,前者通过定义一个固定的距离常量作为带宽值,后者通过定义最近邻域个数N,将每一个解算位置点的带宽值取为其与第N个最近数据点之间的距离值。带宽值大小直接决定了地理加权模型解算过程中有效数据点的范围,带宽过小,地理加权模型结果则可能呈现极端破碎化现象,导致过拟合风险增加;反之带宽过大,模型结果则会过于平滑,导致空间异质性特征不明显甚至被淹没。因此,在地理加权建模技术的应用过程中,带宽优选是至关重要的前置环节。

一般情况下,不同的地理加权模型求解均可使用交叉验证(Cross validation, CV)方法进行带宽优选,而根据权重计算的特点,多采用留一交叉验证算法(Leave One Out Cross Validation,LOOCV)进行带宽优选。针对GWR模型及其扩展,往往通过信息量准则统计进行带宽优选,如赤池信息量准则(Akaike Information Criterion,AIC)或贝叶斯信息量准则(Bayesian Information Criterion,BIC),当AIC值或BIC值达到最小时,则认为对应GWR模型带宽值达到最优,而且效果更接近潜在的“最优”值。

另一方面,带宽大小直接决定了地理加权模型结果的空间平滑度,即尺度特征,因此不同于传统采用单一尺度(单一带宽值)进行模型解算,采用适用性更好的多尺度模型,即灵活的带宽选择往往是更为明智的选择。


Part.3

面向不同分析层次的地理加权建模技术

在近20年中,地理加权建模技术逐步丰富,呈现了以地理加权描述性统计(GWSS)技术、地理加权主成分分析(GWPCA)技术、地理加权回归分析技术(GWR)及其众多扩展、地理加权判别分析(GWDA)和地理加权人工智能(如GWANN、GW machine learning (GWML)和Geographically neural network weighted regression (GNNWR)为代表的技术分支。本文按照不同的地理加权建模技术特点,按照描述性分析、探索性分析、解释性分析和预测模拟分析四个不同层次的分析需求对地理加权建模技术进行划分,并,集成于R函数包GWmodel 及其姊妹版高性能软件GWmodelS中,技术体系框架结构如图4所示。

图4 地理加权建模理论与技术框架

3.1 描述性分析

描述性分析是统计分析过程中常用的步骤,通过描述性统计量或统计图表发现样本数据的分布与趋势特征,是全面理解数据的基础,也是后续流程的重要参考依据。传统描述性分析方法以全局统计量或基础统计图形为主,如平均值、中位数和方差以及对应的箱线图等,缺少对空间信息及其在空间分布上的非平稳性进行表达。GWSS技术提供了地理加权平均数(GW average)、有序地理加权平均数(Ordered GW average)、地理加权分位数(GW quantile)、地理加权标准差(GW standard deviation)和地理加权偏度(GW Skewness)等局部空间统计量。通过对上述地理加权描述性统计量进行专题图制作,有助于用户快速了解变量的空间分布异质性或非平稳性特征。此外,通过对上述统计量的灵活应用能够达到其他的拓展效果,如利用不同的带宽计算地理加权平均数能够呈现不同的平滑效果,实现“放大镜”式的动画制图效果。

通过上述地理加权描述性分析技术,能够对变量值空间分布的异质性特征进行第一层次的汇总描述,一般可作为地理加权建模技术进行数据分析应用的首个步骤。

3.2 探索性分析

探索性数据分析(Exploratory Data Analysis,EDA)是在不尝试对数据应用任何特定模型的条件下,通过基础的图形和统计分析等手段探索数据基础结构与特征规律,建立对数据直观理解、形成假设和发现可能存在的模式、趋势或结构,为后续的数据建模和假设检验提供必要的支持。相比于传统的全局相关系数,GWSS技术中的地理加权相关系数(GW correlation coefficient)能够更好地发现二元变量间的局部相关关系,为后续GWR模型的变量选择提供参考,以避免局部范围内的强相关带来的GWR模型局部共线性风险。在此过程中,交互式的用户界面设计,则能更好地发挥地理加权相关分析的探索性分析功能。

相对于传统的主成分分析技术,GWPCA技术在考虑多维变量在不同空间位置的结构性差异的基础上,进行关于位置的局部主成分分析,以达到更好的数据降维与信息提取效果,而通过对时间维度的综合考量,也出现了面向时空数据分析的时空地理加权主成分分析技术。GWPCA技术也被用于多元空间异常值探测、遥感影像分类和空间指标综合等场景。

相较于地理加权描述性分析技术,地理加权相关性分析和GWPCA技术既可以用于独立的空间数据探索分析,如要素的局部相关关系分析和精细尺度视角下的多维变量主成分分析,也可以作为下一层次分析的前置分析过程,如利用相关性分析进行GWR模型变量筛选、将主成分分析技术与GWR模型相结合以解决解释变量间的多重共线性问题。但是,此类技术的应用场景与作用远未得到充分开发,在遥感影像融合、空间语义分类以及地理人工智能技术等方面值得进一步探索。

3.3 解释性分析

解释性分析(Interpretive Analysis)泛指利用特定模型或技术理解和解释数据蕴含的关系、模式或关联等,揭示数据表面背后的意义、趋势或影响因素。在地理加权建模技术中,GWR及其拓展是最为流行的解释性分析技术之一,被广泛用于解释城市房价、地下水储量、生态风险等影响要素关系分析案例中。

为了更好地进行要素关系解释,GWR技术在距离度量、带宽、尺度等方面进行基础性改进,出现了混合GWR模型(Mixed GWR)、灵活带宽GWR (GWR with flexible bandwidths)、条件GWR (Conditional GWR)和距离-变量对应的GWR技术(GWR with parameter-specific distance metrics)等多尺度GWR技术。而在GWR技术应用过程中,部分场景下存在多重共线性、统计推论、异常值等问题,也出现了假设检验、参数异质性、局部补偿GWR、鲁棒性GWR和异方差GWR 等众多GWR技术拓展。针对上述GWR技术及其拓展,往往难以选择合适的GWR模型进而导致误用、滥用的现象。如图6所示,COMBER等总结了正确选用合适GWR模型的流程图,展示了需要考虑的基础要素和次要要素,而多尺度GWR也被认为是其应用过程中的首选模型。

图5  GWR模型选择流程图


随着GWR技术在时间维度拓展,涌现了GTWR、时空地理加权分位数回归分析、时空加权回归分析、多尺度GTWR和周期性GTWR等时空统计技术,显著提升了时空变量关系异质性分析的合理性与精度,极大拓展了地理加权建模技术的应用场景与领域。

此外,针对分类变量关系分析,GWDA技术通过关于空间位置的判别函数求解,实现了更加准确的分类变量与解释变量的关系建模,从局部尺度为关系推理提供了新的思路。

3.4 预测与模拟

在充分理解数据与变量关系建模的基础上,精确合理的预测与模拟是数据分析中最高层次的需求,在决策支持、策略规划、风险管理等过程中发挥着关键作用。通过对GWR模型在特定位置点的求解,其与克里金插值技术的结合,能够实现因变量目标值在对应位置的预测,但当预测点位置与数据点位置差异过大时,预测精度会被严重影响。

此外,地理加权建模技术与人工智能技术的融合,产生了GWANN、GWML和GNNWR及其时空拓展GTNNWR等技术,此类技术融合局部尺度拟合与人工智能技术的高精度预测能力,在预测模拟方面表现优异,也被应用于房价预测等多个案例中。

而GTWR模型在时间-空间维度进行精细化求解,使其能够实现时空维度下的预测模拟,如PM2.5、海洋叶绿素a等时空预测场景,而考虑了时间维度周期性特征的GTWR模型对提升预测精度具有重要作用,为空间数据在时间维度上的预测提供了新的思路。

面向类别型变量预测,GWDA技术在构建其与多元解释变量之间的判别函数关系,能够更加准确地进行类别判断与预测,LU等以美国大选数据为例展示了其在分类预测方面的精度提升效果。

值得注意的是,此类模型作为一种典型的局部空间统计技术,通过关于位置的精细尺度求解进而大大提升估计精度,但其预测模拟精度高度依赖训练数据与预测位置之间的匹配程度,并存在一定的过拟合风险,因此读者在使用此类方法进行预测时需要认真评估模型训练结果的泛化特征。


Part.4

总结与展望

本文针对空间数据变量及其关系的异质性特征分析,系统梳理了地理加权建模技术理论与技术框架,归纳了其共性特点与核心准则,并从前提假设、距离度量、权重计算和带宽优选四个方面阐述了地理加权建模技术的基础构成。针对现有的地理加权建模技术,本文从描述性、探索性、解释性和预测模拟四个分析需求层次讨论了不同地理加权模型的潜在适用范围与应用场景,但这种划分仅是对其主要用途的归纳,以期为读者提供直观的技术应用参考,而在复杂应用场景中的技术使用可灵活掌握与选择。

作为一个空间异质性量化分析框架,地理加权建模技术体系的研发仍然任重而道远,存在以下问题或缺陷亟待进一步研究:

1) 现有地理加权建模技术多从模型结果中所呈现的量值差异或波动而被动解释其体现的空间异质性特征,缺乏对空间变量或其关系异质性特征的理论描述与综合认知;

2) 现有地理加权建模技术多集中关注模型求解算法或结果表达,缺少对数据抽样、尺度、统计推断等基础问题的系统归纳与总结,这也是导致模型误用的主要原因之一;

3) 缺乏对地理加权建模技术框架体系的系统性研究,地理加权模型与工具呈现应用碎片化,地理加权建模技术应用也多停留于单一分析层次,不同类型或层次的技术之间互补效果与递进使用需要进一步探索;

4) 为了从“地理空间”走向“深度时空”,地理加权建模技术需要在时间维度进行全面拓展,而此过程面临计算效率瓶颈、尺度不统一、结果表征复杂化等技术瓶颈问题亟待突破;

5)目前虽然存在地理加权建模技术与神经网络、机器学习等人工智能技术的融合,但面向新一代人工智能技术爆发式发展的今天,将地理加权建模技术与新式人工智能技术的融合研究需要全面增强,而大语言模型与生成式人工智能技术的出现也为地理加权建模知识与技术体系理解提供了新的契机,进而实现时空异质性特征的智能化建模与分析。

针对上述问题,地理加权建模技术在空间异质性特征基础统计、基础理论问题、跨层次技术集成应用和时空拓展是其未来研究的重点,以期最终形成技术环节完整与理论基础完备的空间变量关系异质性分析新范式。

论文题目

地理加权建模理论与技术框架

作者信息

卢宾宾,葛咏*,秦昆,董冠鹏

论文链接

http://jors.ijournals.cn/jrs/ch/reader/view_abstract.aspx?file_no=202402240000001&flag=2

期刊

《遥感学报》

地理加权回归建模

飞行大数据

R语言|Python教程

如果对我们的研究内容感兴趣

请扫描上方二维码关注

GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
 最新文章