澳大利亚科廷大学张泽华博士、美国佛罗里达州立大学李子奇、科廷大学宋泳泽在国际一区期刊 International Journal of Geographical Information Science (IJGIS) 发表论文 “On ignoring the heterogeneity in spatial autocorrelation: consequences and solutions” 《论空间自相关性的异质性》。论文提出了“异质的空间自相关模型” Heterogeneous Spatial Autocorrelation (HSA) Model 解决空间自相关性的异质性问题。
张泽华:https://sites.google.com/view/zehua-zhang/home
李子奇:https://sites.google.com/view/ziqi-li/home
宋泳泽:https://yongzesong.com/
文章提出在空间自回归过程(spatial autoregressive process)中空间自相关性存在的异质性,并提出 ”异质的空间自相关模型” 经过蒙塔卡罗模拟,应用在交通地理的案例中。本文对先前的空间自回归模型做出了异质性假设的补充,可替代传统空间滞后模型进行应用。各个地理单元具有统计显著的不同的自相关强度,可以为空间规划提供更多信息。
空间自回归(SAR)模型通常用于显式地考虑地理现象背后的空间依赖性。然而,传统的SAR模型是使用单一SAR系数进行设定的,这意味着假定空间依赖性在空间上是恒定的。这一假设过于简化了真实空间自回归过程在强度上存在变异的情况,忽略异质性自相关的后果尚需讨论。本研究通过扩展空间滞后模型(SLM),提出了一种异质性空间自相关模型。新模型包括变点检测,用于识别空间自相关强度变化的模式,使用SAR系数矩阵来表示异质性空间自相关,并通过最大似然估计确定多个SAR系数。蒙特卡洛模拟显示,所提出的方法在建模具有异质性自相关模式的SAR过程时效果显著,而传统SLM在未考虑异质性自相关结构时会导致回归系数的不确定性膨胀。我们进一步将新方法应用于澳大利亚大珀斯地区交通事故的实证分析。异质性空间自相关模型将模型的均方根误差(RMSE)减少了42%(相比传统SLM)。从模拟和实证研究的结果表明,SAR过程及相关应用中应考虑空间自相关强度的空间变异性。
空间依赖性是指空间上观测值之间的相互依赖现象,其程度通常通过空间自相关来衡量(Anselin 1988, 2010)。空间自回归(SAR)模型常用于明确考虑空间依赖性,其模型中的空间影响潜藏于地理现象之下(Fischer and Wang 2011)。SAR模型类别包括一系列修正后的模型规范,如空间滞后模型(SLM)、空间误差模型(SEM)和空间Durbin模型,这些模型带有地理邻近性的额外空间滞后效应(Fotheringham 2009, Anselin et al. 2010)。SAR模型中的空间滞后效应通过SAR系数矩阵、定义位置间空间连接性的空间权重矩阵,以及空间变量值的矩阵乘积来表示(Anselin and Griffith 1988, Anselin and Rey 2010)。SAR模型的发展在空间计量经济学中具有重要意义(Baltagi et al. 2007, Arbia and Baltagi 2009),其应用领域扩展到需要解读地理信息的各种研究领域。这些领域包括但不限于交通规划(Rhee et al. 2016)、城市分析(Gao et al. 2020)、社会科学(Lambert et al. 2010)和环境建模(Yin et al. 2018)。
传统的SAR模型假设空间自相关的强度和方向在地理空间内是均质的,因为它们使用单一的SAR系数值进行估计(Harris 2019)。然而,这一假设忽略了空间自相关强度的变异性,在这种情况下,应估计多个自回归系数以反映这种复杂性并避免潜在的模型误设。近年来,在这方面取得了一些进展,研究者们尝试使用地理加权回归(GWR)重新估计空间自相关强度及其空间变异性(Brunsdon et al. 1998, Geniaux and Martinetti 2018)。
空间自相关的非平稳性通常可以通过两类空间过程建模,包括基于二阶方差的模型和SAR模型。尽管对空间建模中非平稳性空间自相关效应的讨论已有广泛探索,但主要是通过二阶方差方法(Fouedjio 2016)。在这些克里金模型中,空间依赖结构或空间自相关的理解通常通过半变异函数或空间协方差来表示(Goovaerts 1997)。空间自相关的非平稳性反映了二阶方差效应的特征,需要仔细考虑以避免误识别一阶趋势效应(Schabenberger and Gotway 2005)。在较大或复杂的研究域中,空间依赖结构可能仅在局部区域内保持平稳性,而从全球视角来看则表现出非平稳性(Sampson et al. 2001)。为了更准确地建模非平稳性空间依赖性,提出了一系列技术,包括分割(Stein et al. 1988)、移动窗口(Haas 1990)、基于核的模型(Fuentes 2001, Harris et al. 2010)、基函数(Holland et al. 1999)和卷积方法(Higdon 1998, Higdon et al. 1999, Paciorek and Schervish 2006)等(Lindgren et al. 2011)。
然而,非平稳性空间依赖性在SAR模型或基于空间权重矩阵的指标中的影响仍未得到充分研究。LISA或SAR模型中的空间滞后项所反映的空间自相关变异性,受地理邻近值的强烈影响(Anselin 1988, 1995)。对每个地理单元的空间自相关强度尚未得到充分考虑。因此,有必要进一步研究在SAR框架内全面理解和建模这些效应。
在SAR过程中,空间自相关的非平稳性最初通过空间变异的自回归模型进行探索和量化,其中SAR系数使用地理加权方法重新估计(Brunsdon et al. 1998)。尽管对模型假设的讨论以及分析空间自相关强度变异性必要性的探讨较少,空间变异的自回归模型证明了地理加权方法在量化SAR系数变异性方面的可行性。随着对SAR过程的进一步探索,一种涉及非平稳性空间自相关强度的新型空间数据生成过程,即混合GWR-SAR被提出(Geniaux and Martinetti 2018)。然而,关于忽略异质性空间自相关的后果的最终结论,尚未清晰地提出以证明考虑SAR过程中的非平稳性空间自相关强度的必要性。此外,MGWR-SAR如何通过空间自相关强度的变异性来提供信息性决策建议,或讨论其与地理邻近性或特征交互的关联性,也未在研究中呈现。在最新使用地理加权方法的SAR模型研究中(Mei and Chen 2022),仍然存在忽略异质性空间自相关及其空间决策潜力的知识空白。
表1总结了两类空间过程的空间依赖性的表示方法,以及反映非平稳性空间依赖性的相应技术。基于二阶方差的空间模型在非平稳性空间依赖性方面的研究进展相对成熟,而SAR模型目前主要依赖地理加权方法来展示非平稳性空间自相关强度。先前基于地理加权的SAR过程假设空间自相关的连续变异性。相反,我们通过残差分析解决了异质性空间自相关的问题。我们的异质性空间自相关模型是Anselin(1988)提出的传统SAR模型的扩展,并假设空间自相关强度的变异性可以被分层或分类。
异质的空间自相关模型Heterogeneous Spatial Autocorrelation Model以空间滞后模型(spatial lag model)为例,并对其进行拓展。该模型主要由两部分计算构成:(1)通过分析spatial lag model的残差来识别异质的空间自相关的空间结构;(2)将空间自回归系数转换成空间自回归系数矩阵,结合(1)种识别的空间结构来表达异质性,然后通过最大似然估计来得到变量的回归系数,以及每个分区下的空间自回归系数(自相关强弱)。
具体来说,对于(1):如果一个具有异质性的空间自回归过程用传统空间滞后模型来模拟,原本的空间自相关强的地理单元会残留更大的误差(可以理解为:数据生成过程中从周围吸收了更多空间效应),通过这一特性,分析Y变量和残差的关系,用稳健地理探测器的变化点检测就可以对全局进行分类。
(2)原本空间滞后模型的空间自回归系数其实可以等价转换成一个对角矩阵(每个对角元都是rho,其余元素等于0)的表达,结合变化点检测的分类的信息,就可以根据不同分类区域对应的拆开空间自回归系数的对角矩阵(比如分类1就得到一个“子对角矩阵”,只有分类1对应的对角元有取值,或有效的spatial lag value,其余元素等于0 ),最后用最大似然估计得到系数(本文用R语言nlminb方法)。这个方法会消耗额外的自由度来估计空间自相关系数,所以,建议分类数量少(分类数量可以根据需要自己定义),保证统计显著性。
在各个研究领域中,假设空间自相关均质性的SAR模型仍然广泛用于SAR过程的建模。然而,当空间自相关强度存在变异时,传统SAR模型在估计自变量的beta值和SAR系数时会存在不可靠性或不确定性。本研究对异质性空间自相关对传统SAR模型的影响进行了初步调查,并提出了通过残差分析提取代表空间自相关强度变异的地理结构的策略,同时提出了一个带有广义SAR系数矩阵的调整版SLM,用于重新估计SAR过程。
蒙特卡洛模拟研究表明,调整后的SLM在识别出异质性空间自相关模式后,能够精确地重新估计SAR过程。我们的方法在识别具有施加和接收溢出效应变异的地理结构方面表现出特别的鲁棒性。与传统SLM相比,在交通地理的实际案例研究中,我们的调整版SLM具有更好的拟合度。然而,调整版SLM的表现很大程度上依赖于对异质性空间自相关模式的识别。因此,未来的研究工作需要寻找更好的方法来识别空间自相关强度的变异,尤其是在面对更复杂的情境时,这些方法应能适用于更多SAR系数显著不同的群体。
SAR models with a homogeneous assumption of spatial autocorrelation remain prevalent in the modeling of SAR processes in various research fields. However, traditional SAR models estimate the beta values of independent variables and SAR coefficients with unreliability or uncertainty when there are variations in the strength of spatial autocorrelation. This study conducted a pilot investigation of the impact of heterogeneous spatial autocorrelation on traditional SAR models and proposed strategies to extract geographical structures representing the variation in spatial autocorrelation strength through residual analysis, together with an adjusted SLM with a generalized SAR coefficient matrix to re-estimate the SAR processes.
A Monte Carlo simulation study showed that the adjusted SLM can precisely re-estimate SAR processes after the identification of heterogeneous spatial autocorrelation patterns. Our methods are particularly robust in recognizing geographical structures with variations in imposing and receiving spillover effects. Our adjusted SLM also has a better goodness of fit than the traditional SLM, given a real-world case study on transport geography. The performance of our adjusted SLM relies largely on the identification of heterogeneous spatial autocorrelation patterns. Thus, future research efforts are required to find better approaches to identify the variation in spatial autocorrelation strength with suitability for more complicated cases where more groups of SAR coefficients are significantly different.