Stata基础:地理加权回归
学术
2024-11-30 11:37
四川
空间数据在地理学、经济学、环境学、生态学以及气象学等众多领域中广泛存在。根据 Tobler 提出的“地理学第一定律”:任何事物之间都是空间相关的,距离越近的事物之间的空间相关性越大。因此,不同于传统的截面数据,空间数据的空间相关性会导致回归关系的空间非平稳性 (空间异质性)。为了探索空间数据的空间非平稳性, Brunsdon 等(1996)首次提出了 地理加权回归模型,设定如下:以某城市的房屋价格 丫 和房屋面积 X 为例,如果不考虑房屋的地理位置信息,可以建立一个简单的线性回归模型:其中,β为房屋的单位面积均价。实际中,处于不同位置的房屋价格可能会相差甚远,但是模型(2)却不能反映出这种异质性。因此,为了能够描述不同位置房屋价格的差异性,我们可以建立如下模型:其中,β(u,v)是地理位置的函数。相比于模型(2),模型 (3)可以反映房屋价格随地理位置的变化而变化的规律。上述例子说明有必要对空间数据建立地理加权回归模型来探索空间数据的非平稳性。空间统计目前Stata进行地理加权回归主要有命令spregxt以及gwr、gwrgrid等,本文主要简介介绍gwr、gwrgrid命令的基本应用。这两个ado文件之间的唯一区别是,gwrgrid在地理区域上放置一个网格,并在每个网格中心执行回归,而gwr在数据的每个点上执行回归。 本文以Brunsdon等人给出的例子为例进行演示,该案例是1991年英国人口普查中有关汽车拥有率、社会阶层和英格兰东北部泰恩威尔郡男性失业率的一个数据集。familyname选项包括:gaussian | igaussian | binomial [varname|#] | poisson | nbinomial [#] | gamma,即核函数类型。
linkname 选项包括如下内容:identify| log | logit | probit | cloglog | opower # | power # | nbinomial
test:要求测试带宽的重要性。这测试了gwr模型对数据的描述是否明显优于 全局的回归模型。
sample(#)指定在带宽校准过程中使用的观测值百分比,默认为100%。这是特别对于大型数据集很有用,可以减少校准带宽所需的时间。如果指定了该选项,将随机抽取#%的观测数据并用于校准过程。
bandwidth(#)允许用户输入带宽值,并减少gwr运行所需的时间。
nolog抑制带宽优化迭代的显示。
iterate(#)指定在估计带宽时允许的最大迭代次数。默认值为50。
save (filename)创建一个Stata数据文件,其中包含从计算gwr的每个点估算的参数。
outfile(filename)创建文本文件filename。
replace表示save()和/或outfile()指定的文件可以 被覆盖。它也适用于mcsave()选项。
reps(#)指定要执行的蒙特卡罗模拟的数量。默认值为1000。 Brunsdon, C., A. S. Fotheringham, and M. E. Charlton. 1996.Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28: 281–298.