名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

教育 2024-11-19 14:07 安徽

该课程已经讲解完，感兴趣的小伙伴可以点击文末的阅读原文跳转到 RStata 平台观看～

今天给大家分享使用 R 语言测算中国各城市多中心度与集聚程度的方法。

该指标在附件中的文献「多中心空间结构对中国城市创新绩效的影响_乔艺波」及「中国城市空间结构演化特征和和路径_袁超君」有提及：

接下来我们就按照论文介绍的过程进行计算。

首先加载所需的 R 包：

library(tidyverse)
library(sf)
library(spdep)
library(raster)

其中 spdep 用于计算邻接矩阵、空间滞后和局部莫兰指数。

读取市级行政区划数据：

read_sf("2021行政区划/市.shp") %>% 
  dplyr::select(-contains("类型")) %>% 
  st_make_valid() -> citymap

以广州市为例：

citymap %>% 
  filter(市 == "广州市") -> citytemp

使用 raster 包读取栅格数据：

raster::raster("pop-tif/2000.tif") -> rst

虽然现在比较推崇使用 terra 包进行栅格数据计算，不过 spdep 包不支持 terra 包的对象，所以这里还是使用 raster 包。

裁剪出北京市的：

rst %>% 
  raster::crop(citytemp) %>% 
  raster::mask(citytemp) -> rsttemp

更改成一个统一的名字：

names(rsttemp) <- "popden"

转换成 sf 包的 polygon 对象：

rsttemp %>% 
  raster::rasterToPolygons() %>% 
  st_as_sf() -> rstpoly
rstpoly

#> Simple feature collection with 9011 features and 1 field
#> Geometry type: POLYGON
#> Dimension:     XY
#> Bounding box:  xmin: 112.95 ymin: 22.6 xmax: 114.0583 ymax: 23.93333
#> Geodetic CRS:  +proj=longlat +datum=WGS84 +no_defs
#> First 10 features:
#>    popden                       geometry
#> 1      25 POLYGON ((113.8583 23.93333...
#> 2      19 POLYGON ((113.8667 23.93333...
#> 3      24 POLYGON ((113.8833 23.93333...
#> 4      22 POLYGON ((113.8917 23.93333...
#> 5      22 POLYGON ((113.9167 23.93333...
#> 6      32 POLYGON ((113.925 23.93333,...
#> 7      40 POLYGON ((113.9417 23.93333...
#> 8      36 POLYGON ((113.95 23.93333, ...
#> 9      21 POLYGON ((113.9583 23.93333...
#> 10     21 POLYGON ((113.9667 23.93333...

计算各个多边形的相邻关系：

poly2nb(rstpoly, row.names = row.names(rstpoly), queen = TRUE) -> rstnb

rstnb

#> Neighbour list object:
#> Number of regions: 9011 
#> Number of nonzero links: 66560 
#> Percentage nonzero weights: 0.08197234 
#> Average number of links: 7.386528 
#> 3 regions with no links:
#> 657, 1753, 5027
#> 16 disjoint connected subgraphs

这里的 queen = TRUE 表示使用 queen 规则。

QUEEN 规则（共点或共边即视为邻接）；如果设置为 FALSE，则使用 ROOK 规则（仅共边视为邻接）。

将 nb 对象转换为空间权重矩阵：

w_mat <- nb2listw(rstnb, style = "W", zero.policy = TRUE)
w_mat

#> Characteristics of weights list object:
#> Neighbour list object:
#> Number of regions: 9011 
#> Number of nonzero links: 66560 
#> Percentage nonzero weights: 0.08197234 
#> Average number of links: 7.386528 
#> 3 regions with no links:
#> 657, 1753, 5027
#> 16 disjoint connected subgraphs
#> 
#> Weights style: W 
#> Weights constants summary:
#>      n       nn   S0       S1       S2
#> W 9008 81144064 9008 2519.087 36210.48

计算局部莫兰指数：

localmoran(rstpoly$popden, w_mat) %>% 
  as_tibble() -> local_moran
local_moran

#> # A tibble: 9,011 × 5
#>    Ii         E.Ii          Var.Ii      Z.Ii       `Pr(z != E(Ii))`
#>    <localmrn> <localmrn>    <localmrn>  <localmrn> <localmrn>      
#>  1 0.04770805 -5.298516e-06 0.023869687 0.3088279  0.7574524       
#>  2 0.04875499 -5.382952e-06 0.024250069 0.3131198  0.7541896       
#>  3 0.04802408 -5.312542e-06 0.011963781 0.4391096  0.6605822       
#>  4 0.04759623 -5.340651e-06 0.012027080 0.4340514  0.6642511       
#>  5 0.04748529 -5.340651e-06 0.012027080 0.4330398  0.6649859       
#>  6 0.04710991 -5.200850e-06 0.011712253 0.4353515  0.6633073       
#>  7 0.03292813 -5.090345e-06 0.011463398 0.3075937  0.7583915       
#>  8 0.03598082 -5.145449e-06 0.009268964 0.3737813  0.7085670       
#>  9 0.04775099 -5.354733e-06 0.009645963 0.4862485  0.6267910       
#> 10 0.04757324 -5.354733e-06 0.009645963 0.4844387  0.6280746       
#> # ℹ 9,001 more rows

莫兰指数的取值范围一般在 -1 到 1 之间。

当莫兰指数为正值时，表示数据呈正相关性，即相似的数据点（高值或低值）在空间上趋于聚集。
当莫兰指数为负值时，表示数据呈负相关性，即相似的数据点在空间上趋于分散。
莫兰指数接近 0 时，表示数据之间不存在明显的空间相关性，即数据在空间上随机分布。

计算空间滞后：

rstpoly$lpopden <- lag.listw(w_mat, rstpoly$popden)

合并 rstpoly 和局部莫兰指数计算结果：

bind_cols(rstpoly, local_moran) -> rstpoly

根据局部莫兰指数及其显著性程度，挑选出市域范围内所有人口密度和人口密度的空间滞后值均高于该城市的相应平均值，且在 0.1 的显著性水平上显著的栅格。

rstpoly %>% 
  mutate(mean = mean(popden, na.rm = T),
         lmean = mean(lpopden, na.rm = T)) %>% 
  filter(popden >= mean & lpopden >= lmean & 
           `Pr(z != E(Ii))` <= 0.1) -> rstpoly_main

把邻近的融合：

rstpoly_main %>% 
  st_union() -> rstpoly_main

拆分 polygons：

rstpoly_main %>% 
  st_cast("POLYGON") -> rstpoly_main

# plot(rstpoly_main)

rstpoly_main %>% 
  st_sf() %>% 
  mutate(id = row_number()) %>% 
  dplyr::select(id, everything()) %>% 
  st_make_valid() -> rmdf 

rmdf

#> Simple feature collection with 19 features and 1 field
#> Geometry type: POLYGON
#> Dimension:     XY
#> Bounding box:  xmin: 113.1917 ymin: 22.925 xmax: 113.8417 ymax: 23.55833
#> Geodetic CRS:  +proj=longlat +datum=WGS84 +no_defs
#> First 10 features:
#>    id                       geometry
#> 1   1 POLYGON ((113.4917 23.09167...
#> 2   2 POLYGON ((113.4417 22.98333...
#> 3   3 POLYGON ((113.3833 22.975, ...
#> 4   4 POLYGON ((113.4 22.95833, 1...
#> 5   5 POLYGON ((113.375 22.975, 1...
#> 6   6 POLYGON ((113.4 22.94167, 1...
#> 7   7 POLYGON ((113.3833 22.94167...
#> 8   8 POLYGON ((113.3667 22.95, 1...
#> 9   9 POLYGON ((113.5 23.08333, 1...
#> 10 10 POLYGON ((113.4 23.14167, 1...

下面我们需要找到距离在 2km 范围内的区域再合并起来。为此首先计算各个 polygon 间的距离、过滤出距离小于 2km 的：

st_distance(rmdf, rmdf) %>% 
  as_tibble() %>% 
  mutate_all(as.numeric) %>% 
  mutate(id1 = row_number()) %>% 
  dplyr::select(id1, everything()) %>% 
  gather(contains("V"), key = "id2", value = "dist") %>% 
  mutate(id2 = str_remove(id2, "V"),
         id2 = as.numeric(id2)) %>% 
  filter(dist <= 2000 & id1 != id2 & id2 > id1) %>% 
  dplyr::select(-dist) -> idpair

idpair

#> # A tibble: 22 × 2
#>      id1   id2
#>    <int> <dbl>
#>  1     3     4
#>  2     3     5
#>  3     4     5
#>  4     4     6
#>  5     5     6
#>  6     4     7
#>  7     5     7
#>  8     6     7
#>  9     4     8
#> 10     5     8
#> # ℹ 12 more rows

这里我们就得到了距离在 2km 内的区域对，下面我们借助网络分析的方法把这些合并起来：

library(igraph)
g <- graph_from_data_frame(idpair, directed = FALSE)
# plot(g)

我们需要把相连接的这些区域合并起来。

找到图的连通分量：

components <- components(g)
components$membership -> membership 

tibble(
  id = names(membership),
  group = membership
) %>% 
  mutate(id = as.numeric(id)) -> groupdf 
groupdf

#> # A tibble: 15 × 2
#>       id group
#>    <dbl> <dbl>
#>  1     3     1
#>  2     4     1
#>  3     5     1
#>  4     6     1
#>  5     7     1
#>  6     1     2
#>  7    10     2
#>  8     8     1
#>  9    11     2
#> 10    12     2
#> 11    16     3
#> 12     9     2
#> 13    15     1
#> 14    17     2
#> 15    18     3

然后就可以分组聚合了：

rmdf %>% 
  left_join(groupdf) %>% 
  mutate(groupmax = max(group, na.rm = T)) %>% 
  mutate(group = if_else(is.na(group), id + groupmax, group)) %>% 
  group_by(group) %>% 
  summarise() %>% 
  mutate(group = row_number()) -> rmdf2 

rmdf2

#> Simple feature collection with 7 features and 1 field
#> Geometry type: GEOMETRY
#> Dimension:     XY
#> Bounding box:  xmin: 113.1917 ymin: 22.925 xmax: 113.8417 ymax: 23.55833
#> Geodetic CRS:  +proj=longlat +datum=WGS84 +no_defs
#> # A tibble: 7 × 2
#>   group                                                                 geometry
#> * <int>                                                           <GEOMETRY [°]>
#> 1     1 MULTIPOLYGON (((113.375 22.975, 113.3667 22.975, 113.3667 22.96667, 113…
#> 2     2 MULTIPOLYGON (((113.2417 23.05833, 113.25 23.05833, 113.2583 23.05833, …
#> 3     3 MULTIPOLYGON (((113.8333 23.3, 113.8417 23.3, 113.8417 23.30833, 113.83…
#> 4     4 POLYGON ((113.4417 22.98333, 113.45 22.98333, 113.45 22.99167, 113.4417…
#> 5     5 POLYGON ((113.6083 23.125, 113.6 23.125, 113.6 23.11667, 113.5917 23.11…
#> 6     6 POLYGON ((113.5917 23.54167, 113.5917 23.55, 113.5917 23.55833, 113.583…
#> 7     7 POLYGON ((113.2167 23.375, 113.2167 23.38333, 113.2083 23.38333, 113.20…

再检查有没有 > 2km 的：

as.numeric(st_distance(rmdf2, rmdf2)) -> distmat 
sum(distmat < 2000 & distmat != 0)

#> [1] 0

看来是没有了。

依据面积大于 1 km2 和总人口大于 5 万人的标准，挑选出最终的城市区域，即市域的主中心及次中心。

计算每个区域的总人口：

raster::extract(raster::area(rsttemp) * rsttemp, rmdf2, fun = sum, na.rm = T) %>% 
  as_tibble() -> popres 

popres

#> # A tibble: 7 × 1
#>         V1
#>      <dbl>
#> 1  125111.
#> 2 3025257.
#> 3   59911.
#> 4     763.
#> 5    6413.
#> 6   39301.
#> 7   86020.

计算面积：

rmdf2 %>% 
  st_area() %>% 
  units::set_units(km2) %>% 
  as.numeric() -> area 

rmdf2 %>% 
  mutate(pop = popres$V1 / 10000, area_km2 = area) %>% 
  filter(pop >= 5 & area_km2 >= 1) -> rmdf3 

# plot(rmdf3[1])

其中主中心为：

rmdf3 %>% 
  slice_max(n = 1, order_by = pop) -> maindf

n 为每个城市市域范围内的中心个数 (包括主中心及次中心)：

n <- nrow(rmdf3)

IMP：为每个中心的重要性 = POP x AREA x DIS：

rmdf3 %>% 
  anti_join(maindf %>% st_drop_geometry() %>% dplyr::select(group)) -> subdf 
subdf %>% 
  mutate(DIS_km = st_distance(., maindf)[,1] %>% 
           units::set_units("km") %>% 
           as.numeric()) %>% 
  mutate(IMP = pop * area_km2 * DIS_km) -> rmdfa

对于主中心而言，其重要性为主中心人口、所有中心中的最大面积（通常即主中心本身的面积）和距主中心最远的次中心与主中心之间的距离三者之乘积：

maindf %>% 
  mutate(DIS_km = st_distance(maindf, subdf) %>% 
           max(na.rm = T) %>% 
           units::set_units("km") %>% 
           as.numeric()) %>% 
  mutate(IMP = pop * area_km2 * DIS_km) -> rmdfb 

# 合并两部分结果
bind_rows(rmdfa, rmdfb) -> rmdf4

σ_Cobs 为市域各中心重要性的标准差：

rmdf4 %>% 
  mutate(sigma_Cobs = sd(IMP, na.rm = T)) %>% 
  mutate(sigma_Cmax = sd(c(max(pop, na.rm = T) * max(area_km2, na.rm = T) * max(DIS_km, na.rm = T), 0), na.rm = T)) %>% 
  mutate(polycentricity = 1 - (sigma_Cobs / sigma_Cmax)) %>% 
  st_drop_geometry() -> rmdf5 

rmdf5

#> # A tibble: 4 × 8
#>   group    pop area_km2 DIS_km      IMP sigma_Cobs sigma_Cmax polycentricity
#> * <int>  <dbl>    <dbl>  <dbl>    <dbl>      <dbl>      <dbl>          <dbl>
#> 1     1  12.5     19.8    11.9    2945.   1073098.   1518783.          0.293
#> 2     3   5.99     3.94   38.8     916.   1073098.   1518783.          0.293
#> 3     7   8.60     7.88   17.8    1206.   1073098.   1518783.          0.293
#> 4     2 303.     183.     38.8 2147883.   1073098.   1518783.          0.293

主城区人口在中心区域的集聚程度为主城区中心区域人口与主城区总人口之比：

maindf$pop / sum(rmdf5$pop, na.rm = T)

#> [1] 0.9177738

最后我们就可以把上面的代码封装成一个函数了：get_polycentricity.R。使用：

source("get_polycentricity.R", local = T)
get_polycentricity("北京市", "pop-tif/2000.tif")

#> [1] "pop-tif/2000.tif"

#> # A tibble: 1 × 5
#>   city   rst              polycentricity N_center pop_cluster
#>   <chr>  <chr>                     <dbl>    <int>       <dbl>
#> 1 北京市 pop-tif/2000.tif          0.294        4       0.905

由于该函数里面没有包的加载和矢量数据读取的代码，所以需要确保加载了相关的 R 包和准备好相关的矢量数据才可以使用。

再例如计算广州市所有年份的：

"广州市" %>% 
  tidyr::crossing(as.character(fs::dir_ls("pop-tif"))) %>% 
  set_names("cityname", "rstpath") %>% 
  mutate(res = map2(cityname, rstpath, get_polycentricity)) -> dfres

dfres %>% 
  unnest(res)

#> # A tibble: 23 × 7
#>    cityname rstpath          city   rst      polycentricity N_center pop_cluster
#>    <chr>    <chr>            <chr>  <chr>             <dbl>    <int>       <dbl>
#>  1 广州市   pop-tif/2000.tif 广州市 pop-tif…          0.293        4       0.918
#>  2 广州市   pop-tif/2001.tif 广州市 pop-tif…          0.293        4       0.933
#>  3 广州市   pop-tif/2002.tif 广州市 pop-tif…          0.293        4       0.938
#>  4 广州市   pop-tif/2003.tif 广州市 pop-tif…          0.293        4       0.952
#>  5 广州市   pop-tif/2004.tif 广州市 pop-tif…          0.293        4       0.951
#>  6 广州市   pop-tif/2005.tif 广州市 pop-tif…          0.293        4       0.951
#>  7 广州市   pop-tif/2006.tif 广州市 pop-tif…          0.293        4       0.937
#>  8 广州市   pop-tif/2007.tif 广州市 pop-tif…          0.368        5       0.921
#>  9 广州市   pop-tif/2008.tif 广州市 pop-tif…          0.293        4       0.930
#> 10 广州市   pop-tif/2009.tif 广州市 pop-tif…          0.293        4       0.930
#> # ℹ 13 more rows

绘图展示：

dfres %>% 
  unnest(res) %>% 
  mutate(year = str_extract(rstpath, "\\d{4}")) %>% 
  type_convert() %>% 
  ggplot(aes(year, polycentricity)) + 
  geom_line() + 
  geom_point() -> p
# ggsave("unnamed-chunk-33-1.png", device = png, width = 10, height = 6)

这样我们就得到了广州历年的计算结果。

直播信息

为了让大家更好的理解本文内容，欢迎各位名师讲堂会员参加明晚 8 点的直播课：「使用 R 语言测算中国各城市多中心度与集聚程度」。

直播地址：腾讯会议(需要报名 RStata 培训班参加)
讲义材料：需要购买 RStata 名师讲堂会员，详情可阅读：一起来学习 R 语言和 Stata 啦！学习过程中遇到的问题也可以随时提问！

更多关于 RStata 会员的更多信息可添加微信号 r_stata 咨询：

附件下载（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/4db63085cd024c3eb7a1746af2068498

http://mp.weixin.qq.com/s?__biz=Mzg5ODE0MDgyNQ==&mid=2247519829&idx=2&sn=6cfd6334680e2fb94b730142bac44772

RStata

一起学习 R 语言和 Stata 吧！

使用 R 语言下载和处理日度夜间灯光栅格数据

新增 2023 年！2000~2023 年各省市区县、乡镇人口密度与人口数量面板数据（landscan来源）

新增 2023 年！2000～2023 年各城市多中心程度和人口集聚程度面板数据（Landscan 来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

2000～2022 年各省市区县年度 PM2.5 浓度面板数据

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

RStata 平台课程与数据资料列表

1901~2023 年各省市区县月度降水量面板数据

使用 Stata 绘制江苏省区县地图+湖泊河流分布

使用 Stata 绘制地图课程汇总

2000～2022 年各城市多中心程度和人口集聚程度面板数据（Landscan 来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

2000～2023 年上市公司注册地址与办公地址（含经纬度、搬迁距离及其所处的省市区县）

2000~2022 年各省市区县、乡镇人口密度与人口数量面板数据（landscan来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

2000~2023 年各省市区县 PM2.5 浓度（CHAP来源）数据的基尼系数、泰尔指数及阿特金森指数面板数据

使用 R 语言测算中国各城市多中心度与集聚程度

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

名师讲堂｜使用 Stata 测算 Yitzhaki 指数和 Kakwani 指数——基于 CFPS 数据

名师讲堂｜使用 Stata 测算数实融合水平

名师讲堂｜使用 Stata 计算地方政府竞争衡量指标：矩阵运算的应用

名师讲堂｜使用 Stata 处理专利数据的分类号

名师讲堂｜使用 Stata 计算企业技术相似度：交叉数据集、矩阵运算和 Mata 方法

名师讲堂｜使用 R 语言计算各城市空间形态的紧凑度

1999～2022 年上市公司子公司与所属省市区县边界的距离

2001～2023 年上市公司年报 PDF & TXT 文件合集

名师讲堂｜使用 Stata 计算 Shapley-Shubik 权力指数：以上市公司前 10 大股东份额数据为例

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

名师讲堂｜使用 Stata 测算数实融合水平

2007～2016 年税调数据与专利数据匹配结果

2007～2016年税调公司专利技术空间相似度、企业层面的知识宽度计算结果、新技术空间专利申请及IPC号新增数面板数据

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

2001~2021 年各省市区县不同作物种植制度的耕地面积

ggplot2 系列课程｜ggplot2 中的图层：单一图层、集合图层与统计变换

使用 Stata 绘制长三角 41 省市地图

CHAP-O3年度：2000～2023 年各省市区县年度 O3 浓度面板数据

使用 R 语言处理 Merra2 数据获取各省市区县的比湿、降水量、风速和气压数据

Stata 中文文本分析｜Stata 中的文档主题建模

工具变量！2002-07-04~2024-07-19 中国各省市区县平均云量日度面板数据

工商注册信息匹配服务

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

金融许可证持有机构列表、经纬度及省市区县分布数据（截止 2024 年 8 月 19 日）

使用 Stata 绘制广东省市级双变量填充地图

1985~2023 年各省市区县不同土地覆盖类型的土地面积

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

ggplot2 系列课程｜ggplot2 中的图层：单一图层、集合图层与统计变换

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉