地理数据缺失？试试空间插值，真的很简单

文摘 2024-08-31 23:59 北京

Python 中的空间插值

在地理数据处理和分析中，空间插值是一项非常有用的技术，特别是在我们面对不完整的地理数据时。无论是在气候数据、环境监测数据，还是人口统计数据中，缺失的数据点都会对分析结果造成影响。在这篇文章中，我们将探讨如何在 Python 中利用空间插值技术，特别是反距离加权法（IDW），来推断缺失的空间数据点，并且会以非洲国家的人口密度为示例进行演示。

插值方法？

反距离加权 (IDW) 是一种简单而有效的空间插值方法，其核心思想基于第一地理定律，即“越近越相似”。具体来说，它假设离已知数据点越近的地方，其未知值越接近这些已知点的值。IDW 方法通过对周围点的距离进行加权平均，从而估算出目标点的值。由于它的直观性和易于实现，IDW 在地理信息系统（GIS）领域中被广泛使用。

数据准备

为了演示 IDW 方法，我们使用 GeoPandas 的内置地图数据集“naturalearth_lowres”。该数据集由 Natural Earth 提供，包含了全球各国家的边界和相关统计数据。我们首先将数据集过滤到非洲大陆，并计算每个国家的人口密度。虽然精确的面积计算通常需要将几何数据转换为投影坐标系，但在本文中，我们将简化处理，直接使用现有的经纬度数据来计算。

# Library import
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt

# Load world countries dataset
gdf = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))

# Filter for Africa
gdf_africa = gdf[gdf['continent'] == 'Africa']

gdf_africa['area'] = gdf_africa.geometry.area
gdf_africa['pop_density'] = gdf_africa['pop_est'] / gdf_africa['area']
gdf_africa.head(5)

在这个数据集中，‘area’代表国家的面积，‘pop_est’是人口估计值，而‘pop_density’则是我们计算得出的人口密度。在接下来的步骤中，我们将模拟一些缺失数据，并使用 IDW 方法来推断这些缺失点的值。

模拟缺失数据

为了测试 IDW 插值的效果，我们将在非洲地图的 GeoDataFrame 中随机选择几个国家，然后人为地将这些国家的人口密度值设为缺失值。

# get a copy of the original data
gdf_africa_missing = gdf_africa.copy()


# Simulating missing data, with 4 randomly picked countries
# By introduce missing values
indices_to_replace = np.asarray([57, 78, 48, 65])  
gdf_africa_missing.loc[indices_to_replace, 'pop_density'] = np.nan

接下来，我们可以将这些数据的原始分布与缺失数据的分布进行可视化对比。

# Show missing data
vmin = gdf_africa_missing.pop_density.min()
vmax = gdf_africa_missing.pop_density.max()

f, ax = plt.subplots(1, 2, figsize=(10, 5))

gdf_africa.plot(column='pop_density', ax=ax[0], cmap='pink', 
                edgecolor='k', vmin=vmin, vmax=vmax, legend=True)

gdf_africa_missing.plot(color='none', ax=ax[1], edgecolor='k')

gdf_africa_missing.plot(column='pop_density', ax=ax[1], cmap='pink',
                edgecolor='k', vmin=vmin, vmax=vmax, legend=True)

ax[0].set_title("Population density - Original", 
                fontsize = 12, pad = 12)
ax[1].set_title("Population density - Missing values", 
                fontsize = 12, pad = 12)

for aax in ax:
    aax.axis('off')

通过这些可视化图，可以清晰地看到原始地图中的人口密度分布以及我们手动设置为缺失的数据点。接下来，我们将使用 IDW 方法对这些缺失数据进行插值。

空间插值

数据准备就绪后，我们可以使用 SciPy 库中的 cKDTree 进行 IDW 插值。cKDTree 是一个快速的 k 近邻搜索算法，用于高效查找距离最近的已知点并计算权重。

# Importing scipy
from scipy.spatial import cKDTree

# Defining e function to perform the IDW
def idw_interpolation(xi, yi, zi, xi_interp, yi_interp, power=2):
    tree = cKDTree(np.c_[xi, yi])
    # k nearest neighbors
    distances, idx = tree.query(np.c_[xi_interp, yi_interp], k=8)  
    weights = 1 / distances**power
    weights /= weights.sum(axis=1)[:, None]
    zi_interp = np.sum(weights * zi[idx], axis=1)
    return zi_interp

# Prepare data for interpolation
gdf_africa_interpol = gdf_africa_missing.copy()
known = gdf_africa_interpol[gdf_africa_interpol['pop_density'].notna()]
unknown = gdf_africa_interpol[gdf_africa_interpol['pop_density'].isna()]

xi = known.geometry.centroid.x.values
yi = known.geometry.centroid.y.values
zi = known['pop_density'].values

xi_interp = unknown.geometry.centroid.x.values
yi_interp = unknown.geometry.centroid.y.values

# Perform IDW interpolation
zi_interp = idw_interpolation(xi, yi, zi, xi_interp, yi_interp)

# Assign interpolated values back to the GeoDataFrame
gdf_africa_interpol.loc[gdf_africa_interpol['pop_density'].isna(),
                        'pop_density'] = zi_interp

此时，插值后的数据已经生成。我们可以将插值后的地图与原始地图并排显示，来观察 IDW 方法的效果。

# Plot the results
f, ax = plt.subplots(1, 2, figsize=(10, 5))

gdf_africa.plot(column='pop_density', ax=ax[0], 
                cmap='pink', edgecolor='k',
                vmin=vmin, vmax=vmax, legend=True)

gdf_africa_interpol.plot(color='none', 
                ax=ax[1], edgecolor='k')

gdf_africa_interpol.plot(column='pop_density', ax=ax[1], 
                cmap='pink', edgecolor='k', 
                         vmin=vmin, vmax=vmax, legend=True)

ax[0].set_title("Population density - Original", \
                fontsize = 12, pad = 12)
ax[1].set_title("Population density - Interpolated", \
                fontsize = 12, pad = 12)

for aax in ax:
    aax.axis('off')

从可视化结果中可以看出，插值地图与原始地图的分布情况非常接近，这表明 IDW 方法在推断缺失数据时表现良好。为了进一步验证这一点，我们将使用相关性分析来定量评估插值的准确性。

结论

在本文中，我们展示了如何在 Python 中使用反距离加权法（IDW）进行空间插值，以推断缺失的地理数据。通过非洲的人口密度示例，我们验证了 IDW 方法的有效性。无论是在科研还是实际应用中，当面临缺失的空间数据时，IDW 都是一种强大且易于实现的工具。掌握这种技术，可以帮助我们在数据不完整的情况下，仍然能够获得可靠的分析结果。

戳我加群学习更多代码（私信小编添加微信群）
地学实践讨论群开放啦！更多数据代码分享，点我进群~

优质实惠的GPT4（师姐AI实习搞的，保障质量）
优质实惠，售后保障的GPT4账号推荐

求求你点个在看吧，这对我真的很重要

地学万事屋

分享先进Matlab、R、Python、GEE地学应用，以及分享制图攻略。

最新文章

重磅！智能遥感新质生产力：目测一大波地学人的饭碗要碎了...

搞科研，原来“模仿”才是最快发论文的方法？

打破记录！“真心建议”各位地学研究生读一下《Nature》这篇文章...

无敌了！python中国地图绘制模板，含九段线，南海诸岛，还不收藏的都是神人了

还不会分析地理数据的空间变化规律？教你可解释的地理加权集成学习方法GWRBoost

物理机制+神经网络=Nature！教你NeuralGCM正刊气象大模型！（含代码）

说句实话，研究生搞科研，哪有什么真正的创新点…

OpenAI重磅更新：发布目前最强推理模型ChatGPT-o1（内含测评和体验方式）

太强了！如何用ChatGPT结合Python处理地学数据

登顶Nature，准备起飞！KAN-UNet又杀疯了（有代码）

裁员了，很严重，大家做好准备吧！

地理学如何进行洪水分析？

全网首发！SWOT水资源卫星数据处理方法（含代码）

我现在每天用GPT帮我进行数据分析...

顶刊技巧！3D绘图！

能发顶刊！可解释机器学习地质灾害分析（附代码）

奉劝各位，失业了就不要再去找工作了

现在还用KAN网络的也是神人了...

绘制地理空间矢量场

诚征男友！98年妹纸，北大本科，人大硕士，部委公务员，偶尔被夸好看，江浙沪独女

半价用ChatGPT，我上车了！

（待会删）请大家低调浏览，地学代码提速300%的绝密技巧！

完美解决Python地学库安装问题（最新）

又一篇遥感顶刊！这个idea简直“ 杀疯了 ”

现在做地学深度学习不用TorchGeo也是神人了...

为啥本科生都能发顶会，而博士一篇都没有？

很重要！快把Python升级到3.13吧（利好机器学习和地学分析）

很严重，大家做好准备吧.....

新版ERA5下载多线程加速，看这一篇就行了

说句实话，研究生搞科研，哪有什么真正的创新点…

地学中常见的归因分析，就是这么简单！【附代码】

SCI遥感一区TOP，再次刷新顶刊巅峰！

地学科研与论文｜这个新方向杀疯了，抓紧学起来…

的确可以封神了！原来写SCI这么简单

【AI+遥感】今天分享几个能发SCI的创新点！

作为一个穷学生，我是这样玩大模型的！强烈推荐！

频发地学顶刊！这个新方向杀疯了，抓紧搞起来

在地球科学中使用ChatGPT4o效果惊呆了…【建议保存】

为啥本科生都能发顶刊，而博士一篇都没有？

机器学习洪水预测

原来idea都是这么找的，强烈建议科研人入局AI！！

免费学习遥感Workshop还送《黑神话：悟空》？教你土地覆盖变化检测及分类制图！

地理数据缺失？试试空间插值，真的很简单

这个工具可以一键下载全球任意地区高分辨率Google影像

一位外国小哥把整个Transformer都给可视化清楚了，这下彻底理解注意力机制了！

为啥本科生都能发顶刊，而博士一篇都没有？

的确可以封神了！原来GPT数据处理这么简单

栅格数据时空序列分析，看这一篇就够了

轰动地学界｜又一篇地学领域顶刊！这个idea简直“ 杀疯了 ”

日结/天130-260，工作简单0基础可做招3000人！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉