文献分享 | GeoShapley：一种衡量机器学习模型中空间效应的博弈论方法

文摘 2024-07-11 12:26 陕西

文献分享

亲爱的读者们，大家好！

本期我们为大家带来了一篇最新发表在《美国地理学家协会年刊》（Annals of the American Association of Geographers）上的重磅文章。文章题目为《GeoShapley: A Game Theory Approach to Measuring Spatial Effects in Machine Learning Models》。这篇文章的发表日期是2024年6月20日，独立作者是来自Florida State University的Ziqi Li助理教授。

Li, Z. (2024). GeoShapley: A Game Theory Approach to Measuring Spatial Effects in Machine Learning Models. Annals of the American Association of Geographers, 1–21. https://doi.org/10.1080/24694452.2024.2350982

文章亮点

GeoShapley方法巧妙地结合了博弈论和空间分析，为我们提供了一种全新的视角来理解机器学习模型中的空间效应。通过GeoShapley方法，研究人员可以更精准地量化不同地理因素在模型预测中的贡献。

方法简介

GeoShapley方法基于著名的Shapley值，这是一种在博弈论中用于分配合作收益的公平方法。李子奇团队创新性地将Shapley值应用于地理空间数据中，使得我们可以清晰地识别和量化各个地理单元对预测结果的影响。

应用场景

该方法的应用前景非常广泛，包括但不限于：城市规划：评估不同区域规划对城市发展的影响。环境科学：量化环境变量对生态系统的贡献。公共卫生：分析空间因素对疾病传播的影响。

摘要

本文介绍了GeoShapley，一种在机器学习模型中测量空间效应的博弈论方法。GeoShapley通过将位置概念化为模型预测游戏中的参与者，扩展了博弈论中获得诺贝尔奖的Shapley价值框架，这使得能够量化位置的重要性以及位置与模型中其他特征之间的协同作用。GeoShapley是一种与模型无关的方法，可以应用于各种结构中的统计或黑盒机器学习模型。GeoShapley的解释与用于解释空间效应的空间变系数模型和用于解释非空间效应的加法模型直接联系在一起。使用模拟数据，GeoShapley值根据已知的数据生成过程进行验证，并用于七个统计和机器学习模型的交叉比较。通过一个房价建模的经验示例来说明GeoShapley与真实世界数据的效用和解释。该方法可在名为geoshapley的开源Python包使用。

1.前言

近年来，机器学习和人工智能在地理空间现象建模中得到了越来越多的应用。然而，地理学家在理解这些现象背后的关系和过程中面临着“模型黑盒”的挑战。为了解决这一问题，可解释人工智能（XAI）应运而生，旨在提供对机器学习模型决策过程的更深入理解。现有研究表明，XAI可以充当桥梁，将空间统计模型与机器学习联系和融合。在复杂的空间和非空间效应共存且未被充分理解的场景中，机器学习模型可能会优于传统空间统计方法。这是由于传统方法面临线性假设、模型规范和选择以及计算开销等挑战。利用机器学习和XAI的优势，可以更好地探索复杂的空间和非空间效应。

目前，将现有的SHAP方法用于地理空间数据存在两大挑战。首先，由于交互效应是空间效应的关键，SHAP仅支持计算基于树的方法（例如决策树、随机森林、梯度提升树）的交互值。其次，位置特征（例如坐标对或更复杂的位置嵌入）应被视为Shapley值计算中的单个联合参与者。本文通过开发GeoShapley来解决上述两个挑战。GeoShapley同时考虑了联合特征和交互效应，能够以与模型无关的方式测量空间和非空间效应，适用于解释统计和机器学习模型。

2. 正文概述

从模拟和实证例子来看，GeoShapley值为解释机器学习模型的空间和非空间效应提供了一个有用的框架，有助于更好地理解地理空间现象背后的复杂过程和关系。

首先，GeoShapley与模型无关，独立于底层机器学习模型工作，这要归功于Shapley框架和内核SHAP估计器。这允许不同方法之间的交叉比较，从线性回归和空间模型（如MGWR）到更复杂的机器学习模型（如XGBoost和神经网络）。与模型无关的性质也使得其更易理解，因为它避免了深入研究复杂模型结构的内部运作。此外，它可以轻松集成到现有的机器学习管道中。例如，分析师可以直接使用geoshapley Python包来解释从scikit-learn训练的模型。

其次，GeoShapley提供了对空间效应的直观解释，直接链接到加性模型和空间变系数模型的解释。这为地理学家探索使用机器学习来理解更复杂的空间和非线性过程提供了一个熟悉的界面。许多流行的空间统计模型的一个显著限制是它们对线性的假设，这可能忽略复杂的非空间效应，如变量相互作用和非线性。尽管其中一些效应可以通过明确包含相互作用项、非线性组件和数据转换来解决，但这仍然提出了重大的模型规范和选择挑战，特别是当空间模型通常计算成本很高时，无法为大型数据集进行估计。另一方面，机器学习模型具有可扩展性和灵活性，无需对数据分布和函数形式进行强有力的假设，克服了许多这些限制。结合GeoShapley的解释能力，我们可以更好地理解以前未充分开发的大型地理空间数据集中的复杂关系。

第三，GeoShapley可以作为一种诊断工具来改进现有的地理空间数据机器学习方法。GeoAI方法论的许多最新进展都集中在与图像相关的任务上，但相对较少的努力（例如，朱等人，2021；López和Kholodlin，2023）致力于开发表格数据回归的方法，这正是地理学家最常用的数据结构和任务。通过增强的解释能力，开发人员可以更精确地识别现有模型中的问题，并提出旨在提高过程准确性而不仅仅是整体模型准确性的改进。

一些限制和未来的方向值得注意。首先，GeoShapley值的当前实现缺乏形式推理能力。经验示例演示了如何使用引导方法来构建置信区间，该方法提供了有关GeoShapley值不确定性的有用信息。这种方法不可避免地会产生大量的计算开销，因为模型拟合和解释需要重复多次。然而，当数据中等或较小时，如果时间和硬件允许，建议这样做。或者，GeoShapley可以建议潜在的函数形式和数据转换，这些形式和数据转换可以在首选形式统计推断时集成到传统统计模型中。

3. 结论

本文介绍了GeoShapley值作为机器学习模型中测量空间效应的解释工具。GeoShapley从博弈论中的经典Shapley值框架扩展而来，通过考虑位置特征作为模型预测游戏中的参与者。GeoShapley值是基于联合Shapley和Shapley交互框架制定的，并通过内核SHAP进行估计。GeoShapley能够量化模型中的内在位置效应、位置和其他特征之间的交互效应以及剩余的线性或非线性效应。GeoShapley的解释与用于解释空间效应的空间变化系数模型直接联系在一起。GeoShapley的解释精度通过具有已知数据生成过程的真实模型进行验证，并在模拟数据和真实世界数据中证明了其效用。GeoShapley可作为开源Python包geoshapley获得。

4. 核心图表

4.1模拟实例

图1：模型验证方法和真实数据生成过程示意图

表1：二进制Z矩阵示例

图2：GeoShapley值特征贡献排名和分布的总结图

图3：GeoShapley测量的空间和非空间过程

图4：模型解释方法示意图，帮助理解真实模型行为

表2：模拟数据的模型准确性

图5：GeoShapley在不同模型中获得的解释结果的交叉比较。注：DGP = 数据生成过程；LR = 线性回归；RF = 随机森林；XGB = 极限梯度提升；SVM = 支持向量机；GP = 高斯过程；NN = 神经网络；MGWR = 多尺度地理加权回归

4.2实证实例

数据：为了从经验上证明GeoShapley的效用，本文使用了华盛顿州金县大西雅图地区的房价建模案例研究。选择这个案例是因为地理位置对房屋价值的重要性得到了广泛认可。这些数据也被广泛用于展示地理学中的方法论发展。

表3：模型中使用的数据及其描述

图6：预测模型中特征的相关矩阵

表4：房价数据的模型准确性

图7：房价模型中GeoShapley值特征贡献排名和分布的总结图。注：GEO = 位置

图8：房屋特征与其对房价百分比变化贡献之间的边际关系

图9：房价变化百分比：位置影响（A）与位置和房龄的交互效应（B）

互动交流

亲爱的读者们，您对这篇文章有什么看法和见解呢？欢迎在评论区与我们分享您的观点。如果您有任何问题或希望我们介绍其他相关文献，请随时告诉我们。如果您对机器学习、地理空间分析或博弈论感兴趣，这篇文章绝对不容错过！我们强烈推荐大家深入阅读，探索GeoShapley方法的更多潜力和应用。

感谢您的关注和支持，我们下期再见！

-END-

欢迎关注公众号，每周分享优质资源。

供稿 | 严国强

审校 | 宋超

编辑 | 解铭宇

拓展阅读

文献分享丨小区域健康地理研究揭示绿地、空气污染及温度对过早死亡率和发病率的综合影响

研究进展 | 一种面向小区域医疗卫生资源的时空评价体系：揭示中国医院床位县域分布的时空不平等、热点和决定因素

研究进展 | 健康、社会经济、人口和环境因素对COVID-19发病率的影响：来自美国阿肯色州的地理空间建模研究

研究进展 | 公众对COVID-19风险感知的区域时空差异：基于贝叶斯时空变系数（STVC）系列模型的中国城市研究

研究进展 | 全球老龄化时空演变与社会经济（62%贡献）和自然环境（37%贡献）密切相关，其关联存在

http://mp.weixin.qq.com/s?__biz=Mzg4NDY4ODYyNw==&mid=2247484680&idx=1&sn=323f419efd9ef14bce89ebb1b94a1191

医学地理信息与空间卫生统计

分享地理信息科学（GIS）技术、空间统计、时空大数据、地理空间人工智能在医学信息、公共卫生、健康地理等交叉学科领域的前沿资讯。

研究进展 | 空气污染对儿童手足口病的数值、时间和空间异质影响：一项来自中国的多模型县级研究

软著专栏|基于空间自相关的碳排放时空分析系统

文献分享|影响某些非洲国家婴儿和儿童高死亡率现象的社会经济因素：全球化是否在其中发挥了作用？

会议通知｜2024年华西临床医学院（华西医院）院级继续教育项目“管理者”讲坛暨2024年管理研究所管理大讲堂(第8期）

会议预告 | 2024年HEOA卫生政策与经济博士生论坛

文献分享|量化全球健康不平等的变化：研究应用1990-2017年全球疾病负担数据的基尼系数和斜率不平等指数

中国科学院地理科学与资源研究所2024年春季科研岗位招聘启事

研究进展 | 数智驱动医疗卫生服务体系高质量发展：发展机制与实施路径

专刊征集 | 遥感与 GIS 在监测城市化与城市健康中的应用（第二版）

快讯 | 2024 年 HEOA 数智健康研讨会暨 HEOA 学术年会成功举办

经验分享 | 学习英文期刊图形摘要（第二期）

文献分享 | 城乡及教育差异视角：全球孕产妇健康预测模型分析

招聘信息 | 南京师范大学地理科学学院杨沛琦课题组博士后招聘启事

我院2025年接收推荐免试攻读硕士学位研究生和直接攻读博士学位研究生的通知

研究进展 | 贫困与非贫困人口就医行为的差异及其对医疗资源优化的影响

招聘信息 | NASA项目支持！埃默里大学环境科学系博后招聘

研究进展丨中国首套完整县域社会经济数据集：基于渐进时空预测法的缺失值填补

教师节 | 这篇推文，我们一起写(ฅ•̀∀•́ฅ)

会议邀请 | 2024年HEOA数智健康研讨会邀请函

文献分享 | 测量巴基斯坦妇幼死亡率的空间不平等：基于地理加权回归的分析

图书正式出版！《复合链生自然灾害防灾减灾救灾》

学术交流 | 华西健康医学地理课题组精彩亮相“中国地理学会地理模型与地理信息分析专业委员会2024年学术年会 ”

研究进展 | 西南石油大学研究团队成功构建了滑坡易发性评价B-GeoSVC模型-Landslides

学术交流 | 第八届“地理信息和空间分析技术在公共卫生健康领域的应用”研讨会顺利召开

文献分享|基于贝叶斯时空模型的新生儿死亡率(NMR)、婴儿死亡率(IMR)及儿童死亡率(CMR)的时空趋势研究

招聘信息 | 国家卫生健康委统计信息中心科研助理招聘公告

通知 | 第七届“HEOA卫生政策与经济博士生论坛”征稿通知

招聘信息 | 四川大学华西医院·医院管理高级研修项目项目制助理招聘启事

研究进展 | 低资源环境中获得连续性孕产保健服务的空间可及性研究

好文分享 | 燃烧源大气PM2.5造成的全球健康成本研究

文献分享|全球发展指标对五岁以下儿童死亡率的时空影响分析：数据来源于195个国家

会议通知 | 中国地理学会地理模型与地理信息分析专业委员会2024年学术年会通知（第二号）

快讯 | HEOA智库硕士研究生在健康地理前沿学术研讨会作发言

经验分享 | 学习英文期刊图形摘要

资讯 | 施迅教授2024四川大学国际周“健康医学地理”课程圆满结课

文献分享 | GeoShapley：一种衡量机器学习模型中空间效应的博弈论方法

第八届“地理信息和空间分析技术在公共卫生健康领域的应用”研讨会举办通知

会议交流| 课题组研究生参加第五届“一带一路”全球健康国际研讨会

文献分享 | 中国省级痴呆患病率的地理差异

专刊社论 | 地理信息技术和空间卫生统计在健康服务研究中的应用

学术交流 | Henry Chung教授访问四川大学华西健康医学地理课题组

招聘 | 中国科学院地理资源所资源与环境信息系统国家重点实验室特别研究助理(博士后)招聘启事

资源分享 | 健康医学地理、空间卫生统计相关SCI/SSCI/ESCI期刊JCR最新2023年影响因子与分区信息

讲座分享 | Henry Chung：果蝇表皮碳氢化合物(CHCs)对干燥抗性和杀虫剂抗性的演化

会议通知 | 第八届“地理信息和空间分析技术在公共卫生健康领域的应用”研讨会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉