文献分享
亲爱的读者们,大家好!
本期我们为大家带来了一篇最新发表在《美国地理学家协会年刊》(Annals of the American Association of Geographers)上的重磅文章。文章题目为《GeoShapley: A Game Theory Approach to Measuring Spatial Effects in Machine Learning Models》。这篇文章的发表日期是2024年6月20日,独立作者是来自Florida State University的Ziqi Li助理教授。
Li, Z. (2024). GeoShapley: A Game Theory Approach to Measuring Spatial Effects in Machine Learning Models. Annals of the American Association of Geographers, 1–21. https://doi.org/10.1080/24694452.2024.2350982
文章亮点
GeoShapley方法巧妙地结合了博弈论和空间分析,为我们提供了一种全新的视角来理解机器学习模型中的空间效应。通过GeoShapley方法,研究人员可以更精准地量化不同地理因素在模型预测中的贡献。
方法简介
GeoShapley方法基于著名的Shapley值,这是一种在博弈论中用于分配合作收益的公平方法。李子奇团队创新性地将Shapley值应用于地理空间数据中,使得我们可以清晰地识别和量化各个地理单元对预测结果的影响。
应用场景
该方法的应用前景非常广泛,包括但不限于:城市规划:评估不同区域规划对城市发展的影响。环境科学:量化环境变量对生态系统的贡献。公共卫生:分析空间因素对疾病传播的影响。
摘要
本文介绍了GeoShapley,一种在机器学习模型中测量空间效应的博弈论方法。GeoShapley通过将位置概念化为模型预测游戏中的参与者,扩展了博弈论中获得诺贝尔奖的Shapley价值框架,这使得能够量化位置的重要性以及位置与模型中其他特征之间的协同作用。GeoShapley是一种与模型无关的方法,可以应用于各种结构中的统计或黑盒机器学习模型。GeoShapley的解释与用于解释空间效应的空间变系数模型和用于解释非空间效应的加法模型直接联系在一起。使用模拟数据,GeoShapley值根据已知的数据生成过程进行验证,并用于七个统计和机器学习模型的交叉比较。通过一个房价建模的经验示例来说明GeoShapley与真实世界数据的效用和解释。该方法可在名为geoshapley的开源Python包使用。
1.前言
近年来,机器学习和人工智能在地理空间现象建模中得到了越来越多的应用。然而,地理学家在理解这些现象背后的关系和过程中面临着“模型黑盒”的挑战。为了解决这一问题,可解释人工智能(XAI)应运而生,旨在提供对机器学习模型决策过程的更深入理解。现有研究表明,XAI可以充当桥梁,将空间统计模型与机器学习联系和融合。在复杂的空间和非空间效应共存且未被充分理解的场景中,机器学习模型可能会优于传统空间统计方法。这是由于传统方法面临线性假设、模型规范和选择以及计算开销等挑战。利用机器学习和XAI的优势,可以更好地探索复杂的空间和非空间效应。
目前,将现有的SHAP方法用于地理空间数据存在两大挑战。首先,由于交互效应是空间效应的关键,SHAP仅支持计算基于树的方法(例如决策树、随机森林、梯度提升树)的交互值。其次,位置特征(例如坐标对或更复杂的位置嵌入)应被视为Shapley值计算中的单个联合参与者。本文通过开发GeoShapley来解决上述两个挑战。GeoShapley同时考虑了联合特征和交互效应,能够以与模型无关的方式测量空间和非空间效应,适用于解释统计和机器学习模型。
2. 正文概述
从模拟和实证例子来看,GeoShapley值为解释机器学习模型的空间和非空间效应提供了一个有用的框架,有助于更好地理解地理空间现象背后的复杂过程和关系。
首先,GeoShapley与模型无关,独立于底层机器学习模型工作,这要归功于Shapley框架和内核SHAP估计器。这允许不同方法之间的交叉比较,从线性回归和空间模型(如MGWR)到更复杂的机器学习模型(如XGBoost和神经网络)。与模型无关的性质也使得其更易理解,因为它避免了深入研究复杂模型结构的内部运作。此外,它可以轻松集成到现有的机器学习管道中。例如,分析师可以直接使用geoshapley Python包来解释从scikit-learn训练的模型。
其次,GeoShapley提供了对空间效应的直观解释,直接链接到加性模型和空间变系数模型的解释。这为地理学家探索使用机器学习来理解更复杂的空间和非线性过程提供了一个熟悉的界面。许多流行的空间统计模型的一个显著限制是它们对线性的假设,这可能忽略复杂的非空间效应,如变量相互作用和非线性。尽管其中一些效应可以通过明确包含相互作用项、非线性组件和数据转换来解决,但这仍然提出了重大的模型规范和选择挑战,特别是当空间模型通常计算成本很高时,无法为大型数据集进行估计。另一方面,机器学习模型具有可扩展性和灵活性,无需对数据分布和函数形式进行强有力的假设,克服了许多这些限制。结合GeoShapley的解释能力,我们可以更好地理解以前未充分开发的大型地理空间数据集中的复杂关系。
第三,GeoShapley可以作为一种诊断工具来改进现有的地理空间数据机器学习方法。GeoAI方法论的许多最新进展都集中在与图像相关的任务上,但相对较少的努力(例如,朱等人,2021;López和Kholodlin,2023)致力于开发表格数据回归的方法,这正是地理学家最常用的数据结构和任务。通过增强的解释能力,开发人员可以更精确地识别现有模型中的问题,并提出旨在提高过程准确性而不仅仅是整体模型准确性的改进。
一些限制和未来的方向值得注意。首先,GeoShapley值的当前实现缺乏形式推理能力。经验示例演示了如何使用引导方法来构建置信区间,该方法提供了有关GeoShapley值不确定性的有用信息。这种方法不可避免地会产生大量的计算开销,因为模型拟合和解释需要重复多次。然而,当数据中等或较小时,如果时间和硬件允许,建议这样做。或者,GeoShapley可以建议潜在的函数形式和数据转换,这些形式和数据转换可以在首选形式统计推断时集成到传统统计模型中。
3. 结论
本文介绍了GeoShapley值作为机器学习模型中测量空间效应的解释工具。GeoShapley从博弈论中的经典Shapley值框架扩展而来,通过考虑位置特征作为模型预测游戏中的参与者。GeoShapley值是基于联合Shapley和Shapley交互框架制定的,并通过内核SHAP进行估计。GeoShapley能够量化模型中的内在位置效应、位置和其他特征之间的交互效应以及剩余的线性或非线性效应。GeoShapley的解释与用于解释空间效应的空间变化系数模型直接联系在一起。GeoShapley的解释精度通过具有已知数据生成过程的真实模型进行验证,并在模拟数据和真实世界数据中证明了其效用。GeoShapley可作为开源Python包geoshapley获得。
4. 核心图表
4.1模拟实例
图1:模型验证方法和真实数据生成过程示意图
表1:二进制Z矩阵示例
图2:GeoShapley值特征贡献排名和分布的总结图
图3:GeoShapley测量的空间和非空间过程
图4:模型解释方法示意图,帮助理解真实模型行为
表2:模拟数据的模型准确性
图5:GeoShapley在不同模型中获得的解释结果的交叉比较。注:DGP = 数据生成过程;LR = 线性回归;RF = 随机森林;XGB = 极限梯度提升;SVM = 支持向量机;GP = 高斯过程;NN = 神经网络;MGWR = 多尺度地理加权回归
4.2实证实例
数据:为了从经验上证明GeoShapley的效用,本文使用了华盛顿州金县大西雅图地区的房价建模案例研究。选择这个案例是因为地理位置对房屋价值的重要性得到了广泛认可。这些数据也被广泛用于展示地理学中的方法论发展。
表3:模型中使用的数据及其描述
图6:预测模型中特征的相关矩阵
表4:房价数据的模型准确性
图7:房价模型中GeoShapley值特征贡献排名和分布的总结图。注:GEO = 位置
图8:房屋特征与其对房价百分比变化贡献之间的边际关系
图9:房价变化百分比:位置影响(A)与位置和房龄的交互效应(B)
互动交流
亲爱的读者们,您对这篇文章有什么看法和见解呢?欢迎在评论区与我们分享您的观点。如果您有任何问题或希望我们介绍其他相关文献,请随时告诉我们。如果您对机器学习、地理空间分析或博弈论感兴趣,这篇文章绝对不容错过!我们强烈推荐大家深入阅读,探索GeoShapley方法的更多潜力和应用。
感谢您的关注和支持,我们下期再见!
-END-
欢迎关注公众号,每周分享优质资源。
供稿 | 严国强
审校 | 宋 超
编辑 | 解铭宇
文献分享丨小区域健康地理研究揭示绿地、空气污染及温度对过早死亡率和发病率的综合影响
研究进展 | 一种面向小区域医疗卫生资源的时空评价体系:揭示中国医院床位县域分布的时空不平等、热点和决定因素
研究进展 | 健康、社会经济、人口和环境因素对COVID-19发病率的影响:来自美国阿肯色州的地理空间建模研究
研究进展 | 公众对COVID-19风险感知的区域时空差异:基于贝叶斯时空变系数(STVC)系列模型的中国城市研究
研究进展 | 全球老龄化时空演变与社会经济(62%贡献)和自然环境(37%贡献)密切相关,其关联存在