点击名片 关注我们
标题
Title
期刊: Bulletin of Engineering Geology and the Environment
作者:Bin Wu, Zhenming Shi, Hongchao Zheng, Ming Peng & Shaoqiang Meng
年份:2024
1
摘要
滑坡易发性评估在满足防灾减灾的迫切需求方面取得了重大进展。然而,滑坡分布的内在不平衡带来了挑战,因此出现了各种采样策略。但这些策略改变了原始数据集的分布,因此需要更深入地了解它们对易发性制图的影响。本研究整合了俄勒冈州西北部的多源信息,包括形态、地质、水文和土地利用数据,使用平衡和不平衡训练集训练了四种模型——决策树、随机森林、Adaboost 和梯度提升树。结果表明,在不平衡数据集上训练的模型通常表现出更优越的分类性能。使用平衡数据集的模型在较高易发性水平上预测更多的正样本(滑坡),而使用不平衡数据集的模型在较低水平上对更多的负样本进行分类。通过采用 Shapley 可加性解释方法,确定了模型决策的一致性,并确定了五个最具影响力的因素:到道路的距离、坡度粗糙度、地质年龄、粗糙度和海拔。此外,还讨论了假阴性(FN)和假阳性(FP)的后果,得出 FN 可能导致生命损失,而 FP 可能是由于预测不准确、数据集不完整和即将发生的滑坡造成的,因此允许一定数量的 FP。这表明,使用平衡数据集的模型更适合最小化 FN 的数量,并有效地捕捉高和极高易发性区域的滑坡。研究结果为正负样本比例对滑坡易发性的影响提供了有价值的见解,并为优化数据集采样提供了支持。
2
图表
研究区域内滑坡的位置和分布(底图来自 OpenStreetMap)
研究流程图。最上面一行(绿色)代表数据生成。接下来的两行(蓝色和黄色)代表数据预处理。第四行(橙色)代表模型构建步骤。最后一行(紫色)代表模型验证。
展示四种算法的插图:(a)决策树;(b)随机森林;(c)自适应提升;(d)梯度提升树。
研究中制图单元的划分:a)空间分布;b)特征、形状指数,计算方式为 L²/S,其中 L 和 S 分别代表流域的周长和面积。蓝色点代表单个单元,黑色线代表这些单元的核密度估计。蓝色虚线和橙色虚线表示平均值和形状指数,与橙色数字对应的矩形纵横比。
分类器性能:(a)八个训练模型的 ROC(受试者工作特征曲线)和(b)P-R(精确召回曲线)。字母 I 和 B 分别代表不平衡训练集和平衡训练集。
滑坡易发性和密度的空间分布:(a-h)每个模型的滑坡易发性图和(i)研究区域的滑坡密度图。
预测的两种错误类型
3
结论
在这项研究中,使用平衡和不平衡的训练集构建了四种机器学习模型,以评估正负比例对分类性能、空间分布和结果解释的影响。从上述综合分析中,得出了几个重要结论:
(1)考虑到分类器性能和易感性水平的分布,随机森林成为研究区域捕捉滑坡易感性的最有效算法。
(2)认识到具有相似性能得分的模型可以产生截然不同的易感性地图至关重要。由于易感性绘图依赖于空间分布而不是仅依赖得分,因此在面对得分差异不大的情况下,仅基于得分评估模型的有效性是不够的。
(3)SHAP 为解释机器学习算法的决策过程提供了一种定量和可视化的方法,克服了机器学习模型的“黑箱”性质。分析表明,研究区域中影响滑坡易感性的五个最重要因素是到道路的距离、坡度粗糙度、地质年龄、粗糙度和海拔。
(4)虽然在不平衡数据集上训练的模型可能实现更好的分类性能,但平衡数据集更适合滑坡易感性评估。它们确保在高和极高易感性区域更好地覆盖历史滑坡,并降低假阴性的风险,假阴性可能会产生严重后果。
这项研究得出的结论可以应用于具有相似地质特征的地区,这里开发的工作流程适用于其他场景中的模型选择。此外,这项研究在考虑不同滑坡类型的滑坡易感性分析以及识别可能阻塞河流的滑坡方面具有潜在应用。
4
参考文献
扫码关注,欢迎来稿
邮箱丨engeomodel@gmail.com
免责声明
本公众号推广所有论文,仅供学术交流,由于小编水平有限,摘要、图表均为原文内容,文字翻译部分仅代表小编个人理解,本公众号不具该原文的版权。在文献解读或作者简历介绍过程中如有疏漏,我们深表歉意,如涉及侵权问题或冒犯之处,请作者团队及时联系本公众号(邮箱),我们会在第一时间进行修改或删除,感谢您的谅解!