滑坡易发性评价是危险性评价和风险性评价的前提和基础,不仅可以有效预测滑坡发生的时空概率、影响范围和程度,评估承灾体损失大小和易损概率,还可以指导滑坡灾害治理工程设计及施工。当前,滑坡易发性评价模型众多,包括基于常规数理统计的信息量模型、比率模型、基于概率函数的确定性系数模型、基于模糊理论的模糊综合评判模型、基于启发式的层次分析模型以及基于机器学习的深度模型等。
机器学习模型的重要特点是模仿人类学习行为和方式。围绕该领域的相关研究曾在2020 年进入地球科学热点前沿Top10 榜首,核心论文 47 篇,被引频次1580。机器学习本质上属于数据驱动模型,即通过算法在海量数据中挖掘潜在信息,建立数据联系,寻找现象背后的本质规律,用于解决现实世界的分类、回归、聚类等科学问题。其先后经历了推理期、知识期和学习期,在20 世纪80 年代进入归纳学习期和机器学习期,21 世纪初期进入深度学习阶段。未来,机器学习将进入智能模拟阶段,成为先进生产力发展的重要推动力量。当前,机器学习模型主要有证据权重模型(Weights of Evidence,WoE)、贝叶斯模型(Bayesian,B)、逻辑回归模型(Logistic Re⁃ gression,LR)、决策树模型(Decision Tree,DT)、随机森林模型(Random Forests,RF)、支持向量机模型(Sup⁃port Vector Machine,SVM)、遗传算法模型(Genetic Algo⁃ rithms,GA)和神经网络模型(Neural Network,NN)等。证据权模型(WoE)最初在地质矿产评价领域开展应用,后逐步应用于地质灾害易发性评价领域。该模型实质是一种基于贝叶斯准则和数据驱动的多元统计方法,即根据滑坡灾害发生与证据因子之间的关联程度对各证据因子贡献大小作出判断。证据权模型评价效果与评价因子的选取有很大关系,不同的因子组合会带来不同的评价效果。在运用证据权模型时,必须开展滑坡易发性评价因子分析和研究,以提高证据权模型评价精度和效果。基于贝叶斯模型(B)的滑坡易发性评价最早由 Lee 等于2002 年引入。贝叶斯模型是通过计算滑坡评价指标的联合概率分布获得其对滑坡的贡献值大小。贝叶斯模型主要有贝叶斯网络模型(Bayesian Network,BN)和朴素贝叶斯模型(Naive Bayes,NB),前者预测精度和效果总体优于后者。逻辑回归模型(LR)属广义线性回归模型,线性回归方程经由Logit 变换,对滑坡发生概率 P 和不发生概率(1-P)的比值取自然对数而建立。该模型实则通过训练已知样本滑坡数据预测未知样本发生滑坡事件的概率,即将滑坡事件定性为二元分类因变量,通过建立滑坡与非滑坡的1~0 二元关系实现滑坡事件与影响因子之间的非线性映射 ,基 于该映射预测任一评价单元滑坡事件的发生概率。决策树模型(DT)是空间数据挖掘中的重要分类模型, 该模型自发展出ID3 方法后被广泛接受,此后陆续出现C4.5 算法、C5.0 算法及其他改进算法模型。显式树形表达是决策树模型的分类特性。决策树模型首先训练已知样本生成一组语义明确的决策规则,再应用该决策规则对未知样本数据进行分类,模型的过拟合情况可以通过剪枝作归并处理。相对于人工神经网络模型,决策树模型更易于从生成的决策规则中发现问题和寻找规律。随机森林模型(RF)最早是由 Breiman提出的一种机器学习模型,是决策树模型的集成与发展。该模型允许样品可以放回地抽取若干样本组合,以决策树为底层算法对不同样本进行训练,形成随机森林算法,运用该算法对未知样本数据进行分类预测。最终预测结果由投票决定, 可以是得票数最大值,也可以是各分支得票数的平均值。未被抽取的样本数据为袋外数据,可作为验证数据参与内部误差估计。随机森林模型可以有效避免过拟合现象, 在一定程度上降低了对数据噪声和异常值的敏感性。支持向量机模型(SVM)的基本思想是通过某种映射核函数,将非线性输入向量映射到一个高维特征空间,以便使不同类型的数据点呈现明显的、尽可能大的空间区分,进而获得最优分类超平面。该模型具有较强的学习能力、良好的分类效果和可靠的预测能力,已广泛应用于滑坡易发性评价研究。其突出优点是在训练样本数量有限的条件下,致力于解决高维、非线性问题的数学模型,并可以获得较好的分类预测效果。支持向量机的相关理论最早由Vapnik 等提出,并应用于函数逼近回归估计和信号处理领域,进而发展到多分类应用系统,并由早期只能处理 50 000 个训练数据发展到今天不限数据量的可能。Ma 等首次将该模型引入国内滑坡灾害预测研究领域,开启国内支持向量机模型在地质灾害领域研究的热潮。遗传算法模型(GA)遵循优胜劣汰的进化原则,模拟生命进化机制和生物界自然选择,对包含可能解的样本数据进行基因编码,反复使用遗传学的选择、交叉和变异等基本操作,不断使样本种群持续进化和优化,通过开展适应性评价和全局搜索获得符合要求的最优解。人工神经网络(Artificial Neural Network,ANN)模型是一种针对非线性统计数据开展回归或分类的监督学习模型。当前,BPNN 模型和卷积神经网络(Convolutional Neural Networks,CNN)模型居于主流。BPNN 模型是一种包含输入层、隐含层和输出层(见图4),以神经元为基本单位,数据可以通过激活函数实现从输入层到输出层的非线性正向映射,由损失函数评估模型误差,再通过梯度下降法优选参数和调整各层神经元之间的权值、阈值,使模型输出结果满足误差要求。CNN 模型包括卷积层、池化层、全连接层和SoftMax 层,其中卷积运算是其关键环节,卷积层实质是对输入数据进行线性变换和映射,实现对输入数据特征的提取。池化层通过最大池化和平均池化等方式获得数据空间分布特征信息。全连接层则将数据空间分布特征信息映射到样本空间,去除拓扑关系后以向量形式传递至SoftMax 层,进而完成评价单元滑坡概率计算和结果输出。资料来源:潘网生,蔚秀莲,赵所毅.机器学习模型在滑坡易发性评价中的应用现状与发展趋势[J].软件导刊,2024,23(07):13-24.