GEE中之集成堆叠模型（stack ensemble）

学术 2024-09-15 18:00 云南

//代码https://code.earthengine.google.com/bd19f473c37ebe258bfebe5d55ca2fd6?noload=true

集成堆叠模型是一种机器学习集成策略，它集成许多模型来提高模型的整体性能。堆叠的主要思想是将众多基础模型的预测输入到称为元模型或混合器的高级模型中，然后将它们组合起来以获得最终预测。也就是把多个基础模型预测的各个类别的概率输出出来，做为变量，再次输入元模型中进行预测集成堆叠模型模型的结果。

堆叠是一种通过合并多个基础模型结果来提高预测性能的策略，它能减少预测中的偏差和方差，同时通过使用多样化的模型减少过拟合风险，增强对不同数据的鲁棒性。但同时如果每个模型的结果都不好，用stack ensemble那就是大便上面叠大便了(比如我的例子)。

近几年经常有论文结合GEE与stack ensemble在一起，我一直不知道咋弄的，后来通过我的好兄弟GEEer成长日记的提点，知道了MULTIPROBABILITY可输出概率，这样就可以很方便的实现集成堆叠了。

引用与本文无关
爱探索的GEEer，公众号：GEEer成长日记日记128：随机森林分类模型保存与使用讲解

普通的分类方法

var withRandom = SamplePoints.randomColumn('random');// 将样本划分为训练集和验证集var split = 0.7; var trainingPartition = withRandom.filter(ee.Filter.lt('random', split));//筛选70%的样本作为训练样本var testingPartition = withRandom.filter(ee.Filter.gte('random', split));//筛选30%的样本作为测试样本
// 使用训练集进行波段值采样var training = image.sampleRegions({  collection: trainingPartition,  properties: ['landcover'],  scale: 30});print('training',training)// 分类方法选择smilerandomForest()var classifierRF = ee.Classifier.smileRandomForest(37).train({  features: training,  classProperty: 'landcover',  inputProperties: image.bandNames()})// // 对Landsat-8进行分类var classifiedRF = image.classify(classifierRF).clip(geometry);// 使用验证集，对分类的结果进行采样var verification = classifiedRF.sampleRegions({  collection: testingPartition,  properties: ['landcover'],  // tileScale: 16,  scale: 30,});Map.addLayer(classifiedRF, {min: 0, max: 6, palette: ['black','green','lightgreen','pink','red','black','blue']},'分类的结果');// 计算混淆矩阵var confusionMatrix = verification.errorMatrix('landcover', 'classification');print('方法一：confusionMatrix',confusionMatrix);  //面板上显示混淆矩阵print('方法一：Overall accuracy:', confusionMatrix.accuracy());  //面板上显示总体精度print('方法一：kappa accuracy:', confusionMatrix.kappa());  //面板上显示kappa值 print('方法一：User acc:',confusionMatrix.consumersAccuracy())//面板上显示用户精度print('方法一：Prod acc:',confusionMatrix.producersAccuracy())//面板上显示生产精度

stack ensemble分类方法:

在训练数据上训练几个基础模型，我选择了随机森林、svm、梯度提升机、cart作为基础模型，最小距离为元模型

var classifier_RF = ee.Classifier.smileRandomForest(37).setOutputMode('MULTIPROBABILITY');var classifier_SVM = ee.Classifier.libsvm().setOutputMode('MULTIPROBABILITY');var classifier_Cart = ee.Classifier.smileCart().setOutputMode('MULTIPROBABILITY');var classifier_GTB = ee.Classifier.smileGradientTreeBoost(37).setOutputMode('MULTIPROBABILITY');var classifier_MD = ee.Classifier.minimumDistance();

var trained_RF = classifier_RF.train(training, 'landcover', bandnames);var trained_SVM = classifier_SVM.train(training, 'landcover', bandnames);var trained_Cart = classifier_Cart.train(training, 'landcover', bandnames);var trained_GTB = classifier_GTB.train(training, 'landcover', bandnames);

使用基础模型对保留验证数据进行预测

var classified_RF = image.classify(trained_RF);var classified_SVM = image.classify(trained_SVM);var classified_Cart = image.classify(trained_Cart);var classified_GTB = image.classify(trained_GTB);

使用基础模型的预测作为输入特征，在保留验证数据上训练元模型

var classified_RF_C0 = classified_RF.arrayGet(0);var classified_RF_C1 = classified_RF.arrayGet(1);var classified_RF_C2 = classified_RF.arrayGet(2);var classified_RF_C3 = classified_RF.arrayGet(3);var classified_RF_C4 = classified_RF.arrayGet(4);var classified_RF_C5 = classified_RF.arrayGet(5);var classified_RF_C6 = classified_RF.arrayGet(6);var classified_SVM_C0 = classified_SVM.arrayGet(0);var classified_SVM_C1 = classified_SVM.arrayGet(1);var classified_SVM_C2 = classified_SVM.arrayGet(2);var classified_SVM_C3 = classified_SVM.arrayGet(3);var classified_SVM_C4 = classified_SVM.arrayGet(4);var classified_SVM_C5 = classified_SVM.arrayGet(5);var classified_SVM_C6 = classified_SVM.arrayGet(6);var classified_Cart_C0 = classified_Cart.arrayGet(0);var classified_Cart_C1 = classified_Cart.arrayGet(1);var classified_Cart_C2 = classified_Cart.arrayGet(2);var classified_Cart_C3 = classified_Cart.arrayGet(3);var classified_Cart_C4 = classified_Cart.arrayGet(4);var classified_Cart_C5 = classified_Cart.arrayGet(5);var classified_Cart_C6 = classified_Cart.arrayGet(6);var classified_GTB_C0 = classified_GTB.arrayGet(0);var classified_GTB_C1 = classified_GTB.arrayGet(1);var classified_GTB_C2 = classified_GTB.arrayGet(2);var classified_GTB_C3 = classified_GTB.arrayGet(3);var classified_GTB_C4 = classified_GTB.arrayGet(4);var classified_GTB_C5 = classified_GTB.arrayGet(5);var classified_GTB_C6 = classified_GTB.arrayGet(6);var classified_Stack = classified_RF_C0.addBands(classified_RF_C1).addBands(classified_RF_C2).addBands(classified_RF_C3).addBands(classified_RF_C4).addBands(classified_RF_C5).addBands(classified_RF_C6)        .addBands(classified_SVM_C0).addBands(classified_SVM_C1).addBands(classified_SVM_C2).addBands(classified_SVM_C3).addBands(classified_SVM_C4).addBands(classified_SVM_C5).addBands(classified_SVM_C6)        .addBands(classified_Cart_C0).addBands(classified_Cart_C1).addBands(classified_Cart_C2).addBands(classified_Cart_C3).addBands(classified_Cart_C4).addBands(classified_Cart_C5).addBands(classified_Cart_C6)        .addBands(classified_GTB_C0).addBands(classified_GTB_C1).addBands(classified_GTB_C2).addBands(classified_GTB_C3).addBands(classified_GTB_C4).addBands(classified_GTB_C5).addBands(classified_GTB_C6)        var bandnames_MD = classified_Stack.bandNames();
var training_MD = classified_Stack.sampleRegions({collection:trainingPartition,properties: ['landcover'],scale: 30,tileScale:16,geometries:true});
var trained_MD = classifier_MD.train(training_MD, 'landcover', bandnames_MD);

对新数据进行预测并评估堆叠模型的性能

var classified_MD = classified_Stack.classify(trained_MD);Map.addLayer(classified_MD, {min: 0, max: 6, palette: ['black','green','lightgreen','pink','red','black','blue']}, 'classified_MD');//////////////////////////////////////////////////////////////////////var testing_MD = classified_MD.sampleRegions({collection:testingPartition,properties: ['landcover'],scale: 30,tileScale:16,geometries:true});
////////////////////////////////////////////////////////////////////////////////////////////var confusionMatrix2 = testing_MD.errorMatrix('landcover', 'classification');print('方法二：confusionMatrix',confusionMatrix2);  //面板上显示混淆矩阵print('方法二：Overall accuracy:', confusionMatrix2.accuracy());  //面板上显示总体精度print('方法二：kappa accuracy:', confusionMatrix2.kappa());  //面板上显示kappa值 print('方法二：User acc:',confusionMatrix2.consumersAccuracy())//面板上显示用户精度print('方法二：Prod acc:',confusionMatrix2.producersAccuracy())//面板上显示生产精度

哈哈哈哈哈，stack完反而结果变差了。

Reference

https://medium.com/@brijesh_soni/stacking-to-improve-model-performance-a-comprehensive-guide-on-ensemble-learning-in-python-9ed53c93ce28

http://mp.weixin.qq.com/s?__biz=MzI4OTU3NTY1OA==&mid=2247508644&idx=1&sn=5e63c829cbeeadcfd883b357c1b7c0a8

走天涯徐小洋地理数据科学

一个爱生活的地理土博，分享GIS、遥感、空间分析、R语言、景观生态等地理数据科学实操教程、经典文献、数据资源

最新文章

基于栅格数据计算重心转移模型——以NDVI重心转移为例

读博士，去哪找那么多创新点？水水得了...

使用 R 语言下载和处理日度夜间灯光栅格数据（二）

应用PLUS和MCCA模型的高被引论文汇总（截止2024年10月）

地学顶刊一区Top期刊JAG期刊发表空天院研究生（gee学习室高级学员）学术研究成果

GIS遥感R语言文献计量综述数据分析可视化加这个就够了

HA.214 [水土流失]人为土壤侵蚀占据中国水蚀的一半，在农业密集区尤为严重

中国1986-2021逐年30米耕地数据集介绍以及如何在Google Earth Engine中快速调用

利用GEE解读纹理信息|植被与地质的差异性

geemap下载LAI年度最大值合成数据

【课程预告】geemap下载遥感影像

你回家的路有多长？

geemap下载MCD12Q1土地覆被数据

ggplot2 系列课程｜使用 ggplot2 进行数据可视化：导论（二）

最新进展 | 艾滋病防控新视野：时空分析揭示中国疫情发展关键节点

论文推送 | MapGPT：集成大语言模型和制图工具的自主制图框架及软件

诺贝尔奖颁奖在即！Nature通过大数据分析总结通往诺奖之路！选择导师尤为重要！

趁假期快来给你的GIS遥感R语言技能充充电

HF.089 | 从雨滴到河流：双AI打造超凡概念机制图！

R语言 | 群落加权均值（CWM）的计算及争议

Google Earth Engine平台中使用深度学习和传统模型进行水产养殖区识别对比研究

趁假期快来给你的GIS遥感R语言技能充充电

会议预告 | 2024年陆地遥感产品前沿动态及数据使用学习大会

招聘！国家地球系统科学数据中心招聘科研助理的启事

可用的WGS84标准制图国界矢量，含未定国界线、海岸线等

开学了你的SCI论文数据分析技能可不要落伍哦

读博士，去哪找那么多创新点？水水得了...

RSE最新前沿|苏黎世联邦理工大学发表全球高精度人口分布数据

AI辅助地理配准，一键完成

大数据科普——什么是图数据库？

有人在卖所谓高精度5米DEM数据，擦亮眼睛谨防上当

geemap安装、运行一个简单程序，交互式地图报错如何解决

开学了你的SCI论文数据分析技能可不要落伍哦

ggplot2 系列课程｜使用 ggplot2 进行数据可视化：导论

9月23日申请截止! 南丹麦大学招聘“建筑与循环经济”方向玛丽居里博士三名

【302篇原创教程】GIS遥感R语言rgee文献计量技术文章目录

【课程预告】GEE+ChatGPT入门

HF.090 | 我们的云雨图，可不一般！

明天讲的硬核课程！使用 R 语言下载和处理日度夜间灯光栅格数据

wget批量下载遥感影像

可用于机器学习的数据集资源，需要的可以来瞅瞅看。

论文推送 | 融入地理知识的深度学习中国气候区时空局部气候区制图以及热环境探索

GEE中之集成堆叠模型（stack ensemble）

超难的课程！使用 R 语言下载和处理日度夜间灯光栅格数据

wget批量下载遥感影像

又一篇地学顶刊！这个idea简直“ 杀疯了 ” ....

学会这一招，研究论文的流程图示意图就会十分“高大上”，论文就会源源不断地accept

50亿元计划——为什么卫星遥感数据标注如此重要

从搜索热度上看ArcGIS的衰退

开学了你的SCI论文数据分析技能可不要落伍哦

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉