推荐一个不错的思路:地理模型+机器学习!

学术   2024-11-27 18:25   浙江  
你在研究植被动态的时候,用XGBoost-SHAP模型(解释机器学习模型预测的方法)探究影响因子对植被变化的解释程度;
你在研究生态系统服务的时候,用XGBoost-SHAP模型揭示生态系统服务变化的关键指标和阈值效应;
你在研究生态安全格局的时候,利用XGBoost优化算法参数,你在研究城市热岛相关问题时,用XGBoost模型筛选相关变量或者说确定预测最佳尺度等问题。

这些是不是比传统方法做起来要新颖一些呢?不管是地学还是其他领域,实际上都能用这个模型!

目前大多数研究使用SHAP作为机器学习解释工具,但鲜有研究用SHAP的时候同时考虑到空间信息,推荐一个不错的思路:即使用局部解释方法从机器学习模型中提取空间效应。局部解释方法包括哪些?比如地理加权回归模型(GWR)、考虑到带宽问题的多尺度地理加权回归模型(MGWR)等。那么利用MGWR+SHAP,即机器学习加地理模型,我觉得挺不错。

当然,不管是机器学习还是传统方法,再怎么变,本质上都属于统计分析方法,XGBoost、LightGBM等只不过是能够分析相对复杂非线性关系的统计算法,结合SHAP或者自带特征排序方法,兼具变量可解释效果。所有的传统统计方法以及基础的机器学习算法无非就是分类与回归问题,逻辑上很简单明了,作为科研工作者,要想发顶刊,还要在这个基础上,多注重研究背景的创新。即便是传统的统计分析、地理统计玩儿的明白,照样能发顶刊。祝我们科研路上,一路长虹!(来源:生态遥感前沿)

要掌握机器学习,不妨看一下我们的课程


从零基础掌握Python机器学习与深度学习


【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】


Python 绝对是机器学习的“亲儿子”,几乎所有主流的机器学习库都是基于 Python 开发的。比如大家耳熟能详的 TensorFlow、PyTorch、Scikit-learn 等,都有庞大的用户群体和极其活跃的社区。你只要遇到问题,基本上 Google 一下,Stack Overflow 上就会蹦出无数类似的问题和解答。


最关键的是,Python 的生态系统十分完善,机器学习全流程都有对应的库和框架,从前期的数据清洗到模型的部署,你都能找到工具。



课程内容

第一模块 Python基础知识串讲(4课时)

1、Python编程环境搭建(Anaconda安装Python之Hello World;第三方模块的安装与使用)

2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释)

3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环)

4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用)

第二模块 Python科学计算(4课时)

1Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套)

2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用

3、实操练习

三模块Python统计分析与可视化4课时)

1、统计学基础知识概述(描述统计、统计推断、时空统计)

2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等)

3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等)

4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等)

5、实操练习

四模块Python树模型(4课时)

1、机器学习概述、数据预测与预测建模

2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

4、Bagging与Boosting的区别与联系

5AdaBoost vs. Gradient Boosting的工作原理

6、常用的GBDT算法框架(XGBoost、LightGBM)

7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释)

8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析)

9、实操练习

第五模块 因果推断与因果学习(4课时)

1、因果推断概述

2、因果推断范式(潜在因果推断、结构因果推断)

3、因果推断实现(传统方法、机器学习方法)

4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测)

5、时空因果推断(时空统计概述、时空因果推断、时空因果实现)

6、实操练习

第六模块 Python深度学习(6课时)

1、人工神经网络(人工神经网络概念、底层原理)

2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络)

3、深度学习模型实现

4、案例演示与实操

第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时)

1、树模型案例分析与实现

2、深度学习模型案例分析与实现

3、因果学习案例分析与实现

4、课程相关资料拷贝与分享

5、答疑与讨论(大家提前把问题整理好)


讲授/答疑老师:
李老师,985高校本硕,中科院博士,本科高校副教授,长期从事机器学习、贝叶斯统计、医学统计等科研和教学工作,具有丰富的科研和授课经验。某省高等学校优秀青年学术带头人、拔尖骨干人才、C刊学术编辑。主持国社科基金、教育部人文社科项目等课题多项,参与国社科重大、科技部973项目、国自然基金等项目多项,以第一或通讯作者在Lancet子刊、PloS Medidcine、Environment International、《统计研究》、《数理统计与管理》、《经济地理》等高质量期刊发表论文30多篇,担任多个SSCI\SCI期刊的审稿人。

目标受众:
零基础可学,适用于经济管理、医学、社会学以及公共卫生等领域的本科生、硕博研究生和青年教师,尤其是实证基础薄弱但是希望能够掌握Python机器学习与深度学习同学和老师。

上课时间(暂定):
11月30日  8:30-12:00    14:00-17:30
12月1日  14:00-17:30    
12月7日   8:30-12:00     14:00-17:30
12月8日  14:00-17:30   
【可长期回放+1年答疑】


课程特色:

提供ppt讲义+案例+数据+python代码 


课程价格:1299

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)


报名:倘若您对课程感兴趣,扫描二维码可咨询购买,
可开培训费、资料费、技术服务费、信息服务费等,可公对公转账,提供培训通知。请扫描下方二维码可添加助教微信询问课程详情及发票事宜。
     
          助教二维码,联系咨询           

学术严选
致力于学术资源创作、搬运、遴选,提供高质量的学术资源下载
 最新文章