因果推断和机器学习的最新发展:社会学视角

学术   2024-11-19 20:17   浙江  
本文来源:机器学习与数字经济实验室
作者:陶旭辉(浙江工商大学公共管理学院)

这是加州大学洛杉矶分校Brand教授、哈佛大学周翔教授,还有我们国内也非常熟悉的谢宇教授(普林斯顿大学)一起撰写的一篇关于机器学习与因果推断研究进展的综述
三位都是来自社会学领域的顶尖学者,因此最新进展更多还是和社会学相关。目前,这篇文章于2023年发表在社会学顶刊《Annual-Review-of-Sociology》上
他们选择了因果推断和机器学习都非常关心的四个重要研究主题:一般性的因果效应识别与估计Causal effect identification and estimation)、因果效应异质性Causal effect heterogeneity)、因果效应中介Causal effect mediation)以及时空干扰Temporal and spatial interference)。
这四个方向,基本涵盖了一篇实证研究所需要的所有内容。尤其是后两个主题,据我所知,实际应用中应该是相当匮乏的。在这篇综述介绍了大量的方法,但是遗憾的是缺少必要的案例和对方法细致地讲解,导致阅读难度提高。

值得一提的是,在这篇文章发表之前,庆幸我们针对机器学习与一般性的因果效应识别与估计机器学习与因果效应异质性两个主题的综述已经被《经济学》(季刊)《管理世界》发表或接收。
即便是对于这两个尤为重要且当时鲜有人关注的主题和方向,回顾我们这四年来的投稿以及发表历程,应当是异常曲折的。甚至几次我和郭老师想放弃文章的撰写和修改。
记得当时让我们继续修改和坚持的理由一直是:我们一致同意,如果文章不能发表在重要期刊中,就发在我们自己的公众号上,才让这一项目得以推进。因为,阅读大量文献后,我们深以为机器学习在这两个方向的助益尤为重要且大有可为。
我们迫切地想向国内学者和业界的朋友们展示这一领域的研究成果,推动这一领域的发展和应用。这是我们的初衷。

我们当时没有继续讨论因果效应中介解决时空干扰这两个主题的原因是相关文献还比较少。但是,从学者们开始热衷于关注结构估计以及溢出效应等问题,可以预见的是,这两个主题的讨论在未来的研究中必然会越来越多

更多关于《Recent Developments in Causal Inference and Machine Learning》这篇文章,可以阅读下面的ppt




【学术严选课程预告】


【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】




课程内容


第一模块 Python基础知识串讲(4课时)

1、Python编程环境搭建(Anaconda安装Python之Hello World;第三方模块的安装与使用)

2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释)

3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环)

4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用)

第二模块 Python科学计算(4课时)

1Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套)

2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用

3、实操练习

三模块Python统计分析与可视化4课时)

1、统计学基础知识概述(描述统计、统计推断、时空统计)

2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等)

3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等)

4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等)

5、实操练习

四模块Python树模型(4课时)

1、机器学习概述、数据预测与预测建模

2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

4、Bagging与Boosting的区别与联系

5AdaBoost vs. Gradient Boosting的工作原理

6、常用的GBDT算法框架(XGBoost、LightGBM)

7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释)

8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析)

9、实操练习

第五模块 因果推断与因果学习(4课时)

1、因果推断概述

2、因果推断范式(潜在因果推断、结构因果推断)

3、因果推断实现(传统方法、机器学习方法)

4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测)

5、时空因果推断(时空统计概述、时空因果推断、时空因果实现)

6、实操练习

第六模块 Python深度学习(6课时)

1、人工神经网络(人工神经网络概念、底层原理)

2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络)

3、深度学习模型实现

4、案例演示与实操

第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时)

1、树模型案例分析与实现

2、深度学习模型案例分析与实现

3、因果学习案例分析与实现

4、课程相关资料拷贝与分享

5、答疑与讨论(大家提前把问题整理好)



讲授/答疑老师:
李老师,985高校本硕,中科院博士,本科高校副教授,长期从事机器学习、贝叶斯统计、医学统计等科研和教学工作,具有丰富的科研和授课经验。某省高等学校优秀青年学术带头人、拔尖骨干人才、C刊学术编辑。主持国社科基金、教育部人文社科项目等课题多项,参与国社科重大、科技部973项目、国自然基金等项目多项,以第一或通讯作者在Lancet子刊、PloS Medidcine、Environment International、《统计研究》、《数理统计与管理》、《经济地理》等高质量期刊发表论文30多篇,担任多个SSCI\SCI期刊的审稿人。

目标受众:
零基础可学,适用于经济管理、医学、社会学以及公共卫生等领域的本科生、硕博研究生和青年教师,尤其是实证基础薄弱但是希望能够掌握Python机器学习与深度学习同学和老师。

上课时间(共三天):
11月23日  8:30-12:00    14:00-17:30
11月24日14:00-17:30    18:30-21:30
11月30日  8:30-12:00    14:00-17:30
【可长期回放+1年答疑】


课程特色:

提供ppt讲义+案例+数据+python代码 



课程价格:1299

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)




报名:倘若您对课程感兴趣,扫描上方二维码可直接购买,
可开培训费、资料费、技术服务费、信息服务费等,可公对公转账,提供培训通知。请扫描下方二维码可添加助教微信询问课程详情及发票事宜。
     
          助教二维码,联系咨询      


学术严选
致力于学术资源创作、搬运、遴选,提供高质量的学术资源下载
 最新文章