机器学习在经济学中的相关应用

学术   2024-11-12 14:52   浙江  


对于人文社科领域机器学习究竟能帮我们干什么,我也看了一些文献书籍,下面把我知道的情况,因为还是在学习阶段所以可能理解会有片面和错误,希望读者予以纠正。

1.机器学习与计量经济学的一些区别:

计量经济学通常更关注因果问题,我们的计量模型通常需要经济学理论作为支撑,然后在做回归,机器学习则是可以视为一种数据驱动,利用训练集数据来去训练出一个模型,然后再利用数据去看预测结果,来评估模型好坏,更偏重预测,它的强大之处在于拟合预测模型和处理高维度大数据,但本质上并没有改变经济学的研究方法。


2.机器学习在经济学中的应用

(1)数据发现与变量创造

处理高维非常规数据、图像和文本信息,发现新数据、创造出新变量。使用无监督机器学习创造新变量可以不需要解释变量,不同于传统计量经济学那样基于解释变量来调整模型设定,进而会减少解释变量与被解释变量之间伪回归问题的产生。

(2)预测

机器学习无需对函数形式、变量之间的相互作用和参数统计分布做先验假定,更注重对结构化和非结构化数据做出准确预测。如能源商品价格具有非线性、滞后依赖、非平稳和波动性聚类等复杂特性,机器学习算法基于经验模式分解EMD和神经网络集成学习NNEL与能源经济学研究中常用的支持向量机SVW、人工神经网络ANN和遗传算法GA组合使用,来预测能源商品价格及需求量。还可利用深度学习DL对异构数据和大规模数据进行处理,更好地让数据说话。

(3)因果推断

因果推断在机器学习的应用是基于预测出发,用于政策评估,预测反事实进而获得因果效应,类似于计量中用到的双重差分法、合成控制法、匹配法和断点回归。机器学习用于因果推断的一个方面是处理效应,包括非混淆假设下的平均处理效应估计ATE和处理效应异质性的估计,如因果树causal trees和因果森林causal forests。机器学习识别因果判断可作为实证研究中稳健性检验。

最近几十年,因果关系识别已经成为经济学、政治学和社会学等社会科学各学科实证研究的经典范式。诸如双重差分、断点回归、随机试验等因果识别经典方法,已经被社会科学各学科广泛应用。与此同时,社会科学研究中,数据来源也变得越来越丰富。而随着社会科学研究数据和工具的逐渐丰富,社会科学研究者以及政策制定者变得越来越野心勃勃,他们不再满足于获得两个变量之间简单的因果关系。他们还希望了解如何在全新的、非结构化的、高维度的、高频率的大数据中挖掘出一些新问题,以及在探究某些问题时即便传统方法因假设无法满足而失效时,有什么其他实证工具可以备选,等等。诸如此类的问题,都是传统社会科学研究者关心却没办法很好回答的,甚至超出了传统社会科学研究范式,而回答这些问题也正是引入机器学习的必要所在。简言之,机器学习对于因果关系识别的特殊价值和意义是它可以拓宽因果识别经典方法的适用边界。关于机器学习对因果识别的意义,我们在本部分进行详细讨论。

(一)更好地识别和控制混淆因素
社会科学在实证分析中的重点是考察某个处理变量对结果变量的因果效应,但处理变量往往并非随机的。在估计因果效应时,一个常规做法是假定如果控制了一些混淆因素,那么我们关心的核心变量就具有某种随机性,从而可以估计其对结果变量的因果效应。因此问题的核心就在于识别、控制这些被称为混淆因素的特征。选择控制变量在传统社会科学实证分析中的一个常规操作是依据理论分析或理论直觉,但这可能带来两个问题:一是控制变量被人为操纵,以获得统计上的显著性(Fafchamps and Labonne,2017);二是在大数据时代,依据理论分析或理论直觉控制变量的选取有时候会变得非常困难,因为非结构化大数据的一个非常显著的特征就是高维稀疏:潜在的控制变量可能成百上千个,而最终能被用上的可能只有数个。为此,Belloni et al.(2014;2019)等提出一种称为“Post Double Selection”的数据驱动的机器学习策略:首先通过Lasso等附带正则项的机器学习算法,经过交叉验证等方法,识别出一组对结果变量有解释力的变量,进而重新将结果变量对这些挑选出的特征变量进行普通的线性回Cher-nozhukov et al.(2018)还提出一种较为重要的双重机器学习方法来应对传统方法中较难克服的混淆因素函数形式不确定、维度诅咒、正则化偏差的问题,其核心思路是从处理变量中过滤掉(partial out)协变量的影响。其应用包括研究在线劳动力市场垄断情况(Dube et al.,2020)、大型会计事务所更高审计质量效应问题(Yang et al.,2020)。对于哪些控制变量应该被控制,而哪些变量不应该控制,因果图也有一套行之有效的准则。社会科学实证研究中,在控制混淆因素时,通常会借助理论谨慎地选取哪些变量必须进入模型,但很少考虑哪些变量不应该控制。这种选择是传统社会科学研究过度关注“一致性”的结果,而实际上这种倾向可能会带来样本选择偏差的问题。例如“美貌(D)→明星(X)←才华(Y)”,即一个人拥有才华会使其可能成为明星,一个人长得漂亮也会让其更有可能成为明星。但一旦控制明星(X)这个变量,分析美貌(D)对才华(Y)的影响时会得出结论:越丑的人,越有才华。而实际上,才华和美貌本身是相互独立的,导致错误结论的原因是成为明星往往是拥有才华和美貌之一即可,而控制X变量,即以明星为条件(明星=1)时,反而产生了样本选择偏差。这在因果图中被称为“对撞偏倚”或“辩解效应”,即控制处理变量(D)和结果变量(Y)的共同结果而产生的偏误(Pearl and Mackenzie,2018)。这也是为什么这里的X不可以作为异质性变量的原因。再譬如,很多时候我们还会因错误地控制一个机制变量,导致估计偏误。以“教育→职业→收入”为例,即教育回报的研究。其中,职业实际上并不需要控制,因为教育程度往往会决定职业选择,继而影响收入。在因果图中,控制了一个这样的节点非但不能减少偏误,反而可能切断一条中间机制,从而带来估计偏误。而根据因果图,我们真正需要控制的是能够同时影响处理变量和结果变量的共同原因变量,这才是传统意义上的混淆变量。关于因果图更详细的讨论,特别是其对社会科学的实证研究启示,可以参阅Imbens(2020)、Cunningham(2021)等文献。
上述“Post Double Selection”策略也可以使用在工具变量的挑选上。工具变量法是社会科学家解决内生性、控制不可观测混淆因素,实现因果推断时非常倚重的方法(陈云松,2012)。工具变量方法的核心是寻找一个外生的,但同时又与内生变量相关的变量,即对预测内生变量变动有帮助的外生变量。而预测又是机器学习擅长之处,因此,工具变量方法的第一阶段分析完全可以使用机器学习方法来分析内生变量和工具变量之间的关系。而且,在某些情形下,可能并不存在一两个性能非常突出的工具变量,而是需要在众多的潜在工具变量中寻找最佳的工具变量。如果工具变量太多,可能会产生弱工具变量问题,而工具变量数量比内生变量多一至两个时才是最优的(Bollen,2012),此时可以使用机器学习算法来挑选工具变量。Bellenni et al.(2012)推荐使用Lasso方法,在一些潜在的工具变量池中,挑选与内生变量最为相关的变量作为工具变量,然后重新进行普通的两阶段最小二乘法回归。在社会科学实证中,已经有一些文献利用Lasso等正则化方法来挑选工具变量,例如Qiu et al.(2020)通过Cluster-Lasso方法在一组天气等变量池中,寻找各地新冠肺炎病例的最佳工具变量;Gilchrist and Sands(2016)、方娴和金刚(2020)利用Lasso方法,选择最优的天气与空气质量变量作为电影首映周票房的工具变量,进而考察电影首映周票房对随后几周电影票房的影响。此外,Hartford et al.(2017)还提出了一种“反事实预测+IV”的DeepIV的方法,与普通的工具变量法相比,其优势在于估计时不需要满足线性假设,因此适用范围更广,而且被证明有效性更好。

(二)更好地构建对照组
反事实结果不可观测是一个因果效应识别的“根本性的问题”(Holland,1986)。但如果能够为处理组寻找到非常合宜的对照组,就可以通过对照组来构造出倘若没有处理政策的发生处理组应该具有的反事实结果,从而得到科学的因果效应估计。在传统因果识别的文献中,双重差分法、匹配法、合成控制法、断点回归法、随机试验法等都是通过为处理组构造合适对照组,进而实现反事实结果估计和因果效应识别的思路。(具体文献详见(机器学习与社会科学中的因果关系:一个文献综述,郭峰)

3.机器学习的建议
(1)先学python,再学机器学习算法;(2)逐个算法学习,理论与实操并重;(3)网络资料为主,教材系统学习为辅。学习视频推荐:b站:E校挺好、机器学习与因果推断、复旦大学经济学院的机器学习、中科院的机器学习等等。



从零基础掌握Python机器学习与深度学习


【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】



课程内容

第一模块 Python基础知识串讲(4课时)

1、Python编程环境搭建(Anaconda安装Python之Hello World;第三方模块的安装与使用)

2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释)

3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环)

4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用)

第二模块 Python科学计算(4课时)

1Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套)

2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用

3、实操练习

三模块Python统计分析与可视化4课时)

1、统计学基础知识概述(描述统计、统计推断、时空统计)

2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等)

3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等)

4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等)

5、实操练习

四模块Python树模型(4课时)

1、机器学习概述、数据预测与预测建模

2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

4、Bagging与Boosting的区别与联系

5AdaBoost vs. Gradient Boosting的工作原理

6、常用的GBDT算法框架(XGBoost、LightGBM)

7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释)

8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析)

9、实操练习

第五模块 因果推断与因果学习(4课时)

1、因果推断概述

2、因果推断范式(潜在因果推断、结构因果推断)

3、因果推断实现(传统方法、机器学习方法)

4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测)

5、时空因果推断(时空统计概述、时空因果推断、时空因果实现)

6、实操练习

第六模块 Python深度学习(6课时)

1、人工神经网络(人工神经网络概念、底层原理)

2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络)

3、深度学习模型实现

4、案例演示与实操

第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时)

1、树模型案例分析与实现

2、深度学习模型案例分析与实现

3、因果学习案例分析与实现

4、课程相关资料拷贝与分享

5、答疑与讨论(大家提前把问题整理好)


讲授/答疑老师:
李老师,985高校本硕,中科院博士,本科高校副教授,长期从事机器学习、贝叶斯统计、医学统计等科研和教学工作,具有丰富的科研和授课经验。某省高等学校优秀青年学术带头人、拔尖骨干人才、C刊学术编辑。主持国社科基金、教育部人文社科项目等课题多项,参与国社科重大、科技部973项目、国自然基金等项目多项,以第一或通讯作者在Lancet子刊、PloS Medidcine、Environment International、《统计研究》、《数理统计与管理》、《经济地理》等高质量期刊发表论文30多篇,担任多个SSCI\SCI期刊的审稿人。

目标受众:
零基础可学,适用于经济管理、医学、社会学以及公共卫生等领域的本科生、硕博研究生和青年教师,尤其是实证基础薄弱但是希望能够掌握Python机器学习与深度学习同学和老师。

上课时间(暂定):
11月23日  8:30-12:00    14:00-17:30
11月24日14:00-17:30    18:30-21:30
11月30日  8:30-12:00    14:00-17:30
【可长期回放+1年答疑】


课程特色:

提供ppt讲义+案例+数据+python代码 


课程价格:1299

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)


报名:倘若您对课程感兴趣,扫描上方二维码可直接购买,
可开培训费、资料费、技术服务费、信息服务费等,可公对公转账,提供培训通知。请扫描下方二维码可添加助教微信询问课程详情及发票事宜。
     
          助教二维码,联系咨询               


学术严选
致力于学术资源创作、搬运、遴选,提供高质量的学术资源下载
 最新文章