5篇机器学习与经济学因果推断专题文献推荐
1、 机器学习与社会科学中的因果关系:一个文献综述
来源:经济学(季刊)
作者:郭峰、陶旭辉
摘要:因果识别是社会科学实证研究的焦点,而在大数据时代,机器学习为因果识别带来一些新的机遇与挑战。本文重点总结了机器学习对因果关系识别的价值:更好地识别和控制混淆因素、帮助更好地构建对照组、更好地识别异质性因果效应,以及检验因果关系的外部有效性。同时,本文还讨论了在大数据和机器学习广泛应用下,可能存在因果关系在某些情形下变得不再重要、大数据和机器学习会让因果效应识别更加困难,以及部分机器学习算法缺乏可解释性等情形。本文有助于拓展社会科学研究者的工具箱和思想库。
2、机器学习对经济学研究的影响研究进展
来源:经济学动态
作者:黄乃静、于明哲
摘要:机器学习与经济学研究的融合将改变传统经济学的研究方式。本文就机器学习对经济学研究的影响进行了较为系统的梳理,着重分析了机器学习在大数据背景下对丰富经济数据多样性的贡献,机器学习对经济预测准确性的改进作用,以及机器学习在估计平均处理效应、处理效应异质性和结构模型等因果推断中的应用,对这些领域的重要研究进行了比较详细的介绍。在阐述机器学习优势的同时,本文也指出在经济学研究中使用机器学习方法可能存在的局限性,并对未来的研究方向进行了展望。关键词: 机器学习;大数据;预测;因果推断;
3、经济学研究中的机器学习:回顾与展望
来源:数量经济技术经济研究
作者:王芳、王宣艺、陈硕
摘要:研究目标:随着数据的可得和计算机的发展,机器学习技术在经济学领域的应用发展非常迅速。本文旨在系统介绍机器学习在经济学中的应用。研究方法:简单介绍机器学习的定义后,本文将从数据生成、预测以及因果识别(DID、RD和IV)三个方面详细介绍机器学习在经济学中的应用。研究发现:局限于经济学因果识别方法的成熟及样本大小限制,本文认为机器学习虽然拓展了研究的边界,但并不会颠覆社会科学研究范式。研究创新:将机器学习的最新应用进行综述。研究价值:对机器学习在经济学中的已有应用进行分类归纳,并对未来研究进行展望。此外,本文也从学界不平等及可复制性等方面讨论了该技术在应用过程中可能带来的问题。关键词:机器学习;数据生成;预测;因果识别;
4、大数据、机器学习与统计学:挑战与机遇
来源:计量经济学报
作者:洪永淼、汪寿阳
摘要:随着数字经济时代的来临,基于互联网、移动互联网以及人工智能技术的经济活动每时每刻产生了海量大数据,这些海量大数据又反过来驱动各种经济活动.大数据来源不一,形式多样,种类繁杂,既有结构化数据,也有非结构化数据,如文本、图像、音频、视频等,即使是结构化数据,也有新型数据,如函数数据、区间数据与符号数据等.大数据大多拥有巨大的样本容量,也有潜在解释变量维数超过样本容量的高维大数据.大数据的产生以及基于大数据的机器学习的广泛使用,对统计学产生了深刻影响.本文从大数据的特点和机器学习的本质出发,讨论了大数据和机器学习对统计建模与统计推断的挑战与机遇,包括由抽样推断总体分布性质、充分性原则、数据归约、变量选择、模型设定、样本外预测、因果分析等重要方面,同时也探讨了机器学习的理论与方法论基础以及统计学和机器学习的交叉融合.
关键词: 人工神经网络;大数据;维数灾难;数据科学;LASSO;机器学习;统计学习;数理统计学;模型多样性;模型不确定性;非参数分析;统计显著性;充分性原则;因果关系;
5、异质性政策效应评估与机器学习方法:研究进展与未来方向
来源:《管理世界》2023年第11期
作者:陶旭辉 郭峰
摘要:对公共政策的准确评估,是制定科学公共政策的重要前提,科学的公共政策将有助于促进国家治理体系和治理能力现代化。异质性政策效应评估作为一种新兴的研究范式,其重要性在政策效应评估文献中已经获得广泛认可。本文总结了异质性政策效应评估的重要价值,以及代表性传统方法的逻辑和局限性。在此基础上,文章重点梳理了机器学习方法在异质性政策效应评估中的重要价值和具体应用:更好地筛选和切分异质性变量、更好地评估多重异质性政策效应、更好地估计个体政策效应等。本文也指出机器学习在异质性政策效应评估的算法可接受性、过程可检验性以及结论稳健性中存在局限性。进一步,文章提出了异质性政策评估和机器学习的重点发展方向:引入和发展机器学习方法,重视异质性政策评估的政策价值及提升机器学习的可接受性;结合传统分析范式,拓展机器学习在异质性政策评估中的新模式;规范研究数据的采集和处理,推动数据和代码的公开透明等。
关键词:政策效应评估 异质性处理效应 机器学习 大数据
【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】
第一模块 Python基础知识串讲(4课时) 1、Python编程环境搭建(Anaconda安装;Python之Hello World;第三方模块的安装与使用) 2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释) 3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环) 4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用) 第二模块 Python科学计算(4课时) 1、Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套) 2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用) 3、实操练习 第三模块、Python统计分析与可视化(4课时) 1、统计学基础知识概述(描述统计、统计推断、时空统计) 2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等) 3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等) 4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等) 5、实操练习 第四模块、Python树模型(4课时) 1、机器学习概述、数据预测与预测建模 2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情? 3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?) 4、Bagging与Boosting的区别与联系 5、AdaBoost vs. Gradient Boosting的工作原理 6、常用的GBDT算法框架(XGBoost、LightGBM) 7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释) 8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析) 9、实操练习 第五模块 因果推断与因果学习(4课时) 1、因果推断概述 2、因果推断范式(潜在因果推断、结构因果推断) 3、因果推断实现(传统方法、机器学习方法) 4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测) 5、时空因果推断(时空统计概述、时空因果推断、时空因果实现) 6、实操练习 第六模块 Python深度学习(6课时) 1、人工神经网络(人工神经网络概念、底层原理) 2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络) 3、深度学习模型实现 4、案例演示与实操 第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时) 1、树模型案例分析与实现 2、深度学习模型案例分析与实现 3、因果学习案例分析与实现 4、课程相关资料拷贝与分享 5、答疑与讨论(大家提前把问题整理好) |
课程特色:
提供ppt讲义+案例+数据+python代码