对于人文社科领域机器学习究竟能帮我们干什么,我也看了一些文献书籍,下面把我知道的情况,因为还是在学习阶段所以可能理解会有片面和错误,希望读者予以纠正。
1.机器学习与计量经济学的一些区别:
计量经济学通常更关注因果问题,我们的计量模型通常需要经济学理论作为支撑,然后在做回归,机器学习则是可以视为一种数据驱动,利用训练集数据来去训练出一个模型,然后再利用数据去看预测结果,来评估模型好坏,更偏重预测,它的强大之处在于拟合预测模型和处理高维度大数据,但本质上并没有改变经济学的研究方法。
2.机器学习在经济学中的应用
(1)数据发现与变量创造
处理高维非常规数据、图像和文本信息,发现新数据、创造出新变量。使用无监督机器学习创造新变量可以不需要解释变量,不同于传统计量经济学那样基于解释变量来调整模型设定,进而会减少解释变量与被解释变量之间伪回归问题的产生。
(2)预测
机器学习无需对函数形式、变量之间的相互作用和参数统计分布做先验假定,更注重对结构化和非结构化数据做出准确预测。如能源商品价格具有非线性、滞后依赖、非平稳和波动性聚类等复杂特性,机器学习算法基于经验模式分解EMD和神经网络集成学习NNEL与能源经济学研究中常用的支持向量机SVW、人工神经网络ANN和遗传算法GA组合使用,来预测能源商品价格及需求量。还可利用深度学习DL对异构数据和大规模数据进行处理,更好地让数据说话。
(3)因果推断
因果推断在机器学习的应用是基于预测出发,用于政策评估,预测反事实进而获得因果效应,类似于计量中用到的双重差分法、合成控制法、匹配法和断点回归。机器学习用于因果推断的一个方面是处理效应,包括非混淆假设下的平均处理效应估计ATE和处理效应异质性的估计,如因果树causal trees和因果森林causal forests。机器学习识别因果判断可作为实证研究中稳健性检验。
最近几十年,因果关系识别已经成为经济学、政治学和社会学等社会科学各学科实证研究的经典范式。诸如双重差分、断点回归、随机试验等因果识别经典方法,已经被社会科学各学科广泛应用。与此同时,社会科学研究中,数据来源也变得越来越丰富。而随着社会科学研究数据和工具的逐渐丰富,社会科学研究者以及政策制定者变得越来越野心勃勃,他们不再满足于获得两个变量之间简单的因果关系。他们还希望了解如何在全新的、非结构化的、高维度的、高频率的大数据中挖掘出一些新问题,以及在探究某些问题时即便传统方法因假设无法满足而失效时,有什么其他实证工具可以备选,等等。诸如此类的问题,都是传统社会科学研究者关心却没办法很好回答的,甚至超出了传统社会科学研究范式,而回答这些问题也正是引入机器学习的必要所在。简言之,机器学习对于因果关系识别的特殊价值和意义是它可以拓宽因果识别经典方法的适用边界。关于机器学习对因果识别的意义,我们在本部分进行详细讨论。
从零基础掌握Python机器学习与深度学习
【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】
第一模块 Python基础知识串讲(4课时) 1、Python编程环境搭建(Anaconda安装;Python之Hello World;第三方模块的安装与使用) 2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释) 3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环) 4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用) 第二模块 Python科学计算(4课时) 1、Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套) 2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用) 3、实操练习 第三模块、Python统计分析与可视化(4课时) 1、统计学基础知识概述(描述统计、统计推断、时空统计) 2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等) 3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等) 4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等) 5、实操练习 第四模块、Python树模型(4课时) 1、机器学习概述、数据预测与预测建模 2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情? 3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?) 4、Bagging与Boosting的区别与联系 5、AdaBoost vs. Gradient Boosting的工作原理 6、常用的GBDT算法框架(XGBoost、LightGBM) 7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释) 8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析) 9、实操练习 第五模块 因果推断与因果学习(4课时) 1、因果推断概述 2、因果推断范式(潜在因果推断、结构因果推断) 3、因果推断实现(传统方法、机器学习方法) 4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测) 5、时空因果推断(时空统计概述、时空因果推断、时空因果实现) 6、实操练习 第六模块 Python深度学习(6课时) 1、人工神经网络(人工神经网络概念、底层原理) 2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络) 3、深度学习模型实现 4、案例演示与实操 第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时) 1、树模型案例分析与实现 2、深度学习模型案例分析与实现 3、因果学习案例分析与实现 4、课程相关资料拷贝与分享 5、答疑与讨论(大家提前把问题整理好) |
课程特色:
提供ppt讲义+案例+数据+python代码