文|康瑜欣 编辑|Via
早在2001年,著名统计学家Leo Breiman表达了对于基于模型和基于算法两种不同统计方法的认知。
“当今,存在两种使用统计模型以理解数据的流派和文化。一种假设观测数据是由给定的随模型生成。而另一种则将数据生成机制视作未知,使用算法模型进行逼近。”
现今,统计学界大多接受了由Breiman提出的“机器学习革命”,许多教科书都开始增加对于机器学习的讨论内容,以至于超过了传统的统计方法。虽然机器学习方法在经济学研究中的接受速度还比较慢,但是在实证工作和方法论文献中,机器学习已经被大量地实际应用。
本文整理了斯坦福大学的Susan Athey与Guido W. Imbens于2019年在经济学国际顶级期刊《Annual Review of Economics》发表的综述性文章“Machine Learning Methods That Economists Should Know About”。
PS. 小八卦:大家一直戏称,Susan一直在学术上碾压Guido,而且Guido似乎一直是默默追随夫人,从美国西海岸搬到东岸,后来又迁回去。哈佛当时在挖Susan的时候,Guido好像是作为byproduct捆绑销售^_^。
文章讨论了机器学习文献与传统经济学和统计学文献在目标、方法和设置方面的差异,并且深入的讨论了一些具体方法。其中包括用于回归和分类的监督学习方法、无监督学习方法和矩阵补全方法。
最后,文章还强调了机器学习和计量经济学交叉点的新开发方法,这些方法在应用于特定类别的问题时,通常比现成的机器学习或更传统的计量经济学方法表现更好,包括估计平均处置效应的因果推断、最优政策估计以及消费者选择模型中价格变化的反事实效应估计。
Susan Athey
Susan Athey,斯坦福大学商学院教授,美国科学院院士,美国艺术与科学院院士,美国经济学会主席,约翰·贝茨·克拉克奖(诺奖风向标)的第一位女性获得者。曾担任微软首席咨询经济学家。目前专注于数字经济、市场设计以及计量经济学与机器学习领域的交叉领域研究,是因果推断领域的国际权威人物。Google scholar引用量4.2万,h指数77。
同时,Susan Athey也是2021年诺贝尔经济学奖得主Guido Imbens的老婆。
Guido W. Imbens
Guido W. Imbens,美国斯坦福大学应用计量经济学和经济学教授。1963年9月3日生于荷兰埃因霍温。1991年于美国布朗大学获得博士学位。主要研究方向是使用匹配、工具变量和断点回归法,来开发从观察数据进行因果推断的方法。Google scholar引用量10.6万,h指数98。
1
目标
在传统的计量经济学方法中,其目标是寻求一个由数据联合分布构成的函数,并且以此函数求得一些参数的估计值。给定一个研究群体的随机样本集,计量经济学通过寻找目标函数(通常是均方误差、似然函数)的最优化解,已获得对数据的最佳拟合,并最终获得对核心参数和其他参数的估计值。
这一方法和思路的核心在于参数估计的质量,也即传统计量下的“大样本有效性”。而在实际的应用中,学者们通过同时汇报参数估计值和标准差构造置信区间以展示估计的有效性和准确性。
在机器学习文献中,相关思路则恰恰相反,其核心关注点在于发展一个算法,以达成最优预测的目的,比如在机器学习经典的问题中,算法要求自动识别手写数字,并且将其分类到正确的数字类别中。
举一个简单例子,如果假设特征Xi与其某种输出值Yi之间的条件分布如下:
研究者可以通过最小二乘的方法获取其中参数的估计值如下:
许多计量经济学文献会在没有更多假设讨论的情况下使用最小二乘估计,诚然,如果研究数据满足一系列严格地假设,最小二乘估计有很多优秀的性质:无偏性、最大似然性、大样本有效性等。
而在机器学习的设置中,算法要求基于特征Xi给出其对应输出值Yi的最优预测,而且通常算法关注的特征Xi是一个“全新”的、从未遇见的观测样本。
假设研究者此时遇到一个新的观测(N+1),其特征向量为XN+1,研究者希望对其真实输出值YN+1进行预测,如果将预测模型限制为线性模型,则其预测为:
当参数取具体值时,此时这一参数集下的预测损失或误差可以描述为:
现在的问题就变成了如何寻求参数集(α与β),使其导出的预测损失或误差满足一些良好的性质。
2
验证与交叉验证
在计量经济学中最常见的话题——线性回归下,很少有对模型验证进行讨论。在线性回归模型中,无论是参数化的还是非参数化的,其模型形式(变量集选择)是来自模型之外的,即经济学理论假设。
在这一情况下,研究的主要目标是有效率地估计关键参数,保证大样本下的有效性。如果真的需要进行模型选择上的讨论,通常是通过假设检验进行,而对于假设的检验通常使用和模型估计时同样的数据集。
而在机器学习中,模型的主要目的是提升预测能力,而非参数上的准确估计,所以对模型选择的讨论,或者说对模型有效性的评价,是通过验证与交叉验证进行的。
在这一方法下,抽取部分样本作为模型拟合和参数估计结果。另一部分未进入拟合的样本(out-of-sample)则用于检验模型的预测能力。这样的方法确保模型预测效力能在无偏的情况下进行比较。
3
过拟合、正则化与可调参数
与传统计量方法相比,机器学习更加注重避免过拟合情况。研究者们试图去选择一个灵活的模型(泛化能力高),而非拟合能力强(泛化能力低)的模型。
所以,在模型进行学习(估计参数)的过程中,机器学习研究者们通常不会直接对目标函数进行最优化求解,而是在目标函数中加入一项“惩罚项”,这一项使得模型在学习过程中需要对复杂度进行考虑,这就是正则化的思想。在加入惩罚项后,参数估计过程将会在“预测表现”和“模型复杂(泛化能力)”中进行适当的取舍。
对于一个如下的线性模型:
一种可行的正则化则是将所要估计的参数值加入目标函数之中:
其中,这一项前的系数被称为“学习率”或“惩罚强度”,表征了研究者对模型过于复杂的“厌恶程度”。通过对目标函数进行如上简单地调整,就可以提升模型的泛化能力,而避免过拟合学习样本。
4
稀疏性(变量选择)
在机器学习的应用场景下,特征的个数通常都会非常巨大。而研究者们常常希望从中选择出最为重要的、可理解的少量特征进行深度研究。
即将高维度的特征矩阵“稀疏化”,限制特征数量。在传统的社会科学研究中,研究者们通常“人工”对解释变量数量进行先验地限制。但研究者们通常不会事先地知道哪些变量或特征的解释力是否“微不足道”。
所以,发展一种基于数据的方法来完成稀疏化,即变量筛选,是非常重要的。在机器学习文献中,LASSO或者岭回归是常用的稀疏化方法,它们通过在模型拟合目标函数中加入1范数和2范数对特征矩阵进行“精确稀疏化(令某些参数值精确为0)”和“近似稀疏化(令某些参数值在0附近)”
5
集成方法与模型平均
另一个机器学习文献的关键特征就是对集成方法与模型平均的应用。在很多场景下,一个单独的模型或算法可能表现平平,但当他们进行组合时,就能得到高于单个模型的效力。
简单来说,如果研究者在一个训练集上分别使用随机森林(RF)、神经网络(NN)、线性模型(LASSO)三个模型进行学习,并且获得了三个不同的预测值。
现在如果想对三个预测值进行线性组合,各种方法的权重就变成了一组需要估计的新参数。通过如下的优化问题求解,就可以获得一种三个模型的组合形式:
总而言之,单个模型可能因为模型自身形式而出现误差,不同的模型出现误差的方向、程度均有不同。通过对单个模型的组合,可以有效地降低这一误差,并且取得更高的样本外预测能力。
6
推断
通过前述的讨论,不难看出机器学习的最终目标是提升模型在样本外的预测能力,而这一预测能力的提升并非“免费”,其代价是牺牲了传统计量经济学中的核心——推断,即置信区间的构造和检验。
尽管最近在开发特定环境下的低维泛函推断方法方面取得了实质性进展,但对于许多机器学习方法而言,目前不可能对其构造有效的置信区间,甚至在渐进意义上也无能为力。
需要阐明的是,这种建立置信区间的能力(推断能力)是否像传统的计量学文献所强调的那样重要。对于许多决策问题,预测效力可能是首要的,而推断是次要的。即使在可以进行推断的情况下,也必须记住,确保推断能力的要求往往以牺牲预测性能为代价。所以对于机器学习模型来说,选择适用的场景和问题,比单纯适用它更为重要。
一个被传统计量经济学与机器学习所关注的经典问题,是在给定样本下基于特征对某种输出值的条件期望进行预测。即对如下函数的拟合、近似问题:
在机器学习的设定下,通常模型中会包括大量的变量和特征,甚至有时候特征数大于样本数,而且机器学习也并不对观测输出值和特征值之间的关系进行假设,也并不假设输出值的条件期望单调于某个特征值(线性假设)。
在这一章,作者讨论了四种在机器学习中进行回归的具体方法。首先,作者讨论那些以线性为基础假设的模型,其主要的改进在于正则化。其次,作者还讨论了基于回归树和随机森林的划分样本空间方法。第三,神经网络,这一模型始于20世纪90年代一篇小型计量经济学文献,但最近已经成为机器学习文献中非常突出的一部分。第四,作者将讨论一种在回归问题中普遍的原则——提升。
1
正则化的线性回归:LASSO,岭回归,弹性网
假设研究者期望近似一个具有线性形式的条件期望函数:
如果各个特征服从标准正态分布,那么传统方法下可以通过最小二乘法估计出最优的参数β:
此时,如果变量个数K接近,甚至大于观测数N,那么最小二乘法的估计结果就不再拥有那么良好的性质,更不要提对输出值进行准确的预测。
一种常见的正则化方法,就是在目标函数中加入惩罚项,将部分参数限制到0的附近:
其中,。当q=1时,则构成众所周知的LASSO模型,q=2时则构成岭回归(Ridge)。另外,现在还存在大量的融合方法和改进,比如组合了LASSO正则项和岭回归正则项的弹性网模型。
这三种模型之中存在一些重要的概念性差别,比如LASSO模型会导出一个稀疏解,即部分系数的估计参数直接等于0,而岭回归则会使部分参数接近0。而且LASSO和岭回归有贝叶斯解释。岭回归给出了输出值条件分布在正态模型下的后验均值,LASSO则给出了给定拉普拉斯先验分布的后验分布。
然而,与现代贝叶斯方法不同,在具体文献中,惩罚项前的系数λ是通过基于数据的样本外交叉验证而不是主观地通过先验分布来选择的。
2
回归树与森林
回归树与其拓展——随机森林已经在估计回归函数的场景下变得非常流行和有效。这种方法能够获取优良的样本外预测效力。给定一个样本集,树方法的原理是将样本集中的样本依据特征取值来划分。
例如在以学生作为样本集的研究问题中,树方法可能会将学生以性别、年级、专业、年龄或其他特征取值进行划分。之后将每一个划分子空间中的样本真实值均值作为该子空间的预测值。如果一个新的样本同样被划分到这一子空间,则使用之前计算得到的该子空间均值作为预测输出值。
在一棵回归树单独运行时,其优势是易于解释。一旦一棵回归树的结构学习技术,每一个子空间的预测值实际就是该空间下的样本均值,其预测标准差也是容易计算的。但一般来说,子空间的均值并不是真实预测均值的无偏估计。而且在一棵回归树的情况下,其回归函数是离散的,存在不止一个跳跃点。
为了改进这一性质,随机森林被提出了,其主要的特点有两个:1.在随机森林当中的每一棵树都在不同的样本(随机抽取的子样本)下拟合;2.每一棵树的划分特征选择均随机。在这两个“随机”操作之后,随机森林拥有了更为平滑的估计函数,而且在样本外的预测能力也进一步提升。
除此之外,其主要的优势还在于要求的超参数较少,要求研究者对数据的先验知识较少。
3
深度学习与神经网络
通过类似生物神经的组织方式,统计学家们提出了以神经网络为代表的的一系列深度学习方法,这类方法在超高维的特征集上表现良好,而作为代价,这类方法通常要求较多的超参数设定。
考虑一个简单的例子,给定存在K个特征的样本集X,研究者设置K1个不可观测变量Z,其取值依赖于K个特征的线性组合。
再通过引入一个非线性函数作为改进:
最后将最终输出设定为非线性函数输出的线性组合:
这就完成了一个拥有单隐藏层,且隐藏层有K1个节点的神经网络。最终,这一个简单的神经网络生成输出值条件期望函数的形式为:
通过增加隐藏层的个数,改变每个隐藏层中的节点数目,研究者可以得到深度更大,可以拟合更加复杂函数的神经网络形式。在实践中,随着神经网络的深度增加,其模型的灵活性也会增加,可以极大拓展拟合函数的类型。
4
提升
提升(Boosting)是一种用于改善简单监督学习表现的通用技术。如果研究者仅能使用一些极其简单的模型,比如仅有三层的回归树、仅有一层的神经网络等,提升方法能够很好的改善最终预测。
其具体步骤如下:1.使用简单模型获得对输出值的第一次预测;2.获得第一次预测值的残差值;3.将残差作为预测目标,使用简单模型进行第二次预测;4.组合两次预测结果,并且获取其残差值;5.以新的残差序列作为预测目标,进行第三次预测……。通过重复多次上述过程,研究者可以使用简单模型在降低运算难度的情况下,将简单模型的预测结果提升到较高水平。
在监督学习的另一端存在着一个和回归问题同样重要的方向,那就是分类问题。在这个问题下,样本的输出值以有限、离散的情况出现,算法的目标是将样本“分类”至不同的离散数值中(比如识别手写笔迹为10个不同的数字)。
1
分类树与森林
树和随机森林模型很容易就可以从回归问题中改进为适应分类问题的工具。同样地,在分类问题下的树模型,将样本基于特征划分为不同的子空间,并且使用子空间中多数样本的类别作为该空间的类别值。
如果在未来遇到了划分到该子空间的新样本,则使用该类别值作为这个新样本的预测类别。此时与回归问题下的树模型主要差别则在于其目标函数形式不同。
2
支持向量机与核技巧
支持向量机(SVMs)是另一类在分类任务下具有灵活拟合性质和良好预测能力的模型。假如研究者拥有N个样本,每个样本拥有K个特征,并且希望将每个样本在两个类别中进行区分。
通过给定一个K维权重w以及常数b,以定义一个特征空间内的超平面,之后计算每个样本点到超平面的距离。优化目的是使得超平面尽可能将两类样本分开,不难想象,样本的性质有可能非常良好,即样本完全可以被一个超平面分为两类,不存在错误分类。
这种情况下有可能存在多个超平面,此时算法则应当优化样本与超平面的最小距离,选择一个超平面,使之与两类样本的距离最小,(距离定义为样本中与超平面最近的样本)。此时,两类中(超平面两边)各存在一个样本点距离超平面最近,这两个样本点也被成为该超平面的“支持向量”,所以以超平面对样本进行划分的方式也被称为支持向量机。
除此之外,为了适应某些样本集上的非线性结构,可以通过非线性函数φ(·)将样本特征先进行非线性变换,这一非线性函数在相关文献中被称为核函数,并以变换后的样本寻找最优超平面,可以将原本不可分的样本集转化为可分样本集,提升支持向量机在特殊样本结构上的分类效果。
机器学习中第二个重要的话题是无监督学习,在这一场景下研究者并不拥有样本的某种输出值,在实践中对这些样本进行基于特征的自动分类,是许多研究的重点。
1
K-Means 聚类
这一节所介绍的方法,聚焦于在给定样本Xi的基础上,将样本基于特征划分到子空间中,在这一过程中,研究者并不会告诉算法划分标准与具体划分类别,只指定子空间数量,划分过程则完全由算法进行。
K-Means聚类算法就是无监督学习中的代表算法。例如,研究者期望将样本自动划分为K的子空间,在每一子空间内,定义一个“质心”作为该子空间上的样本中心或称为代表样本,算法的优化目的是最小化每一类子空间内样本距离“质心”的距离和,换句话说,算法“希望各子空间内的样本尽可能相似,而各子空间之间尽可能相异。”,具体如下:
其中,子空间上中心样本(“质心”)bi在优化过程中以下式逐步更新。
2
生成对抗网络
在给定样本集Xi时如何估计联合分布,是许多无标签学习问题的重点。最近适用于这一场景的机器学习方法为生成对抗网络(GANs)。这一算法的目标是“自动生成一些类似于给定样本集Xi的新样本”。
如果研究者获得了一个成功的生成算法,那么生成的样本和原始样本应当无法区分。因此,可以通过在算法数据和原始数据的子样本上训练分类器来评估算法。
如果生成算法是成功的,则分类器将无法将数据成功分类为来自原始数据或算法。实际上这一思维是将分类算法与生成算法进行比较、进行对抗。这种类型的算法是尽可能模拟真实世界的有力工具。
至此,文章已经讨论了机器学习自身的能力和特点。在此基础上,更值得研究的是机器学习与传统计量工具之间的重要差别。在传统计量工具中,最常作为焦点的话题不仅仅是预测,而是进行因果推断或结构参数识别。
1
平均处置效应
在因果推断中,一个经典的问题就是在所谓无混淆的情况下估计平均处置效应。给定一个输出变量Yi,一个处置效应Wi,以及一个协变量向量Xi,最后,平均处置效应定义为:
其中,Yi(w),w=1,0,是样本i在不同处置情况下(是否接受某种干预)的潜在输出值。在无混淆的假设下,即样本的是否接受某种干预是独立于潜在输出和协变量的。比如在某种药物效果检验过程中,无混淆假设要求样本是否接受新药治疗必须独立于其他协变量。
此时,平均处置效应(ATE)可以通过对(Wi,Xi,Yi)联合分布的函数表达定义。三种常用的定义方法有:(a)两组样本(是否接受干预)之间经过协变量调整的输出值差距。(b)两组样本输出值的加权平均,(c)以“影响力”或有效得分函数为核心的表示。
其中:
以第一种表示为例,研究者只需要检验两组样本的输出值条件期望之差,就可以得出对ATE的简单估计。通常,这一任务使用线性回归就能完成。但这一方法下忽略了处置变量Wi与协变量可能存在的高度相关性。
所以尽管研究者对条件期望函数μ有精确的估计,但对最终的ATE值τ估计准确率就会下降。所以,在因果推断中单单以“预测效力”作为优化目标的模型是不足以对处置效应进行估计的。现有文献指出,同时选择对输出和处置情况有预测作用的协变量,可以改进对ATE的相关估计。
目前,相当多的文献聚焦于对输出值条件期望函数μ,和处置倾向性函数e(什么样的样本更容易被干预,这样的性质在经济学、社会学等非实验环境下特别重要)的联合估计,以获得灵活和双重稳健的估计结果,还有一些文献在“协变量平衡”的条件下对输出值条件期望函数μ进行估计。
协变量平衡这一概念被许多机器学习中的方法所提及,在这一概念下,数据分析被转化为一个最优化问题,最优化过程通过寻找样本间的最优权重,将两个处置组中的协变量均值保持一致。
在具有许多潜在混淆因素的环境中,使用正则化估计倾向性分数可能会导致忽略仍然导致偏差的弱混淆因素,而直接优化样本间平衡权重可能更有效。
2
正交化和交叉拟合
从机器学习,到参数估计,这之中发展出了一个重要的方法,通过使用两种简单的技术,算法可以提高实际性能和理论保证,这两种技术都涉及使用机器估计的干扰参数。在5.1节中,第三种因果效应建模为:
在上式的估计过程中,实际就是分别估计出μ(·)和e(·),然后带入上式。但通过研究,上述两个估计通常要满足以下条件,才能获得对平均处置效应的正确估计:
在这一条件下,估计μ(·)和e(·)的误差和最终估计平均处置效应ψ的误差形成正交。这一思想的实际运用可以参读(Chernozhukov et al. 2018a,c;Athey et al. 2016b.)
另一个解决估计误差的方法是划分样本、交叉拟合、样本外预测和留一估计。这些方法的目标是一致的,则是在估计μ(·)和e(·)时保证不使用观测样本的输出值信息。
当使用其他类型的机器学习模型来估计μ(·)和e(·)时,交叉拟合或样本分割主张将数据分割成多折(多个部分),并对除某个部分外的所有数据单独估计μ(·)和e(·),然后预测为参与估计部分数据的μ(·)和e(·),当每一折中的观测个数大于1时,被称为交叉拟合,而当每一折中只有一个观测时,这种方法被称为留一估计。
3
异质处置效应
另一个机器学习可以提供帮助的领域是揭示异质处置效应,在这一问题下,研究者关注处置效应随着样本可观测协变量的异质性。
实际问题的例子也许包括:哪些人从某种医学治疗中获益最大?对哪些人的治疗效果是积极的?治疗效果如何随协变量变化?理解处置效应的异质性对于基本科学理解或评估最佳政策的有效分配非常有用。此时处置效应改变为条件平均处置效应(CATE),被定义为:
针对这一场景下的模型应用,Athey 和 Imbens (2016)构造了一种被称为“因果树”的模型,用于学习处置效应异质性的低维表示,这为其估计的参数提供了可靠的置信区间。
他们的论文建立在回归树方法的基础上,基于协变量构造样本子空间,然后估计子空间中每个样本的处置效应。与为预测而优化的回归树不同,分组规则优化了与处置效应异质性相关的部分。与标准回归树一样,该树使用交叉验证来运行,但评估树性能的标准是基于治疗效果异质性,而非估计精度。
因果树方法的一些优点与回归树的优点相似;在双重随机的情况下,每个叶节点的估计处理效应与该叶节点内的处理效应均值相等,便于解释。
缺点是树结构与其结果存在一定随机性;可能有许多数据分区表现出处置效应的异质性,而对数据进行稍微不同的采样后就会导致不同的估计置信区间。
机器学习方法最近对实验设计做出了重大贡献,强化学习下的多臂老虎机(MULTI-ARMED BANDITS)模型就是越来越流行的一种,尤其是在在线实验(待处理样本是逐个进入试验并分配干预的)场景中。
在强化学习中,算法被要求从逐步收集到的信息中学习到关于实际场景和决策结果之间的交互信息,以支持做出最优决策。
1
A/B测试 vs. 多臂老虎机
传统来说,很多试验的第一步都是事先决定每种不同处置情况下的样本个数。通常,不同的处置情况大多为两个(即实行某种干预或不实行某种干预)。最后通过计算每一组样本的平均输出值,就可以获得对平均处置效应的估计值。
虽然这种方法易于理解和操作,但是潜在地存在效率低下问题,因为研究者可能多余地将某些样本分配到那些已经能够精准推断的处置当中,换句话说,研究者把那些样本浪费在本就能够很好理解和评估的干预中。这种情况下,实际问题就转换为基于现存的实验结果,如何选择最优决策(最优干预)。
多臂老虎机(MULTI-ARMED BANDITS),是强化学习中最为经典的模型,该模型下假设赌博者面对一个多臂老虎机,拉动每个臂后所得到的奖励概率分布不同,而该算法要求在逐步拉动每一个臂的过程中学习到关于奖励分布的信息,以支持随后进行最优决策。
假设研究者需要研究多个治疗方法中哪一个治疗方式带来的效果最优,且此时样本逐个进入试验,并接受不同的干预。当进入试验的样本数到达一定程度时(每一个干预都有足够的样本进入,并计算相关的统计量),研究者就可以获得对每个治疗方法效果的大致了解,此时,如果研究者再将后续样本放置到那些明显效果不足的治疗中,就对寻找最优治疗方案是无益的。
而多臂老虎机,就是为了在寻找最优干预或行动的策略中,改进这一干预分配过程而提出的方法。在多臂老虎机的分配过程中,每一个样本应该分配到哪种干预中,应当取决于当下已经学习到的信息。后续样本在各类干预中的分配概率,应当等于已经掌握的各类干预的效果分布。
举一个简单的例子,假如一个拥有K个干预的场景,每一个干预只会以概率pk和(1-pk)生成两种结果。当样本逐个进入试验,并分配时,研究者将获得对每一个干预中pk概率值的估计值。而随后的样本分配应该服从pk估计值的分布情况,即高pk估计值的干预获得新样本输入的概率更高。
2
上下文老虎机
综上,多臂老虎机能随着样本进入试验,挑选干预之中输出值最符合研究中预期的一个,而这一推断是完全取决于干预本身,而不考虑样本特征的,而这在经济问题中是很难达成的。
比如在多个经济政策的效果考察中,多臂老虎机的结果认为某政策能够达到最优目的,并且认为该政策对所有的城市都是最优的,而不必考虑城市的具体特征。
所以,为了充分拓展这一缺陷(尤其是在经济学问题研究中),即更进一步基于样本特征来决定个体样本应该分配到哪个干预下,多臂老虎机被拓展为上下文老虎机(Contextual Bandits)。
假如研究者需要对一批病人进行治疗,但治疗效果对所有病人并非相同,其最终输出值(效果)依赖于病人的某种特征,(这一话题在经济研究中,类似于常常被讨论的“异质性”)。
在这种考虑方法下,不同干预下的输出值差异,不仅仅是因为接受了不同干预,还因为接受干预的样本协变量差异,极大地拓展了对研究问题的适用范围。
上述讨论的方法主要用于以单个输出Y和一组变量或特征X的形式,观察多个单元的信息的设置,这在计量经济学文献中被称为横截面数据或时间序列数据。而在计量经济学文献中,更常被使用的数据类型是面板数据设置。在
本节中,文章将讨论该数据类型在机器学习中的规范版本,并考虑一些特定的方法与工具。
1
Netflix问题
Netflix问题于2006年提出,该问题要求研究者们基于一个训练数据集发展算法,以预测某个特定观众对某个影片的评分,并且以此作为影片推荐的基础数据。
通常,这些训练数据的最小单位为“观众-影片”层面,则矩阵中每一元素表示某位观众对某部影片的个人评分。由于需要预测的数据肯定是某位观众从未观看过的影片,所以这一问题形象的被描述为在观众的影片打分矩阵中“填空”,也即所谓的矩阵补全方法。
2
面板数据下的矩阵补全方法
考虑一个输出值矩阵Y,其期望值矩阵为L,如果以Wit表示第i行第t列元素是否被真实观测,则输出值矩阵可以表示为:
矩阵补全的工作这是估计L矩阵,在机器学习文献中,L矩阵的估计可以由下列最优化问题导出:
即在核范数的正则化条件下,寻找一个矩阵L,使之与观测矩阵Y的“差距”最小。
3
面板数据中的计量经济学文献与合成控制法
计量经济学文献从许多不同的角度研究了矩阵补全问题。面板数据文献传统上侧重于固定效应方法,并将其推广到具有多个潜在因素的模型,这些因素与机器学习文献中的低阶因子分解基本相同。
不同的是,在计量经济学文献中,人们更多地关注于这些因子的实际估计,并使用能够识别这些因素的标准化技术,而且通常假设存在固定数量的因素。
合成控制法相关文献就研究了类似的设置,但侧重于矩阵仅存在单行缺失值的情况。合成控制法是计量文献中用于因果推断的常用方法,因为因果推断需要对反事实样本进行观测,通常,研究者近似认为对照组是处理组的反事实样本,但这一认定通常难以确认,尤其是在经济研究中,经济主体常常由省份、城市、企业等本就具有特异性差别的个体组成。
而合成控制法就使用处理组作为数据基础,“合成”出一个在其他方面类似于处理组样本的“反事实”样本,用以考察政策干预结果。有学者建议使用同一时期其他个体数据的加权平均值来代替缺失值。
原则上,矩阵补全方法试图在补充缺失值时利用随时间变化的模式和个体之间的模式,这样就可以直接处理更复杂的缺失数据模式。
另外,在经济学和营销学中的很多文献都关注与如何基于顾客的决策估计顾客的偏好。一篇典型的论文分析了消费者从一组预先指定的不完美替代品中选择单一产品的离散选择(Keane MP. 2013)。该类文献通常一次关注一个产品类别,并对少数产品中的选择进行建模,并且侧重于估计交叉价格弹性,从而可以分析关于公司合并或价格变化的反事实结果。
有大量关于分析文本数据的机器学习文献,文本这种富有信息但缺少关注的非结构数据越来越吸引研究者们的关注。
Gentzkow等提供了一篇出色的相关综述(Gentzkow M, 2017),对这篇文献进行完整的描述超出了本文的范围,所以在本节中,作者将提供一个更加笼统的概述。
考虑一个由N篇文本构成的数据集,每一篇文本都由词语构成,可以视作一个词汇构成的集合。一种最为简单的表达这一数据的方法是构造一个N×T的矩阵,其中T是数据集中出现的所有文字。
矩阵中的每一个元素表示某词语是否出现在了某篇文本中,例如矩阵中第a行第b列则表示了第b个文章中是否出现了第a个词语。诚然,这种表示方式会损失一部分信息,可以使用元素表示词语出现次数,或者更为复杂的tf-idf加权表示。
将文本数据转换为数字数据后可以使用非监督学习对矩阵进行低维表示,“浓缩”原文信息,并且将文本进行分类;也可以使用监督学习对文本进行情感识别、语义识别等等。
随着实际研究工作的需要,更为复杂的文本分析模型也逐步被提出,这些模型使得研究者可以量化研究不同词汇连接而导致的细微语义变化,为经济领域中的研究提供更多可能。
当今,有越来越多的机器学习文献进入经济学中的实证研究。在这篇综述中,作者描述了一些认为对经济学家最有用的方法,并且作者认为将这些机器学习方法纳入核心研究生计量经济学课程中是非常重要的。熟悉这种方法将使研究人员能够更深入地研究实证工作,并与其他领域的研究人员进行更有效的沟通。
【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】
第一模块 Python基础知识串讲(4课时) 1、Python编程环境搭建(Anaconda安装;Python之Hello World;第三方模块的安装与使用) 2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释) 3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环) 4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用) 第二模块 Python科学计算(4课时) 1、Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套) 2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用) 3、实操练习 第三模块、Python统计分析与可视化(4课时) 1、统计学基础知识概述(描述统计、统计推断、时空统计) 2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等) 3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等) 4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等) 5、实操练习 第四模块、Python树模型(4课时) 1、机器学习概述、数据预测与预测建模 2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情? 3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?) 4、Bagging与Boosting的区别与联系 5、AdaBoost vs. Gradient Boosting的工作原理 6、常用的GBDT算法框架(XGBoost、LightGBM) 7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释) 8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析) 9、实操练习 第五模块 因果推断与因果学习(4课时) 1、因果推断概述 2、因果推断范式(潜在因果推断、结构因果推断) 3、因果推断实现(传统方法、机器学习方法) 4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测) 5、时空因果推断(时空统计概述、时空因果推断、时空因果实现) 6、实操练习 第六模块 Python深度学习(6课时) 1、人工神经网络(人工神经网络概念、底层原理) 2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络) 3、深度学习模型实现 4、案例演示与实操 第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时) 1、树模型案例分析与实现 2、深度学习模型案例分析与实现 3、因果学习案例分析与实现 4、课程相关资料拷贝与分享 5、答疑与讨论(大家提前把问题整理好) |
课程特色:
提供ppt讲义+案例+数据+python代码