机器学习再发顶刊,上财郭峰老师团队创新因果推断方法!速来学习!
文摘
2024-12-24 11:46
四川
原文链接:郭峰,吕斌,熊云军,等.大小城市合并与行政边界地区经济增长:基于机器学习算法的合成控制评估[J/OL].数量经济技术经济研究,1-24[2024-08-01].
01引言
为突破行政边界对城市规模扩张的约束,加快城市化进程的脚步,近年来,城市行政区划调整频繁进行。城市行政区划调整极大地拓展了城市发展空间的行政约束,助力城市规模的发展壮大。行政区划的调整不仅包括城市在自己的行政区划内部进行的区划调整优化,例如撤县设区、开发区设立、国家级新区设立等等,也包括城市与城市之间的行政区划调整,例如不同城市之间的直接合并。然而,在行政边界地区发展较为落后的现实情况下,城市行政区划的调整,特别是大城市兼并小城市这种情形,究竟能否改变这些地区的落后现状,则是一个需要认真考察的问题。本文以山东省会济南市2018年年末合并山东省地级市莱芜市为案例,考察了大小城市合并对于原城市行政边界地区经济增长的影响。02理论分析与政策背景
本文研究主题是城市合并对城市原行政边界地区经济增长的影响,而大量文献已经研究发现行政边界地区的经济增长相对缓慢,经济增长水平和速度普遍落后于非行政边界地区。而关于边界地区发展缓慢的原因,除了地理障碍方面的因素外,最主要的原因是来自行政权分割和地方保护主义方面的因素。对于城市的行政区划调整来说,主要包括内部调整和外部扩张两种方式。考虑到行政区划对城市经济增长的重要影响,以及边界效应的广泛存在,行政区划的调整合并,对原边界地区的经济增长必然产生重要影响,但此方面的文献却相对较少。本文以济南和莱芜合并来考察大小城市合并对其原边界地区经济增长产生的影响。为了更精确地识别莱芜并入济南对原边界地区经济增长的因果效应,本文挑选了与莱芜和济南地理特征、经济增长相似的山东省内其他城市与城市之间的边界地区作为控制组。03模型设定与数据说明
在本文的研究框架下,合成控制法原理可以概况如下:假设能观测到𝑁+1个城市对边界地区𝑇期的灯光数据𝑌𝑖,𝑠,其中第一个边界地区单元𝑖=1作为处理组,即济南莱芜边界地区,其余𝑁个边界地区单元𝑖=2,⋯,𝑁+1作为控制组,即山东省内其余城市与城市边界地区。实际政策冲击发生在𝑇0时期,1≤𝑇0<𝑇,其中控制组单元在任何时期都不接受处理(城市合并),处理组单元在𝑠=1,⋯,𝑇0时期不接受处理,在𝑠=𝑇0+1,⋯,𝑇时期接受处理。在式(1)中,展示了分析时所使用的数据结构,其中𝑌𝑜𝑏𝑠𝑖,𝑠的含义如式(2)所示,𝑊𝑖,𝑠代表边界地区𝑖在𝑠期是否接受处理,𝑌1𝑖,𝑠表示城市对边界地区𝑖在𝑠时期接受政策干预时的潜在结果,𝑌0𝑖,𝑠表示城市对边界地区𝑖在𝑠时期没有受到政策干预时的潜在结果。𝑌下角标𝑡代表处理组单元,𝑐代表控制组单元,𝑝𝑟𝑒代表在政策干预前时点,𝑝𝑜𝑠𝑡代表在政策干预后时点。在反事实结果被估计出后,可利用观测到的结果𝑌1𝑡,𝑝𝑜𝑠𝑡减去反事实结果𝑌0𝑡,𝑝𝑜𝑠𝑡,计算出济南莱芜边界地区受政策干预的处理效应为𝜏𝑡,𝑝𝑜𝑠𝑡,如式(3)所示。为了估计𝑌0𝑡,𝑝𝑜𝑠𝑡,我们使用𝑌0𝑡,𝑝𝑟𝑒、𝑌0𝑐,𝑝𝑟𝑒、𝑌0𝑐,𝑝𝑜𝑠𝑡进行计算,拟合过程如式(4)所示,即用控制单元按照权重项ωi与截距项μ的线性组合来拟合𝑌̂0i,𝑠。在估计反事实结果过程中,传统合成控制法是以线性函数形式进行合成,主要通过回归𝑌0𝑡,𝑝𝑟𝑒和𝑌0𝑐,𝑝𝑟𝑒来估计𝜇和𝜔,具体如式(5)所示。但是,在本文的情境中,可能导致使用传统的合成控制法,存在很大挑战。因此,本文主要借鉴Doudchenko和Imbens(2016)等文献提出的基于机器学习进行合成控制的方法。我们这里主要以弹性网络算法为例,讨论基于机器学习算法的合成控制法的基本逻辑和流程。式(6)中展示了利用弹性网络算法进行合成时计算参数的基本思路。在利用公式(6)成功计算出𝜇̂和𝜔̂后,即可计算控制组个体在处理后的合成结果,也即处理组在政策发生后的反事实结果,如式(7)所示。本文在确定超参数𝛼和𝜆的过程中,依次将除处理组外的每个单元作为伪处理单元(pseudo-treatedunit),用除处理组单元和该伪处理单元外的其他单元作为控制单元进行合成。在设定机器学习损失函数过程中,将逐个伪处理单元j的实际观测值与合成值的差值作为个体损失,并将这些逐个伪处理单元的个体损失值的求和项作为总损失。随后通过代入不同的超参数,观察哪一组超参数能使得总损失函数最小,那么这组参数便是超参数𝛼和𝜆的最终取值。具体如式(8)和(9)所示。本文夜间灯光数据的原始数据为NPP/VIIRS数据。本文在乡镇层级上来刻画城市的行政边界地区。我们将那些在两个城市行政边界两侧的乡镇,定义为边界镇,而这些边界镇所在的辖区就是本文所考察的城市对的边界地区。根据山东省境内城市边界地区的灯光亮度分布发现,山东省境内城市边界地区的灯光亮度有着显著差异。根据图1,我们了解济南莱芜边界地区和其他边界地区灯光亮度(简单平均)随年分布的变化情况。总体而言,济南莱芜边界地区灯光亮度明显低于其他边界地区的灯光亮度均值。04实证结果分析
在基准模型中,我们主要利用机器学习中的弹性网络算法替代传统方法进行合成控制。基准模型选取2012年4月~2018年12月数据作为训练集,并将弹性网络模型在训练集上进行训练合成,随后在2019年1月~2021年12月期间内,使用训练好的机器学习模型,利用控制组单元数据进行预测,预测的数值结果即为济南莱芜边界地区在处理期后如果没有济南莱芜的合并将具有的反事实结果。结果如图2所示,结果表明济南和莱芜合并的确促进了济南莱芜原边界地区的经济增长,并且在量化政策影响时,可发现政策实施后,济南莱芜边界地区灯光亮度的实际值较合成值平均高了10.8%。估计结果推广表明,济南和莱芜合并后带来GDP的增长幅度为3.24%(10.8*0.3=3.24)。考虑到中国的GDP在2012~2021年保持着7.8%的平均增长率,济南和莱芜合并后对于行政边界地区的经济增长影响是巨大的。由于行政分割等原因,导致行政边界地区经济发展落后于其他地区,而行政合并消除了或者说至少在某种程度上缓解了这种边界效应背后的行政分割机制。本文通过更换城市边界地区度量方式、更换对照组样本,以及采用其他机器学习算法等来检验本文实证结论的稳健性,结果均稳健。随机选取一个控制组中的单元,假设其在2019年1月也遭遇城市合并的外生冲击,针对该单元同样利用弹性网络模型构造它的合成控制路径,以观测该单元虚假发生的政策效果。这一安慰剂检验结果表明,上文估计得到的济南莱芜合并对其边界地区产生了政策效果的结论是可信的。05进一步分析
为了考察这种大小城市之间的合并对原边界地区两侧是否产生了异质性的影响,在本部分,我们以济南莱芜边界地区的济南边界一侧和莱芜边界一侧分别作为研究对象进行考察。合成方法仍然使用前文基准模型中的弹性网络算法,超参数调优过程及合成方法也同上文保持一致。图8左图中可以看出,济南边界一侧三镇在2019年1月受到合并政策冲击后,其灯光亮度的实际观测值(红色实线)与合成值(黑色点线)之间存在显著的正向差异,说明济南莱芜的合并确实促进了边界地区济南一侧的经济增长。而图8右图中可以看出,莱芜边界三镇夜间灯光亮度实际值(红色实线)与合成值(黑色点线)相比并没有出现明显的变化,即济南莱芜的合并对边界地区莱芜一侧经济增长的促进作用并不明显。对于济南与莱芜的合并对原边界地区两侧产生的异质性政策效果的原因,本文从济南和莱芜原本的城市规模和发展模式进行分析。从一般意义上讲,大城市靠近小城市的边界地区,经济增长水平反而相对更差,而小城市靠近大城市的边界地区,发展水平反而相对更好。为了进一步验证这一逻辑,我们以2015年的卫星灯光为例,构造全国范围内任意两个接壤城市的边界地区经济增长水平对比。图9绘制了城市规模对比和边界经济发展水平对比的拟合图。图9中高度负向的拟合关系,意味着大小城市边界地区的相对发展水平差异与他们之间的城市规模差异确实是反向的关系。本文参考郭峰等(2023b)定义中心城区方式,分别以扣除边界镇之外的乡镇作为济南、莱芜的中心城区作为处理组,以除济南、莱芜外全国其他地级市中心城区作为控制组进行合成,进而考察济南莱芜的合并对济南和莱芜两个城市的中心城区产生的影响。此时的结果如图10所示,从中可以看出合并政策的发生,对于济南中心城区也产生了一些正向效果(5.51%),远高于对于莱芜中心城区的效果(0.25%)。由此说明,济南莱芜合并的发生,无论是对中心城区的影响还是对边界地区的影响方面,在济南市都有着更大的正向政策效果,而对于莱芜市政策效果则不明显。我们更换了数据集合的切分方式,将原始训练集中实际政策发生前一年的样本切分出来作为模型外测试集。即仅使用2012年4月~2017年12月的样本作为训练集,构建济南莱芜边界地区与其他城市对边界地区之间的合成关系,而将2018年1月~2018年12月样本作为模型外测试集。图11展示了重新切分数据集后的结果,总体而言,在2018年1月~2018年12月的测试集中,济南莱芜边界地区观测值和合成值并无显著差异,说明过拟合因素对本研究实证结果影响甚微。而这一结果更进一步证明在2019年1月~2021年12月数据中,济南莱芜边界地区实际观测值和合成值之间的差异,就可被解释为济南莱芜合并的政策效果。在图11中,我们也可以看出,将2018年作为测试集时,2018年的最后几个月,其实济南莱芜边界地区的实际值有略微高于其反事实合成值的趋势,这里的原因很可能是因为该政策会被提前预期到。因此为了对此进一步进行检验,我们将验证集分别设置为2017年和2016年,来进行考察。图11和图12的结果也进一步证明,济南莱芜的合并确实被提前预期到了,因此在政策正式落地前,政策效果已经有所显现。而且,政策提前被预期到并不会影响到本文基准结果的成立,反而会使得本文的结果低估了真实的处理效应,即政策实际产生的处理效应应当比论文所汇报出的实证结果还要高。为了进一步检验本文的研究结论和研究方法的外部有效性,我们将长春代管公主岭作为另外一个案例进行考察。结果如图13所示,边界地区长春一侧实际结果与合成反事实结果差异为年均27.78%,而公主岭一侧的政策效果年均19.22%。从该案例的结果可以看出,城市合并(行政区划调整)虽然对小城市一侧也产生了积极影响,但更大的积极影响仍然主要体现在大城市一侧,这一结论与本文的核心结论大体保持一致。06结论与启示
济南莱芜合并对原边界地区经济增长产生正向影响,结论在更换了边界地区度量方式、对照组选取方式、机器学习算法等后依旧保持稳健。进一步研究还发现,城市合并的正向效应主要体现在核心城市济南市边界一侧,而被合并的小城市莱芜市边界一侧则受益甚微。另外,文章也通过预留样本、考察其他案例的方法验证了本文核心结论的外部有效性,表明基于机器学习算法的合成控制法有较为广泛的适用性。第一,研究发现大小城市合并有助于促进城市行政边界地区的经济增长更快,边界地区的这种增长效应主要来自于行政壁垒的消除。第二,根据本文的分析逻辑,大小城市的合并政策会对大城市和被合并的中小城市造成异质性影响,进而不利于实现区域协调发展和共同富裕。第三,本文研究结果一个隐含结论是,解决城市行政边界地区发展落后的洼地效应,关键在于大城市。