【学术分享】开放政府数据对创业活动的影响:基于机器学习的准实验研究

文摘   2025-01-02 12:00   浙江  

推荐语

      今天为大家推介的是来自湖南大学的雷玉琼教授、杨俊博士研究生和复旦大学的刘展余博士研究生近期发表在JAPP上的文章《开放政府数据对创业活动的影响:基于机器学习的准实验研究》(The impact of open government data on entrepreneurial activity: a quasi-experiment with machine learning)。

      这篇文章运用双重差分法和机器学习技术,对中国开放政府数据(OGD)对创业活动的影响进行了深入细致的实证研究。研究结果强有力地证明了OGD对创业活动具有显著的积极作用,并揭示了其作用机制,包括提升政府效率、促进风险投资和技术创新。进一步分析发现,科技投资水平和信息化水平是正向调节OGD影响的关键城市特征。稳健性检验支持了研究结果,强调了OGD在刺激经济增长中的重要性,并为促进创业活动提出了政策建议。



作者信息

1

雷玉琼

湖南大学公共管理学院教授

2

杨俊

湖南大学公共管理学院博士研究生

3

刘展余

复旦大学国际关系与公共事务学院博士研究生



文章摘要

开放政府数据(OGD)是一种主张将政府掌握的数据向公民和利益相关者公开的理念。虽然越来越多的国家正在采用这种方法,但关于其对创业活动影响的实证证据仍然有限。我们的研究采用双重差分法(DID),严格评估OGD对创业活动的因果效应及其背后的机制。此外,我们运用机器学习技术——因果森林(Causal Forest),深入探讨塑造OGD影响的关键城市特征,并评估这些特征如何调节其效果。我们的研究结果显示,OGD对创业活动有显著的积极影响,这主要是因为其能够提升政府效率、促进风险投资和推动技术创新。此外,我们确认科技投资和信息化水平是积极调节OGD影响的重要城市特征。


Open government data (OGD) is a philosophy advocating for the public release of government-held data to citizens and stakeholders. While numerous countries are increasingly adopting this approach, empirical evidence regarding its impact on entrepreneurial activity remains limited. Our study utilizes a difference-in-differences (DID) approach to rigorously assess the causal effect of OGD on entrepreneurial activity and its underlying mechanisms. Additionally, we employ a machine learning technique, Causal Forest, to delve into the pivotal city characteristics that shape OGD’s impact and to assess how these features moderate its effects. Our findings reveal a significantly positive effect of OGD on entrepreneurial activity, primarily driven by its capacity to enhance government efficiency, foster venture capital, and promote technical innovation. Furthermore, we identify sci-tech investment and informatization level as critical city characteristics that positively moderate the impact of OGD. 



文献综述

      这篇文章对两个不同领域的相关文献进行了全面回顾。这些文献主要解析 OGD 的经济影响和创业活动的决定因素。这些来源中阐述的当代发展及其揭示的局限性,将作为塑造本文研究方向的催化剂。

(1)OGD 的经济影响

      目前,研究 OGD 复杂经济影响的文献尚少。OGD 经济影响的探讨主要涵盖两个核心领域:其对微观层面企业运营的影响及其对宏观经济增长的潜在影响。

      首先,学者们普遍认为,OGD 可以提高行政效率、改善融资约束,并促进企业内的技术创新(Mergel et al., 2018; Peng, 2023; Valli Buttow & Weerts, 2022)。这些因素共同促进了市场评价的改善和整体业务表现的提升。基于 2015 年至 2019 年间中国上市公司的数据,Zhang 和 Lin(2023)得出结论,OGD 对企业的全要素生产率产生积极影响。这些影响通过减少信息不对称和推动技术创新而体现。重要的是,这些影响在采用高创新策略的企业中更为显著。同样地,基于 2007 年至 2021 年间中国上市公司的数据,Peng(2023)揭示了 OGD 对企业全要素生产率的积极影响。这种影响来源于政策效率的提升、企业融资的便利化和技术创新的推动。尤其值得注意的是,这种影响在私营和年轻企业领域尤为明显。

      其次,一些研究指出,OGD 有可能通过提供经济活动所必需的数据要素和优化区域资源配置来促进经济增长和公平发展。Zhang et al.(2023)通过对 2004 年至 2019 年跨国数据的细致分析,发现一个国家的 OGD 水平与其 GDP 之间存在正相关关系。值得注意的是,这种正相关关系还受到国家现有信息和通信技术环境的影响。Fang 等(2023)分析了 295 个城市 2009 年至 2021 年的数据,发现 OGD 可以通过优化资源配置减少城市内的经济发展不平衡。


(2)创业活动的决定因素

      大量研究已经开始探索影响创业活动的多方面因素。通常,通过新企业注册数量或其相对于地区人口的比例来衡量特定地区创业活动的活跃程度(Gan et al., 2023; Wang et al., 2023)。随着对影响创业活动因素的研究展开,各种研究视角也随之涌现。这些研究视角涵盖了从政治环境到社会经济结构的各个层面。 

      在政治领域,学者们揭示了政策改革的影响作用。数字政府建设、“互联网+”政务服务、智慧城市试点、“宽带中国”试点、反腐行动、创新城市试点以及高新区的建立等举措显著推动了创业活动的发展(Bai et al., 2022; Gan et al., 2023; Kong & Qin, 2021; Li et al., 2023; Liu et al., 2023; Luo et al., 2022; Tian & Xu, 2022; Xu et al., 2022)。此外,政府的独特属性——包括电子政务发展水平、治理能力、司法效率、财政激励措施、监管质量以及政府规模等——与创业活动的格局密切相关(Agostino et al., 2020; Aidis et al., 2012; Falavigna et al., 2019; Martins & Veiga, 2022; Nakku et al., 2020; Omri, 2020; Peng & Liu, 2018)。

      转向社会经济背景,创业活动的轨迹受到多种经济因素的复杂影响。从技术创新、数字经济发展、住房市场发展、区域基础设施动态到金融环境的轮廓,这些因素都对创业活动产生显著影响(Acs et al., 2021; Audretsch et al., 2015; Galindo & Méndez-Picazo, 2013; Omri, 2020; Wang & Hu, 2023; Yin et al., 2019)。同样重要的是,现有文献强调,社会文化,包括个人价值观、文化规范、国家认同和描述性规范,对创业活动的轨迹具有重要影响(Bogatyreva et al., 2019; Calza et al., 2020; Jones & Pratap, 2020; Santos et al., 2021; Stephan & Uhlaner, 2010)。

      总体而言,虽然现有研究尚未直接探讨OGD与创业活动之间的关系,但确实提供了它们联系的初步迹象。早期的文献回顾指出,推动创业活动的某些因素与OGD密切相关。例如,推动创业活动的政策改革,如数字政府建设和“互联网+”政务服务,本质上与OGD密不可分(Gan et al., 2023; Liu et al., 2023);与创业活动相关的经济因素,如技术创新和金融环境,也受到OGD的驱动(Galindo & Méndez-Picazo, 2013; Omri, 2020)。此外,这些研究中概述的方法提供了评估OGD对创业活动影响的工具,例如双重差分法(DID)。然而,在当前的理解中,现有研究在考察政策效果的多样性时存在显著的局限性。这些研究探讨了由于某些因素而导致的政策效果变化的幅度,但却未能评估这些因素的相对重要性。需要认识到,某些因素在塑造政策影响方面起着关键作用,而其他因素的影响可能较为有限。在政策实施过程中,巧妙地识别出影响政策效果变化的最重要的决定因素至关重要。 

      受上述文献的启发,本文将利用2010年至2020年间中国城市的面板数据,采用DID方法仔细考察OGD对创业活动的影响。此外,作者将通过应用机器学习技术——因果森林,更深入地探讨OGD对创业活动影响的异质性。此分析将评估多样的城市特征在塑造OGD相关结果中的重要性,同时揭示这些城市特征与OGD影响之间的细微互动关系。



政策背景与影响机制

(1)中国OGD的实施

      中国OGD倡议的起源可以追溯到 2012 年,当时北京(data.beijing.gov.cn)和上海(data.sh.gov.cn)开始建设OGD平台。2015 年,中国国务院发布了《促进大数据发展行动纲要》,这一关键文件明确要求各级政府广泛传播公共数据。在这一政策指引的推动下,OGD在地方政府中迅速普及。值得注意的是,运行的 OGD 平台从 2015 年的 10 个迅速增至 2022 年的 208 个。其中,省级平台有 21 个,市级平台有 187 个。特别引人注目的是,超过 50% 的地级市及以上城市采用了OGD,其分布覆盖了中国各类经济发展区域(如图 1 所示)。

      在上述OGD平台启动后,向公众发布数据集的趋势持续上升。这些开放数据集涵盖了 14 个与我们日常生活密切相关的重要主题,涉及市场动态、公共安全、社会保障、机构信息、技术、住房、环境和信用等领域。特别是,在数据集发布数量上,排名前五的主题包括公共安全、社会保障、机构信息、信用和市场数据。这些数据集可通过直接下载或 API 数据接口获取。在这些主题中,市场领域的社会兴趣和需求显著增加。以杭州市的OGD平台(data.hangzhou.gov.cn)为例,下载量前五的数据集中有三个属于市场领域,包括基本市场实体信息、不规范企业名单和房地产价格数据。来自上海 OGD 平台(data.sh.gov.cn)的一项调查结果强调了市场数据在公众需求中的重要地位。

      此外,借助OGD的基础,中国一些地方政府构建了数字政府服务应用,以提高治理和行政效率。值得注意的例子包括浙江省的 “浙里办” 应用和深圳市的 “i 深圳” 应用。这种创新的方法体现了中国不断努力利用 OGD 提高公共服务和促进高效行政管理的进程。


(2)OGD 影响创业活动的机制

      通过对学术文献的全面回顾,本研究提出 OGD 能够通过三个不同的机制促进更高的创业活动(见图 2)。

      首先,OGD可以通过提高政府效率来催化创业活动。现有研究表明,政府不同部门之间的数据共享可以消除部门间的障碍(Henman, 2019),促进政府流程重组和提升行政效率(Kalampokis et al., 2011)。这种催化效应加速了商业注册程序,从而最终促进了创业活动(Tian & Xu, 2022)。其次,OGD可以通过激活风险投资环境来促进创业活动(Attard et al., 2015)。正如所展示的,OGD平台提供了大量关于商业实体的信息,包括信用数据、基本市场实体信息和不规范企业名单。这些数据资源减轻了投资者和潜在被投资者之间的信息不对称,从而降低了投资风险(Peng, 2023)。最后,OGD可以通过激励技术创新来催化创业活动。政府门户提供的数据为企业和创新者提供了推动新技术和数字应用创新的素材(Krugman, 1991)。这种创新活动可以导致新产品、服务和商业模式的创建(Ahmadi Zeleti et al., 2016)。



实证策略

(1)数据

      受文献回顾的启发,本文采用双重差分法(DID)和因果森林(Causal Forest)来研究 OGD 对创业活动的影响、机制及其异质性。为此,作者将中国 OGD 的实施视为一个准实验,利用 2010 年至 2020 年间中国 293 个地级市的面板数据。以下是不同变量的数据来源。

      OGD 数据来源于中国国家信息中心和复旦大学每年发布的《中国开放数据指数报告》(2022)(DMG Lab, 2023)。根据报告,2010-2020 年期间采用 OGD 的城市被视为处理组,其他城市为对照组。创业活动的数据来自爱企查网,该网站记录年度商业注册数据。为了更好地理解两组的创业时间趋势,作者绘制了处理组和对照组每年新商业注册的平均值,如图 3 所示。在 2012 年首次实施 OGD 之前,处理组和对照组的创业趋势相似。政策实施后,处理城市的创业活动显著增加,而对照城市则逐渐变化。由此可以初步判断,OGD 与创业活动之间可能存在一定的相关性。

      本研究中使用的额外数据来自《中国城市统计年鉴》《中国研究数据服务平台》(CNRDS)《中国区域创新与创业指数》(IRIEC),以及由华盛顿大学圣路易斯分校大气成分分析组发布的 PM2.5 浓度数据集。考虑到某些变量存在缺失数据,作者使用 MissForest,一种非参数算法来进行缺失值填补。


(2)变量测量

因变量:本研究的因变量是创业活动。参考已有研究的方法(Bu & Liao, 2022; Gan et al., 2023),本文为此变量构建了两个不同的度量:新商业注册数量(简称 EA)和每万人新商业注册数量(简称 EA_RATIO)。前者反映了创业活动的绝对水平,而后者则衡量相对水平。鉴于企业增长的指数特性,两种衡量标准在纳入模型时都进行了对数转换。


自变量:为了捕捉 OGD 的影响,本文制定了一个交互项,称为 TREAT_POST。在此交互项中,TREAT 表示一个城市是否属于处理组,若是则赋值 1,否则为 0。POST 作为时间虚拟变量,从 OGD 平台启动的年份起赋值为 1,在此之前为 0。


机制变量:为了验证潜在机制,本文为政府效率、风险投资和技术创新创建了衡量指标:A.政府效率指标(简称 GOVER_EFFIC)通过数据包络分析(DEA)构建。DEA 评估实体将投入转化为多种输出的效率,有助于识别操作效率水平和资源利用改进。DEA 得出的效率分数范围为 0 至 1,分数越高表示操作效率越高。在本文的研究中,DEA 通过考虑人均财政支出作为投入,以及人均 GDP、人口中中小学学生比例、医院和医疗中心的人均床位数、PM2.5 浓度的倒数为期望输出(Asatryan & Witte, 2015; Hauner et al., 2010; Qi & Guo, 2012),来评估政府运作效率。此方法提供了政府如何有效利用资源来产生经济价值、公共服务和环境成果的洞察。B.风险投资指标(简称 VENTU_CAPIT)使用由北京大学企业大数据研究中心整理的《中国区域创新与创业指数》(IRIEC)中的风险投资吸引力得分。风险投资吸引力得分反映了一个地区基于基金经理实际投资行为数据的风险投资活动强度(Dai et al., 2021)。C.技术创新指标(简称 TECH_INNOV)通过专利授权数量来量化,这是中国创新的可靠指标(Dang & Motohashi, 2015)。专利包括各种类别,如发明专利、实用新型专利和外观设计专利(Irfan et al., 2022; Li et al., 2022)。鉴于发明专利具有最高的创新价值,本文采用授权发明专利数量作为衡量技术创新的指标。


控制变量:根据以往研究,本文纳入了 11 个城市级别特征作为控制变量:政府规模(GOVER_SIZE),通过政府预算支出占 GDP 的百分比来评估(Aidis et al., 2012; Estrin et al., 2013)。科技投资(SCI_TECH),通过科技支出占总支出的比例来衡量(Peng & Liu, 2018)。信息化水平(INFORM_LEVEL),通过互联网用户占总人口的比例来指示(Agostino et al., 2020)。人口规模(POPUL_SIZE),反映年末总人口(Omri, 2020)。经济发展(ECONO_DEVEL),以人均 GDP 衡量(Aidis et al., 2012)。产业结构(INDUS_STRUC),表示第三产业占 GDP 的百分比(Peneder, 2002)。私营经济(PRIVA_ECONO),通过私营和个体户占总人口的比例评估(Dai & Si, 2018)。金融资源(FINAN_RESOU),通过金融机构贷款余额占 GDP 的比例衡量(Aidis et al., 2012; Feola et al., 2019)。教育资源(EDUCA_RESOU),以教育支出占政府预算支出的比例量化(Omri, 2020)。医疗资源(MEDIC_RESOU),以医院和健康中心的床位数占年末总人口的比例表示(Omri, 2020)。消费水平(CONSU_LEVEL),反映消费品零售总额占 GDP 的比例(Santos et al., 2021)。人口规模和经济发展在纳入模型时进行了对数转换。变量的详细测量和摘要统计在表 1 。


(3)模型规格

①交叠双重差分法

基准模型:在已有研究的启发下,本文使用双重差分法调查 OGD 对创业活动的影响。该方法中一个关键考虑是确定用于量化政策效果的合适指标。在这方面,本文采用了staggered DID模型,借鉴了 Beck et al. (2010)的思想。与主要适用于单一政策冲击点情境的经典 DID 模型不同,staggered DID模型特别适合于政策具有多个实施点的情况。这种适应性与 OGD 实施的细微背景无缝对接。公式如下:

      其中下标 i 和 t 分别对应城市和年份。Yit 表示结果变量,表示城市 i 在年份 t 的创业活动。TREAT POSTit 是主要的自变量,表示 OGD 在年份 t 是否在城市 i 引入。估计系数 β1 代表平均处理效应,揭示 OGD 对创业活动的影响。正如之前所推测的,本文预计这一影响为正,与上述机制一致。Controlit 构成了城市 i 在时间 t 的城市特定特征数组。CityFEi 体现了城市固定效应,有效考虑了在同一城市中随时间保持不变的潜在属性。YearFEt 表示年度固定效应,考虑了时间趋势。最后,εit 表示随机误差项。


平行趋势检验模型:进行 DID 分析的基本先决条件之一是平行趋势假设。该假设认为两个不同样本城市组的因变量在政策干预之前表现出相似的时间模式,但在政策实施后发生分歧。为了评估本文的研究设计是否满足这一关键假设,作者探讨了 OGD 对创业活动的动态影响(Baker et al., 2022)。动态效应模型的公式如下:

      其中 TREAT Periodk it 是一个反映城市 i 在年份 t 是否处于周期 k 的二元变量。对于处理组的城市,根据特定规则为此变量赋值:作者采用符号 basei 来表示 OGD 在城市 i 实施的特定年份。若 t - basei = k,则 TREAT Periodk it 赋值为 1;否则,赋值为 0。对于控制组的城市,此变量直接赋值为 0。为了简化和清晰,本文将 TREAT Period-5 it 到 TREAT Period-1 it 表示为 BEFORE5 到 BEFORE1,TREAT Period0 it 表示为 CURRENT,TREAT Period1 it 到 TREAT Period5 it 表示为 POST1 到 POST5。根据既定文献,本文将 OGD 实施前一年指定为基准期,以比较随时间推移的演变影响。因此,BEFORE1 在回归分析中被省略。


机制验证模型:虽然基准模型可以衡量 OGD 对创业活动的影响,但并未明确解决假设规定的间接效应。因此,依据 Baron 和 Kenny(1986)提出的方法,进行额外的机制验证,以验证 OGD 促进创业活动的机制。机制验证模型的结构如下:

      在这些方程中,Mediatorit 表示机制变量(即 GOVER_EFFIC、VENTU_CAPIT 和 TECH_INNOV)。验证机制的过程包括两个步骤:首先,通过方程(3)确定自变量 TREAT POSTit 对机制变量的影响。其次,在控制自变量影响的情况下,通过方程(4)确定机制变量对创业活动的影响。机制影响的确认需要第一步中系数 δ1 和第二步中系数 θ2 的显著性。


(2)因果森林

      除了考察主要效应外,本文还将探讨 OGD 对具有不同特征城市的创业活动影响的异质性。如文献综述所示,需要评估城市特征在确定 OGD 效应中的相对重要性。因此,本文没有按照以往研究的方式进行异质性分析,因为这些研究只关注不同样本特征如何分别影响 OGD 的效应大小,但没有关注这些特征相对重要性的排序。相反,本文将采用一种称为因果森林的机器学习技术来进行异质性分析,该技术具有评估样本特征在确定处理效应中的相对重要性的功能(Tiffin, 2019)。



实证分析

(1)交叠双重差分模型结果

基准结果:首先利用方程(1)检验 OGD 对创业活动的影响,回归结果如表 2 所示。列(1)-(2)以新商业注册数量(EA)为因变量。TREAT_POST 的估计系数超过 0.091,并且在 1% 的水平上显著,表明 OGD 提高了绝对创业活动。列(3)-(4)以每万人新商业注册数量(EA_RATIO)为因变量。TREAT_POST 的估计系数超过 0.071,并且在 1% 的水平上显著,表明 OGD 对相对创业活动也有积极影响。这些结果初步验证了 OGD 对创业活动的积极影响。


平行趋势检验:表 3 展示了基于方程(2)的平行趋势检验结果。列(1)将新商业注册数量(EA)作为因变量,而列(2)将每万人新商业注册数量(EA_RATIO)作为因变量。如表所示,无论使用何种因变量,BEFORE5-BEFORE2的估计系数在统计上均不显著。相反,CURRENT-POST2的系数显著为正。这一观察表明,在OGD实施之前,处理组和对照组城市之间的创业活动没有实质性差异。因此,该结果证实了OGD与因变量之间的因果关系不受先前趋势的影响,从而满足平行趋势假设。

      此外,值得注意的是,POST3-POST5 的系数在统计上不显著。这一发现暗示 OGD 对创业活动的积极影响是短暂的。这与先前的研究结果一致,并导致作者推测这一现象可能归因于缺乏持续创新(Peng, 2023)。OGD常通过使企业能够利用新获取的数据来开发创新产品或服务来启动创业活动。然而,一旦这些创新实现,新企业创立的步伐可能会放缓,导致创业活动下降。


稳健性检验:在本研究中,作者进行了全面的严谨稳健性检验系列,以证实 OGD 对创业活动影响的发现:

      为了减轻城市采用OGD及其对创业活动影响中的自选择可能带来的偏见,本文采用了两种谨慎的方法重新评估OGD的效应。首先,本文应用了熵平衡双重差分(EB-DID)方法,使用可观测协变量对数据集进行策略性再加权,以增强处理组和对照组之间的可比性(Hainmueller, 2012)。其次,本文利用了Heckman选择模型,这是一种复杂的两步估计技术,旨在解决选择概率(Heckman, 1979)。即使在考虑了自选择偏差后,分析仍然持续验证了OGD对创业活动的实质性积极影响,从而强调了我们基准结果的可靠性。

      为了确定本文初始结果中发现的显著正系数是否仅仅归因于随机概率,作者进行了安慰剂检验。这一严格的检查涉及将特定城市随机分配为模拟处理组,生成一个系数分布,其系数大致围绕零散布(Cantoni et al., 2017; Gan et al., 2023; Li et al., 2016)。OGD的真正效应与安慰剂检验系数显著不同,表明基准结果不是由于随机概率,从而支持 OGD 影响的可信度。

      为了解决反向因果关系相关的担忧,本文使用了基于到主要城市的最短球面距离的工具变量方法(Nunn & Qian, 2014; Qin et al., 2022; Zou & Deng, 2022)。两阶段最小二乘回归结果确认了工具变量的有效性,OGD 的积极影响仍然显著。

      为了应对样本异质性问题,本文通过各种精心设计的技术对样本规模进行了调整,包括排除缺失数据的样本、省会城市和副省级城市的省略,以及审慎应用winsorization以减轻异常值的影响。无论选择何种修改,分析始终验证OGD对创业活动的实质性积极影响。

      此外,本文在未对因变量进行对数转换的情况下重新评估 OGD 的影响,采用了普通固定效应模型和固定效应泊松模型。在所有排列中,OGD对创业活动的明显积极影响仍然是一个稳健的发现,强调了本文基准结果的可信度和韧性。

      此外,本文通过引入二元变量预防了可能与其他政策同时发生的干扰,例如反腐运动、智慧城市试点和宽带中国试点。本文的估计结果始终显示 OGD 的积极影响的持久性,重申其不受其他同时政策的影响。


机制验证:在确认 OGD 对创业活动的主要影响后,本文进行了中介分析,以深入探讨其潜在机制(Baron & Kenny,1986)。根据方程(3)到(4),该分析涉及两个额外的回归步骤。首先,本文进行三个简单回归,以确定自变量与机制变量(GOVER_EFFIC, VENTU_CAPIT, TECH_INNOV)之间的关系。随后,本文将因变量对机制变量和自变量进行回归。关于政府效率(GOVER_EFFIC)的中介分析结果如表 4 所示。在列(1)中,TREAT_POST的系数显著为正。在列(2)-(3)中,GOVER_EFFIC的系数略显显著为正。这些发现共同表明OGD显著正向影响政府效率,政府效率对创业活动有边际显著的正向影响,表明政府效率的中介作用。分析重申 OGD 通过增强政府效率来促进创业活动。

      转向风险投资(VENTU_CAPIT)的中介分析,结果详见表 5。在列(1)中,TREAT_POST 的系数显著为正。列(2)-(3)显示VENTU_CAPIT的系数显著为正。这些结果强烈表明OGD对风险投资有显著正向影响,风险投资对创业活动有显著正向影响,为风险投资的中介作用提供了有力证据。分析强调 OGD 通过培养有利的风险投资环境来刺激创业活动。

      技术创新(TECH_INNOV)的中介分析如表 6 所示。在列(1)中,TREAT_POST的系数显著为正。列(2)-(3)证明TECH_INNOV的系数显著为正。这些结果确认OGD对技术创新有显著正向影响,技术创新对创业活动有显著正向影响,肯定了技术创新的中介作用。分析提供了令人信服的证据,表明 OGD 通过推动技术创新的进步来促进创业活动。


(2)使用因果森林进行异质性分析

特征重要性评估:根据文献综述中获得的见解,本文使用因果森林方法对 OGD 对创业活动影响的异质性进行了全面探索。为了确定每个观察个体的处理效应(即观察水平的处理效应)并排列城市特征在解释这些效应变化中的重要性,本文启动了因果森林模型的训练。用于模型训练的城市特征包括 11 个控制变量,涵盖了每个调查城市的行政、经济和社会特征。在图 4 中图形化展示了确定处理效应的重要特征,其中左图展示了OGD对 EA 影响的特征重要性,右图则说明了OGD对EA_RATIO影响的特征重要性。

      如图所示,影响OGD对创业活动影响的两个最重要的特征是科技投资和信息化水平。这些发现强调,城市的科技投资水平和信息化水平显著影响OGD在该城市促进创业活动的程度。为阐明科技投资和信息化水平影响 OGD 效果的调节机制,本文深入探讨以下理论论述:首先,本文认为科技投资正向调节 OGD 对创业活动的影响。其次,本文认为信息化水平正向调节 OGD 对创业活动的影响。


科技投资的调节作用:为了证实科技投资对OGD影响创业活动的调节效应,本文根据科技投资水平将每个观察分为 “高科技投资” 组或 “低科技投资” 组。随后,使用 t 检验比较了这两个组之间观察水平处理效应的平均值。子组分析结果如图 5 所示,左图展示了科技投资对OGD对 EA 影响的调节效应,右图则说明了OGD对EA_RATIO影响的调节效应。如图所示,OGD对创业活动的处理效应在高科技投资组中显著高于低科技投资组,这证实了科技投资正向调节OGD对创业活动的影响。


信息化水平的调节作用:为了证实信息化水平对 OGD 影响创业活动的调节效应,本文进行了子组分析。结果如图 6 所示,左图展示了信息化水平对 OGD对EA影响的调节效应,右图则说明了OGD对EA_RATIO影响的调节效应。正如图中所示,OGD对创业活动的处理效应在高信息化水平组中显著高于低信息化水平组,这证实了信息化水平正向调节OGD 对创业活动的影响。


3)附加分析

      除了前述分析之外,本文还考察了OGD质量对创业活动的影响。本文在实证分析主体中采用的主要 DID 方法主要评估了OGD平台建设的影响。然而,平台的建立仅仅是初始步骤,后续运营的质量同样具有重要意义。因此,为了进一步证实先前结论的可靠性,本文利用中国开放数据指数报告中的开放数据指数作为评估OGD质量的指标。随后,以横截面数据形式考察其对创业活动的影响。中国开放数据指数报告中呈现的开放数据指数提供了对平台特征、数据质量和数据利用的全面评估(DMG Lab, 2023)。鉴于 2018 年和 2019 年提供了最全面的数据,本文分析了这两年 OGD 质量与创业活动之间的关系。具体估计结果如表 7 所示。列(1)-(2)提供了基于2018年数据的回归结果,而列(3)-(4)则展示了基于2019年数据的回归结果。与主要分析一致,数据始终揭示了中国 OGD 质量与创业活动之间的正相关。这一发现进一步支持了我们主要结论的稳健性。



研究结论

      本研究全面评估了OGD对中国城市创业活动的影响,揭示了其通过提升政府效率、刺激风险投资和推动技术创新等机制产生的正面影响,并进行了异质性分析,确定了科技投资和信息化水平作为关键城市特征的重要作用。研究结果不仅支持OGD在经济复苏中的潜力,还提供了政策建议,如倡导OGD采用和科技投资,加强信息化建设等。然而,研究承认了数据限制和潜在偏差问题,建议未来研究扩展对创业质量指标的分析,并在不同政府层级验证结果,以提供OGD对创业活动影响的更全面视图。


消息来源:Lei, Y., Yang, J., & Liu, Z. (2023). The impact of open government data on entrepreneurial activity: a quasi-experiment with machine learning. Journal of Asian Public Policy, 1–32.、https://doi.org/10.1080/17516234.2023.2294620 JAPP Digest等。内容仅做学术分享之用,版权归原作者所有,若涉及侵权等行为,请联系我们删除,万分感谢。



此前资源合集





【资源25001】国自然标书分享五:骨髓间充质干细胞;缺血再灌注损伤;外泌体;脂肪变供肝;铁死亡。免费下载
【资源24085】已清洗好的七大老年健康数据库
【资源24084】国自然标书分享四:DNA复制;复制压力;DNA链间交联;范可尼贫血症;骨髓衰竭。免费下载
【资源24083】国自然标书分享三:心肌再生;环状RNA;核糖体新生;细胞周期。免费下载
【资源24082】国自然标书分享二:慢性病患者;护理;家庭弹性;发展轨迹;干预。免费下载
【资源24081】国自然标书分享一:骨改建;骨细胞成熟演化;骨细胞;Hes1蛋白;E11蛋白。免费下载
【资源24080】中国地级市政府财政透明度数据(2013-2024),免费下载
【资源24079】中国城市蔓延指数(2000-2023),免费下载
【资源24078】最新劳务外包数据(可识别为劳务派遣或灵活就业等)
【资源24077】370万+ 政府采购合同公告明细数据(1996.6-2024.3)
【资源24076】省市县人口密度(2000-2023),免费下载
【资源24075】全国地级市极端天气数据2011-2022,免费下载
【资源24074】2024年POI兴趣点数据(全国/分省/来源于OSM),免费下载
【资源24073】【顶刊复刻】中国工业经济-数实产业技术融合与企业全要素生产率(2008-2022),免费下载
【资源24072】【顶刊复刻】数字化转型与共同富裕(2002-2022)
【资源24071】2010-2022年清洗好的CFPS(中国家庭追踪调查)面板数据和代码(190个)
【资源分享24070】华证评级年度数据处理(2009-2021年),含Stata代码,免费下载
【资源分享24069】CGSS中国综合社会调查面板数据2011-2021年部分变量,免费下载
【资源分享24068】中央和省级产业政策数据(可直接使用),包含Stata代码,免费下载
【资源分享24067】A股上市公司常用控制变量数据整理(2000-2021年)附Stata代码,免费下载
【资源分享24066】高校导师评价数据集,免费下载
【资源分享24065】农村经济378个相关指标(2000-2021年),免费下载
【资源分享24064】沪深上市公司媒体关注数据(2001-2020),包含媒体报道报刊和网络,免费下载
【资源分享24063】各省经济高质量发展指数面板数据(2000-2021),免费下载
【资源分享24062】管理层短视行为数据及stata代码(2008-2021),免费下载
【资源分享24061】管理世界新测度,环保规制强度(2005-2024),免费下载
【资源分享24060】IFR机器人数据(1993-2019),免费下载
【资源分享24059】上市公司工业机器人渗透度(2007-2022年),免费下载
【资源分享24058】上市公司管理层权力-主成分分析代码+数据,免费下载
【资源分享24057】全国679个城市地理距离矩阵+286个地级市0-1相邻矩阵,免费下载
【资源分享24056】上市公司机器人专利数据(2005-2022),免费下载
【资源分享24055】上市公司企业融资约束数据2000-2023,免费下载
【资源分享24054】全国地方债务余额(省级+地级市)2006-2023,免费下载
【资源分享24053】中国各省平均受教育年限与学历结构(1993-2022),免费下载
【资源分享24052】《中国房地产统计年鉴》,免费下载
【资源分享24051】上市公司重污染行业企业名单-数据+代码(2000-2023),免费下载
【资源分享24050】乡村振兴之农业现代化,免费下载
【资源分享24049】中国城市经济韧性(2007-2022),免费下载
【资源分享24048】润灵环球ESG评级评分数据(2019-2023),免费下载
【资源分享24047】中国地区数据要素化水平(2005-2023),免费下载
【资源分享24046】绿色金融相关数据大合集,免费下载
【资源分享24045】1-6批中国传统村落点位数据,免费下载
【资源分享24044】制造业与互联网融合发展试点DID,免费下载
【资源分享24043】智能制造试点DID(2000-2023),免费下载
【资源分享24042】中华老字号企业信息数据(截至2022.6.30),免费下载
【资源分享24041】地级市人口集聚、经济集聚、产业集聚与绿色经济效率匹配数据(Excel/Shp),免费下载
【资源分享24040】中国各省环境规制强度数据(Excel/Shp),免费下载
【资源分享24039】中国全行业品牌排名信息大全,免费下载
【资源分享24038】全国省级、地级市政府规章数据大全,免费下载
【资源分享24037】全国各省市AI算力(2000-2024),免费下载
【资源分享24036】网民社会意识调查数据(2015-2020),免费下载
【资源分享24035】2024年7月全国各省市水系数据,免费下载
【资源分享24034】中国省份面板数据(2004-2023),免费下载
【资源分享24032】顶刊复刻!社会保险缴费负担与企业转型升级(2010-2022),免费下载
【资源分享24031】全国各地级市能源消耗量数据-基于灯光数据的反演(2000-2022),免费下载
【资源分享24030】上市公司绿色信息披露质量评分数据2008-2023,免费下载
【资源分享24029】全球气象站点年平均降水数据(Excel/Shp),免费下载
【资源分享24028】中国农村研究数据大合集(2000-2021),免费下载
【资源分享24026】全国各省、市、县最低工资标准数据(2001-2023),免费下载
【资源分享24025】上市公司-历年供应商、客户明细数据(2001-2023年),免费下载
【资源分享24024】羊群效应CSSD、CSAD指标测度数据(2000-2023),免费下载
【资源分享24023】政府引导基金数据(2001-2023),免费下载
【资源分享24022】金融、信贷、资本错配程度(1998-2023),免费下载
【资源分享24021】【复现数据集】数字技术创新对企业市场价值的影响研究
【资源分享24020】机器人主题:顶刊数据、代码大合集(2022-2024),免费下载
【资源分享24019】【复现数据集】数字化转型如何影响企业全要素生产率
【资源分享24018】【复现数据集】负重前行:经济增长压力的收入分配效应
【资源分享24017】【复现数据集】数字经济之于城市碳排放:“加速器”抑或“减速带”?
【资源分享24016】【复现数据集】“宽带中国”战略试点政策对城市绿色创新的影响
【资源分享24015】【复现数据集】企业ESG表现、创新与全要素生产率
【资源分享24014】【复现数据集】数字经济对大中小企业全要素生产率影响的鸿沟效应
【资源分享24013】【复现数据集】创新型城市绿色发展:效率测算、外部性与提升路径
【资源分享24012】【复现数据集】低碳城市试点政策、居民低碳素养与企业绿色技术创新(2006-2022)
【资源分享24011】【中国人口·资源与环境】低碳城市试点政策对出口企业绿色创新的影响,免费下载
【资源分享24010】数字金融与企业ESG表现:效应、机制与“漂绿“检验,免费下载
【资源分享24009】人工智能顶刊-文章+数据+代码合集(2020-2024),免费下载
【资源分享24008】高教类教育教学改革、教学成果奖等类型项目申请书合集 (2023-2024),免费下载
【资源分享24007】环境政策DID大全,免费下载
【资源分享24006】国家自然科学基金标书(2003-2024),免费下载
【资源分享24005】2004-2023年《中国农产品价格调查年鉴》,免费下载
【资源分享24004】2009-2023年数据要素市场建设数据,免费下载
【资源分享24003】2024年中国人工智能企业数据库数据,免费下载
【资源分享24002】上市公司-制造业数据大全(1990-2023年),免费下载
【资源分享24001】2023省级统计年鉴更新!34省 2000-2023年统计年鉴合集,免费下载


点击一下获取更多学术资讯


公共数据库与论文复现
集各类学术资讯,生活资讯和资源分享等为一体的多元化学术交流平台,为广大科研工作者提供无壁垒的资源共享
 最新文章