预测干部容错:效率考量、
合法性压力与领导特征——
基于机器学习方法的预测建模
刘展余 余洋 雷玉琼
作者简介:[1]刘展余,复旦大学国际关系与公共事务学院博士研究生;[2]余洋,湖南大学公共管理学院硕士研究生;[3]雷玉琼,湖南大学公共管理学院教授、博士生导师。
文章来源:《公共管理与政策评论》2024年第3期,已在中国知网上线,感谢读者推荐,同时也感谢作者同意授权转载。
发表时间:2024/5/15
版块分类:前沿文献(推送前知网下载量:793)
PDF全文:点击链接<预测干部容错:效率考量、合法性压力与领导特征——基于机器学习方法的预测建模>可下载PDF全文(有效期7天)。
摘要:国家对于干部容错机制的诉求愈发强烈,但是近年来该政策在国内的扩散速度逐步放缓。要解决上述问题,关键在于研究干部容错机制的扩散逻辑。在政策创新扩散逻辑相关研究中,既有研究方法大多遵循“样本内解释”的思路。这使得相关研究结论的科学性,尤其是泛化能力,难以得到保证。为突破这一局限,本文采用“样本外预测”的思路来探索干部容错机制的扩散逻辑。具体来看,本文基于政策创新扩散理论构建了分析框架,使用机器学习方法训练了地方政府采纳干部容错机制的预测模型,并在确保模型预测性能的前提下呈现干部容错机制的扩散逻辑。模型解读结果表明,干部容错机制的扩散主要由行动者逻辑主导,其次是效率逻辑,最后是合法性逻辑;效率逻辑、合法性逻辑及行动者逻辑三个维度中,最具影响力的特征分别为治理规模、同级采纳和主官任期。地方政府采纳干部容错机制的概率与治理规模具有负向关系,与同级采纳具有正向关系,与主官任期具有倒U形关系。为推进干部容错机制有序发展,本文建议地方政府强化机制扩散中的领导驱动效应、科学规划干部容错机制扩散路径。
关键词:干部容错机制;政策创新扩散;机器学习;预测建模;
干部容错机制是为促进干部改革创新而提出的一项重要举措。随着“全面从严治党”的推进,地方官员的行为得到了有效的规范和约束,然而在此过程中暗生的干部“无所作为”“怕政”以及“革命意识薄弱”等“为官不为”现象逐渐引起社会各界的关注。此类现象在全面深化改革时期有抬头之势,主要源于缺乏既能“限制做坏事”又能“鼓励做好事”的双向激励制度环境。官员干部在全力干事创业时易触碰红线,而无所作为却又无相应的惩罚[1]。官员干部“为官不为”极大地损害了改革创新的真实性及有效性[2]。为改变这一现象、助推政府改革创新,部分地方政府结合地方实际率先出台了干部容错机制,如浙江省温州市于2014年出台了《关于支持和保护党员干部改革创新的若干意见(试行)》。干部容错机制基于行为出发点、错误原因、道德性、合法性以及纪律性等标准,为官员干部规定了“可容错的情形”[3]。当改革创新未达预期效果或产生负面影响时,官员干部可按照干部容错机制给定的程序申请减免责。干部容错机制作为一种规范公职人员行为的新方式,与原有干部问责机制相互补充,共同塑造了双向激励的官场秩序[4]。干部容错机制的提出意味着中国的干部管理实践步入了新阶段,该制度出台后迅速得到多数人的认可。各级地方政府积极探索干部容错的实践路径,在2014—2017年的四年间,中国大陆有超过1/3的地级以上城市政府都出台了正式的容错规范文件。同时在经历了将近四年的地方探索后,中共中央办公厅于2018年5月出台了《关于进一步激励广大干部新时代新担当新作为的意见》。这标志着中国的干部容错机制扩散正式由地方探索转变为中央推广模式。虽然国家对于干部容错机制的诉求愈发强烈,但是近年来该政策在国内的扩散速度逐步放缓。例如,中国2019年新增出台干部容错机制的城市数量仅为2017年的1/3,而全国仍有将近一半的城市尚未采纳该政策。这意味着这一政策创新已进入创新扩散S形曲线的尾部,即扩散平台期。该平台期的存在很大程度上是因为剩下的地方政府本身创新动机弱于早期采纳者[5]。要改变上述现状,关键在于理解干部容错机制的扩散逻辑,明确该政策创新在不同区域、层级政府发生的规律、原因或驱动因素[6]。目前,用于分析政策创新扩散这一现象背后逻辑的研究方法主要有四类:一是基于大样本统计的事件史分析。该方法通常使用Logit离散时间模型作为分析方法,其理念是以“特定时间个体经历某个事件的风险率”为因变量,以滞后一期的风险因素为自变量,通过呈现二者之间的相关关系来分析政策创新扩散背后的规律[7]。例如,朱旭峰曾采用这一方法,结合1997—2012年城市级数据研究了新型行政审批制度在中国的扩散逻辑[8]。二是基于过程追踪法的单案例分析。该方法的理念是将相关事件按照时间顺序排列,并尽可能重建可能的因果机制。该方法通常适用于稀有事件发生的因果机制的推演[9]。例如,张克以广东省为例通过调查跟踪以及案例分析研究了“多规合一”改革政策的扩散逻辑[10]。三是基于经验观察法的案例比较分析。该方法的理念是,通过比较少数精心挑选的案例来推断政策创新扩散的内在逻辑。其优势在于能够同时观察多个要素的变化在案例中的影响[11]。例如,朱光喜和陈景森以四川省四个区中的民主测评改革、“机构合并”改革、公众全程监督政务改革和“三规合一”改革为例,比较分析了官员异地调任在政策创新扩散中的重要作用[12]。四是基于文献计量法的政策量化分析。该方法是指结合引文分析、共词分析、主题网络分析等文献计量方法,分析政策的(层级、部门、效力)分布、主题变迁等特征[13]。例如,张剑采用政策量化方法中的引文网络分析和关键词时序分析研究了636份科技成果转化政策在地方政府间的扩散方向[14]。这四类研究方法都能够为洞察政策创新扩散逻辑提供支持。但值得注意的是,通过这些方法得出的政策创新扩散逻辑存在一个共同的局限:其对于其他样本的预测能力是不可知的。因为这些方法本质上都属于解释性研究方法,即通过解释一组样本内的变量间关系便得出政策创新扩散的逻辑[15]。考虑到预测能力是检验理论科学性的重要标准[16],探索干部容错机制扩散逻辑的过程需重视预测能力的评估和优化。在探索变量间关系的同时评估和优化预测能力可以通过机器学习预测建模方法实现。机器学习预测建模是一种预测性研究方法,其除了拟合变量间关系,还重点关注这种关系的样本外预测能力[17]。机器学习预测建模主要通过两方面设计来保证变量间关系的预测能力:首先,该方法综合使用各种参数和非参数机器学习算法来拟合模型,确保各种线性与非线性关系都能得到有效拟合。同时,结合正则化方法,该方法能够避免过拟合,从而增强所拟合关系的泛化能力[18-19]。其次,该方法通过预留样本或交叉验证技术来呈现所拟合关系的样本外预测能力[20]。得益于上述特征,目前机器学习预测建模已被用于恐怖主义[21]、内战[22]等事件的预测中。基于以上论述,本文采用机器学习预测建模方法来探索干部容错机制的扩散逻辑。在研究干部容错机制的扩散逻辑前,本文对干部容错机制既有的相关研究进行了简要梳理。目前干部容错机制相关研究主要聚焦于以下三方面内容:首先,在干部容错机制的概念辨析上,既有研究主要将其与干部问责做比较。例如,杜兴洋和陈孝丁敬认为干部容错与干部问责之间的差异主要体现在目标行为的动机、实施行为前的决策流程、行为所造成的影响或损失,以及行为失败的主导因素四个方面[4]。陈朋认为干部容错与问责有着相同的目标,即引导公共权力的规范使用和提高政治系统的韧性[23]。刘畅认为干部容错与干部问责之间存在一些差异,例如容错追求变革创新而问责追求秩序稳定,容错强调灵活而问责强调确定,容错利用激励教育而问责利用批评惩罚[24]。其次,在干部容错机制的价值论证上,既有文献聚焦于其行政价值及法治价值。例如,何丽君从全面深化改革、建设责任政府、治理为官不为,以及促进改革创新等方面论证了建立干部容错机制的价值[25]。谭九生和胡伟强认为实施干部容错机制具有重要的理论价值,其是国家法治精神的体现,因为干部容错承认了人的有限理性、践行了依法用权、立足于法律法规、依赖于规制之治[26]。首先,在干部容错机制的制度设计上,既有研究主要关注政策文本的质量评估。例如,胡春艳和张莲明基于PMC指数模型分析了干部容错机制政策文本的内部设计,发现干部容错机制属于整体质量较高但执行效果一般的政策[27]。谷志军通过对干部容错机制文本进行政策文献计量分析发现,干部容错机制中容错程序以及配套救济机制等相关设计较为完善,但是错误识别标准相关设计尚不明确[28]。其次,就干部容错机制的制度优化而言,现有研究主要聚焦于激励机制以及细化标准。例如,万庄提出要提升干部容错机制的针对性及实施效果,需要厘清激励与约束的关系,既要抓待遇保障等正面激励,也要抓考核评价等约束兜底[29]。陈朋通过一项问卷调查分析了基层干部对干部容错机制的期待,研究发现基层干部希望干部容错机制在文本制定层面细化标准,在执行落实层面强化“一把手”的责任担当、注重典型案例的指引、促进上下级之间形成一致意见;在舆论氛围层面,着力营造更加宽容理解的社会环境[30]。首先,在干部容错机制的实施现状方面,既有文献主要关注其现实运作时遇到的问题及成因。例如,郭剑鸣分析了干部容错机制适用中的政府组织、干部个体和公众三方行为偏好互动影响的机理,发现由于相关各方对容错纠错所持的心理价值、利益选择和面临的不利威胁各不相同,干部容错机制实施中出现了干部申请动力“偏软”、管理机关问责压力“偏硬”和免责救济途径“偏虚”等问题[31]。吴春宝就基层治理中干部容错机制低效运转问题展开讨论,认为权责不清、管理失序等问题是其主要原因[32]。王颖和王梦基于一项扎根理论研究发现干部容错机制实施受阻主要有四个维度的原因,包括机制扩散、干部思想意识、案例宣传、舆论引导及社会环境等场景维度因素,权责对等问题、关系调试、末端保障等制度维度因素,文件同质化、覆盖广度、容错类型、尺度标准及机制定位等内容维度因素,推进力度、领导干预、运行固化及部门协调等行动维度因素[33]。梅立润认为干部容错机制运行不畅的原因主要有五方面,包括问责与容错之间存在张力、缺乏精准的核心内容、容错范围和尺度不清晰、操作程序关键环节缺失、外部环境缺乏包容性、设计时未能考虑多方意见[34]。其次,在干部容错机制的实施保障方面,既有文献主要关注容错案例的推出机制。例如,殷书建强调应当完善典型案例的推出机制,具体措施包括加强案例供给、完善案例甄选、规范案例书写及促进类参照[35]。通过上述文献梳理可以发现,干部容错机制的研究已取得了丰硕的成果,能够为本文提供诸多借鉴。但结合本文的研究问题层层检视,既有研究依然存在部分局限性:一是从研究议题来看,现有干部容错机制相关研究主要聚焦于干部容错机制的价值论证、关系辨析、设计优化及实施现状等问题,尚未有研究探讨干部容错机制的扩散逻辑。二是从研究方法来看,既有干部容错机制相关研究所用方法仍以规范、质性和案例研究为主,开展研究所用样本数量相对较小,所得研究结论的可推广性暂不明确。可见,本研究对于干部容错机制既有文献来说是一种有益的补充。干部容错机制在地方政府的扩散逻辑可通过政策创新扩散理论来分析。政策创新扩散理论是一种旨在探索政府政策变化影响因素的政策理论[36]。“政策创新”是指采纳相对自身来说具有新颖性的政策,不考虑其他政府组织的行为[37]。“政策扩散”是指新政策在政府组织之间传播的过程[38]。上述概念界定反映了政策的变化应当从内外两个视角解读。与之一致的理论模型是“政策创新统一模型”,该理论模型认为政府的政策变化是由内外部因素共同催生的[7]。其中内部因素是指政府所处政治、经济和社会环境[39],外部因素是指政府间的相互模仿[40]。在将西方经典政策创新扩散理论应用于具体研究的过程中,中国学者对其进行了本土化的修正。具体来看,中国奉行“以领导为中心”的决策模式,政府创新决策通常是由地方政府的“一把手”推动的[41]。因此诸多学者在探讨政策创新扩散的影响因素时,除了经典理论模型强调的内外部因素外,同样会考虑影响政府组织决策的官员个体特征,如年龄、任期、学历[42]、任职经历[43]、来源[44]、调任去向[8]等。在此基础上,国内也有部分学者运用既有理论框架整合经典政策创新扩散理论中的内外部因素以及中国尤为重视的行动者要素。其中,“多重逻辑”理论框架在整合上述因素的过程中发挥了重要的作用。“多重逻辑”理论框架最早出现在制度变迁的相关论述中,该理论视角强调,大规模制度变迁通常涉及多重过程和机制,只有置身于这些机制的相互作用中才能准确解释制度变迁[45]。上述内外部因素、行动者因素可以通过“多重逻辑”理论框架整合为“效率—合法性—行动者”多重逻辑分析框架。其中,效率逻辑集中体现为组织条件及创新需求等效率因素的影响,与之相关的理论如资源基础理论;合法性逻辑聚焦于外部组织环境中合法性压力的影响,与之相关的理论主要为新制度主义理论;而行动者逻辑集中体现为主政领导个人特征的影响,与之相关的理论主要为政策企业家理论[46]。本文拟借鉴政策创新扩散理论中的“效率—合法性—行动者”多重逻辑分析框架,从效率考量、合法性压力及地方领导特征三个维度探讨干部容错机制扩散的内在逻辑。一方面,干部容错机制的提出扎根于中国特殊的政治经济背景,因此采用“多重逻辑”这一中国本土理论框架整合的政策创新扩散理论分析其扩散机理更具适用性;另一方面,干部容错机制扩散过程中不可避免地会受到行动者个体特征的影响,因为该制度本身便是着眼于人的有限理性及“趋利避害”心理[47]。采用“效率—合法性—行动者”框架分析其扩散逻辑能够给予行动者个体特征必要的关注。本文基于政策创新扩散理论中的“效率—合法性—行动者”分析框架,结合干部容错机制扩散的具体情境,从效率考量、合法性压力及地方领导特征三个维度构建干部容错机制扩散逻辑的分析框架。效率逻辑体现的是效率考量对于干部容错机制扩散的影响,具体包括经济发展、治理规模及腐败规模三个指标。政府组织之所以采纳某一新政策或制度,在一定程度上是出于对组织运转有效性和效率的考虑。政府创新对政府组织效率的影响需要从积极和消极两个方面来考虑。就积极影响而言,政府创新具有提高组织未来发展前景和缓解当前治理压力的双重作用[48]。就消极影响而言,政府创新本质上是一种“创造性破坏”[49]。这会给政府运行效率带来更多风险和不确定性。可见,干部容错机制扩散的效率逻辑可以从发展需求、治理需求、风险考量三方面来分析。(1)就发展需求而言,区域内经济发展水平会影响干部容错机制这一创新保护制度出台的必要性。因为随着经济的发展,资源红利不断衰退,经济发展受到制约。这使得地方政府需要通过出台干部容错机制来鼓励改革创新和获得进一步的发展[50]。(2)就治理需求而言,区域内的治理规模会影响干部容错机制出台的可能性。因为治理规模越大、人口越密集,社会问题将会越多,其通过改革创新来解决现实问题的需求就越大[46]。(3)就风险考量而言,区域内的腐败规模会影响干部容错机制出台的可能性(2)。因为在腐败规模较大的地区出台干部容错机制会面临较大的舆论压力,这恰恰也是当前干部容错机制实施的重要掣肘因素[51]。合法性逻辑体现的是合法性压力对于干部容错机制扩散的影响,具体包括纵向压力、创业文化及同级采纳三个指标。组织采纳某一制度的目的是提高组织的合法性,合法性体现为组织符合社会准则和社会价值的预期[52]。组织所面临的准则和价值主要包括外部制约激励、文化认知期待和行业规范,相应地组织合法性可以被划分为规制合法性、认知合法性与规范合法性[53]。本文将干部容错机制扩散过程中面临的合法性压力具体化为纵向压力、创业文化及同级采纳三方面。(1)纵向压力会影响干部容错机制出台的可能性。地方政府是否采纳政策创新在很大程度上受上级政府的行政价值与行政态度的影响[54]。上级政府鼓励容错、偏好创新的行政态度会促使地方政府采纳干部容错机制。(2)创业文化会影响干部容错机制出台的可能性。社会文化作为社会期许的体现,其会影响政府组织内部的行政文化[55]。区域的创业文化反映的是这个区域的企业家精神[56]。干部容错机制本质上体现的也是一种对企业家精神的鼓励[57]。因此,随着区域的创业文化内化到地方政府内,其更有可能采纳干部容错机制。(3)同侪采纳率会影响干部容错机制出台的可能性。为了降低政策创新的不确定性[58],以及维持或提高治理绩效,同一区域内的地方政府会持续地进行竞争与学习[59]。因此,地方政府是否采纳干部容错机制会受到同侪采纳率的影响。行动者逻辑体现的是领导特征对于干部容错机制扩散的影响,具体包括主官年龄、主官任期及主官来源三个指标。在组织采纳改革创新的过程中,企业家发挥着不可忽视的作用。因为制度变迁是以企业家有目的的活动为媒介的[60]。在公共部门中,具备企业家精神的官员同样会对政府组织的改革创新发挥重要影响[61]。具体来看,政府创新的“新想法”是由官员中的政策企业家捕获的[62],同时在想法落地过程中,具有企业家精神的官员会充分利用现有制度安排[63]、把握政治时机[64]。在领导负责制的制度背景下,地方主官的偏好会影响政府决策偏好。干部容错机制本质上是一项创新保护制度,体现了地方政府改革创新的价值偏好。也就是说,偏好改革创新的主要领导能够促进干部容错机制的采纳。地方主官的创新偏好受其个人特征影响,包括年龄、任期及来源等。(1)地方主官的年龄越小,其所在政府采纳政策创新的可能性越高。因为就目前而言,学界已有的共识是,组织中的年轻者具有更好的认知资源及接受新事物的能力[65]。(2)地方主官的任期越长,理论上其所在政府组织越有可能采纳政策创新。因为在容错实践的前制度化阶段,干部的容错免责主要依赖于上级领导的判断,上级领导只有在对干部以及改革措施有充分了解的情况下才会做出容错的决定[51]。换言之,干部容错的推进需要地方领导对区域内的人和事有一定经验认知,一个长期任职的官员在这方面有明显的优势[42]。(3)当主要领导源于异地交流时,地方政府采纳政策创新的可能性越高。因为在我国特定的干部交流制度背景下,地方领导干部的异地交流很大程度上影响了政策的扩散。从既有文献来看,异地交流的官员为了树立威信通常更具创新需求[46]。综上所述,干部容错机制扩散逻辑分析框架包含三个维度:效率逻辑、合法性逻辑及行动者逻辑。三个维度下共有九个指标,包括经济发展、治理规模、腐败规模、纵向压力、创业文化、同级采纳、主官年龄、主官任期及主官来源。本文将基于该框架选择预测特征,并使用机器学习方法训练模型。本文拟选取地级和副省级城市作为研究样本,主要有以下两方面原因:第一,我国地级市与副省级城市数量众多,能够保证较大的样本量,在研究过程中能够有助于弱化干部容错机制扩散过程中偶然事件导致的离群值的影响;第二,地级、副省级城市的干部容错机制扩散曲线较为符合Brown和Cox提出的创新扩散S型累积分布曲线(见图1)[66]。剔除数据缺失严重的个体后,最终纳入研究的城市有292个。为确保时间链的完整性,上述城市的起始观测年份为第一例事件发生前一年,最终观测时间跨度为2013—2020年。上述城市的政府党委、纪检监察部门、人事部门或宣传部门[27]出台《干部容错管理办法》相关文件即代表事件发生。本文按照事件是否发生对结果变量进行0-1赋值,即在在某城市首次出台《干部容错管理办法》等相关文件之前的年份取值为0,在出台当年取值为1。由于地方政府采纳干部容错机制是个不可重复事件,本文对数据进行右删截处理,即在采纳后剔除相应的观测个体。最终,本文获得1789个可供使用的观测值(3)。
干部容错机制扩散逻辑分析框架中的预测特征的提取方法及数据来源如下页表1所示:第一,效率逻辑维度的特征包括经济发展、治理规模及腐败规模。其中,经济发展主要通过城市夜间灯光指数来衡量[68];治理规模以城市辖区年末人口数来测量;腐败规模则以省内职务犯罪和渎职犯罪立案数来测量。第二,合法性逻辑维度的特征包括纵向压力、创业文化及同级采纳。其中,纵向压力通过各省党报中与干部容错相关报道数量来测量;创业文化则使用爱企查网站公布的新增企业注册量来衡量;同级采纳通过“同省份采纳干部容错机制的城市占比”来衡量。第三,行动者逻辑维度的特征包括主官年龄、主官任期及主官来源。本文主要关注市委书记的个体特征。其中,主官年龄主要依据现任市委书记的年龄是否超过55岁来分别赋值为1和0。主官任期的测量取整值,若市委书记在某年的6月30日之前任职,那么他在该年的任期记为“1”,否则记为“0”,之后逐年累加。主官来源参照Zhu等的做法,分别将本市晋升、外市晋升、省级平调及外地平调四类来源赋值为1-4[69]。此外,本文还参考既有政策创新扩散研究,选取城市地位、地理位置及干部容错机制在城市扩散的持续时间作为控制变量。其中,样本的城市地位依据是否为省会、副省级城市分别赋值为1和0,地理位置按照东中西分别赋值为1、2、3,持续时间通过起始年份到观测年份的持续时间来衡量。
表1 干部容错机制扩散预测模型的特征提取
在模型训练前,本文对特征数据采取了三个步骤的预处理:第一,对经济发展、治理规模、腐败规模、创业文化及主官任期的数据进行异常值处理。因为这些特征中存在部分值超过或小于均值±3倍的标准差(见表2)(4)。当特征数据存在异常值时,机器学习算法可能会拟合出错误的模型。上述特征中的异常值将被替换为均值加减3个标准差。第二,对经济发展、治理规模、腐败规模、创业文化的数据进行归一化处理,即将数据的尺度缩放至0~1。因为这些特征的数据尺度差异较大,而不同特征数据尺度的差异可能导致算法在学习的过程中被大尺度特征主导,无法从其他特征中学习规律。第三,对地理位置这一特征进行独热编码(One-hot)处理。独热编码是指将分类变量的每个水平单独转换为一个0-1变量。
表2 干部容错机制扩散预测模型的特征描述性统计
为了评估干部容错机制扩散预测模型的泛化能力,本文通过留出法(Hold-out)抽取了30%的数据作为测试集,剩下70%的数据作为训练集。其中,训练集用于模型拟合,测试集用于模型预测性能的最终评估。数据集的划分过程是完全随机化的,这一步骤可以通过Skit-learn库的train_test_split模块实现。划分数据集后,本文对数据集进行样本平衡处理。因为对于非平衡面板数据来说,正类(取值为1)的样本远小于负类(取值为0)的样本。例如本文所用数据集正类与负类之比为204∶1585。直接使用不平衡数据集来训练模型容易导致模型过拟合多数类和欠拟合少数类[70]。本文仅针对训练集,而非对整个数据集,实施样本平衡处理。因为针对整个数据集做平衡处理容易导致模型性能的高估[71]。数据集的不平衡问题可以通过重抽样技术来解决,包括过采样技术和欠采样技术。本文采用过采样技术增加训练集中的正类数据使数据集达到平衡,因为过采样技术对于模型的优化效果比欠采样技术好[72]。训练集的过采样主要通过imblearn库的SMOTE模块实现。本文选取支持向量机、随机森林、梯度提升树、极端梯度提升、神经网络、逻辑回归等常用的分类算法来拟合干部容错机制扩散的预测模型。其中,预测性能最好的模型将用于扩散逻辑的分析。传统基于事件史分析的政策创新扩散研究拟合数据通常只采用逻辑回归算法,但这一算法具有严格的前提假定。例如自变量间需相互独立、自变量和因变量之间的关系需为线性。这使得逻辑回归难以很好地揭示现实中的政策创新扩散逻辑。因为政策扩散过程中的影响因素不可能相互独立,如纵向压力和同级采纳之间便是相关的[73],自变量与因变量之间的关系也不仅仅是简单的线性关系。本文所使用的算法包含了诸多不受变量独立性假定的限制,且能够有效识别特征与预测结果之间的非线性关系非参数算法[74-75],能够更好地揭示扩散逻辑。本文在使用上述算法拟合训练集数据前通过分层5折交叉验证技术选取预测性能最佳的超参数。分层5折交叉验证是指将训练集划分成5个大小和正负类比例都相等的子集。基于这些子集,算法将自动进行5次模型训练及评估。5次训练和评估中,每个子集轮流作为验证模型性能的验证集,其他子集组合成训练集。最终5轮验证后会得到5个模型预测性能的得分,其均值可以反映超参数的优劣。具体交叉验证流程可以参见下页图2。为提高超参数选择效率,本文使用随机搜索技术(random search)来自动选取最优超参数。随机搜索是一种自动调参技术,其能够随机尝试给定算法超参数取值的组合,并选出交叉验证效果最好的一种超参数组合。最终,本文使用随机搜索技术找到了上述算法的最优超参数(见下页表3)。接下来本文将基于该超参数训练干部容错机制扩散的预测模型。
表3 算法最佳超参数组合
注:(1)逻辑回归使用的是statsmodels库中的模块,该模块对应的逻辑回归不带有正则化功能,因此无须调参;(2)评估超参数组合预测性能的指标为AUC。
本文使用训练好的干部容错机制扩散预测模型预测测试集的结果,并将预测结果与实际结果做比较以评估模型的预测性能。对于政策创新扩散这样的二分类问题来说,其预测结果和实际取值的交互可以构成一个四象限矩阵,该矩阵被称为混淆矩阵(见表4)。基于这四种情况的个案数量,我们可以计算出一些评估模型性能的指标。
表4 混淆矩阵
本文使用AUC值来评估模型的预测性能。AUC值是指ROC曲线下面积。ROC曲线是基于真阳率和假阳率(5)绘制的曲线,该曲线越靠近左上角代表模型的预测性能越高。因此,该曲线下的面积能够直接反映模型的预测性能。AUC值的取值范围为0~1。其中,AUC等于0.5代表随机预测,大于0.7代表可接受,大于0.8代表较为优秀,大于0.9代表接近完美[76]。该指标可以通过Skit-learn库的roc_auc_score模块计算。图3呈现了支持向量机(SVM)、随机森林(RF)、梯度提升树(GBDT)、极端梯度提升(XGB)、神经网络(NN)、逻辑回归(Logistic)算法所拟合干部容错机制扩散预测模型的ROC曲线及AUC值。其中,支持向量机的AUC值最高,为0.782。可见,支持向量机所拟合干部容错机制扩散的预测模型的预测性能相对最高,已达到可接受且接近优秀的水平。
考虑到AUC值在应对不平衡数据时容易错误估计模型性能[77]。本文采用另一种更适合不平衡数据集的预测性能评估指标马修斯相关系数(MCC值)来进一步比较上述模型的预测性能(6)[78]。MCC值的取值范围为-1~1,取值为0时代表模型接近随机预测。该指标计算可以通过Skit-learn库的matthews_corrcoef模块实现。结果显示,预测性能最好的依然是支持向量机所拟合干部容错机制扩散的预测模型(MCC= 0.386)(7)。为了理解干部容错机制的扩散逻辑,本文对支持向量机所拟合预测模型进行解读。常用的模型解读思路主要有三种:一是全局性的解读,旨在呈现模型如何通过所有特征、超参数做出决策的;二是特征级的解读,旨在呈现模型中预测特征对于结果的影响;三是数据级的解读,旨在呈现特定数据点的特征是如何促使其被归入某一类别的[79]。本文对模型采取特征级的解读,因为这一层级既不像全局性解读那样过于复杂,又不像数据级解读那样缺乏归纳性。特征级的解读主要包括特征重要性评估和特征效应分析,具体分析如下所示。本文使用置换重要性来衡量干部容错机制扩散预测模型中各个特征的重要性。置换重要性(permutation importance)估计的理念是每次将单个特征的数据打乱,若拟合出来的模型与原模型相比误差增加较大,则代表该特征是重要的[80]。该指标的计算可以通过eli5库的PermutationImportance模块实现,计算结果如图4所示。
通过分析图中各特征的重要性,可以发现以下结果:效率逻辑、合法性逻辑及行动者逻辑三个维度中,主官任期、主官来源和主官年龄占据前三,治理规模和腐败规模紧随其后;三个维度中重要性最高的特征分别是治理规模、同级采纳及主官任期。上述结果表明,干部容错机制的扩散主要由行动者逻辑主导,效率逻辑次之,合法性逻辑的影响相对较小;效率逻辑、合法性逻辑及行动者逻辑三个维度中,最具影响力的特征分别为治理规模、同级采纳和主官任期。本文将着重分析治理规模、同级采纳和主官任期三个重要特征对于结果变量的效应。因为优质的模型解读并不是完整地呈现原因,而是有选择性地呈现[79]。为了呈现上述预测特征的效应,本文需要借助于一些模型解读技术。因为在传统政策扩散研究中,特征(自变量)的效应分析通常通过回归系数来反映。但是对于支持向量机等非参数算法来说,并没有可以直观反映效应大小及方向的参数。在诸多模型解读技术中,累积局部效应图(accumulated local effect plot)是一种功能较为强大的解读技术,因为该方法即使在特征间存在相关性的情况下也能剥离出单个特征的独立效应[81]。这对于本文来说较为适用,因为政策扩散过程中的预测特征本身具备一定的相关性。某特征处于给定值时的累积局部效应大小可以解读为:“当特征处于该值时,结果变量为1的概率与平均概率的差别。”(8)累积局部效应的计算可以通过PyALE库的ale模块实现,三个重要特征的累积局部效应图如图5所示。由图5可知,治理规模的累积局部效应曲线呈下降趋势,同级采纳的累积局部效应曲线呈上升趋势,主官任期的累积局部效应曲线呈倒U形趋势。上述结果表明,对于干部容错机制扩散来说,治理规模的效应为负,同级采纳的效应为正,主官任期的效应为先正后负。
本文基于政策创新扩散理论,构建了干部容错机制扩散逻辑的“效率—合法性—行动者”分析框架。基于该分析框架,结合中国292个地级及以上城市相关数据,本文使用支持向量机、随机森林、梯度提升树、极端梯度提升、神经网络、逻辑回归等常用的分类算法训练了干部容错机制扩散的预测模型。其中,支持向量机所拟合模型在预留的30%观测值上的预测性能最高,AUC值为0.782。模型解读结果显示,干部容错机制的扩散主要由行动者逻辑主导,效率逻辑次之,合法性逻辑的影响相对较小;效率逻辑、合法性逻辑及行动者逻辑三个维度中,最具影响力的特征分别为治理规模、同级采纳和主官任期。其中,治理规模的效应为负,同级采纳的效应为正,主官任期的效应为先正后负。针对上述分析结果,本文进行以下讨论:首先,干部容错机制的扩散主要由行动者逻辑主导,效率逻辑次之,合法性逻辑的影响相对较小。对于行动者逻辑的主导性作用,本文认为这一点符合干部容错机制“众创实验”的本质。“众创实验”知识建构的过程不是传统的权威建构,而是自主建构[82]。故而,干部容错机制是否具备推广价值不再由中央认证,而是由地方领导背书[31]。用既有研究的话来说,地方领导在干部容错机制的实施过程中起到“临门一脚”的作用[83]。效率逻辑与合法性压力的先后顺序表明,干部容错机制在地方的扩散更取决于地方的实际需求,而非对外部压力的响应。这一点与陈昭的观点存在一定的一致性。其认为干部容错机制的扩散遵循“各取所需、多点学习”的逻辑,即各地方结合具体需要,从既有经验中选择特定内容为本地政策建构提供参考[82]。总体来看,干部容错机制的扩散逻辑与其他政策,如智慧城市、政府信息公开[84],在自主扩散阶段(9)的扩散逻辑存在异同。就相同点而言,干部容错机制与其他政策的自主扩散阶段一样,主要受效率逻辑和行动者逻辑影响。就不同点而言,干部容错机制的扩散受行动者逻辑的影响明显强于效率逻辑,而其他政策则主要受效率逻辑影响。其次,效率逻辑、合法性逻辑及行动者逻辑三个维度中,最具影响力的特征分别为治理规模、同级采纳和主官任期。其中,治理规模具有负面效应,同级采纳和主官任期具有正面效应。上述结果中,治理规模的负面效应或许可以通过于文轩和许成委的观点来解释:城市内治理规模越大,地方政府疲于应付现有社会问题,难以顾及改革创新问题[85]。故抑制了干部容错机制的扩散。同级采纳的正面效应反映了地方政府是否采纳干部容错机制受省内同侪采纳率的影响。其可能的解释是,同侪采纳率越高,干部容错机制越适应省内地方政府的现实需求,地方政府采纳干部容错机制的潜在风险越低。领导任期的倒U形曲线符合地方主官任期和干事创业的规律。具体来看,任职初期的地方主官对于地方状况不甚了解,因而采纳创新的可能性较低。而进入任期晚期的地方主官升迁概率下降,干事创业的热情便下降[86]。因此,只有那些任期适中的地方主官才有足够的了解和热情去采纳干部容错机制。本文的研究结论对于政策制定者具有以下两点实践启示:(1)地方政府应当强化机制扩散中的领导驱动效应。一方面,地方政府的党政领导应当提高对干部容错机制的重视程度。因为干部容错机制的扩散并不是传统自上而下的权威性扩散模式,其出台依赖于地方政府内部对于该政策价值认证。另一方面,上级地方政府应当给予下级党政领导更高的风险容忍度。因为下级政府采纳干部容错机制通常需要地方党政领导承诺背书,并由地方党政领导承担该政策出台后的风险。此时,要确保地方党政领导能积极助力干部容错机制的出台,同样需要给予其容错空间。(2)地方政府应当科学规划干部容错机制扩散路径。本文的实证结果表明,治理规模、同级采纳是影响干部容错机制扩散的重要变量。其中,治理规模较小、同级采纳率较高的区域更有可能采纳干部容错机制。基于这些结果,本文认为要实现干部容错机制扩散的纵深突破,地方政府首要应当以社会环境较为简单、治理规模较小的地区为切入点打造标杆,提高区域的同级采纳率。本文在研究议题及研究方法方面能够为既有研究做出有益的补充,具体包括:(1)对于干部容错机制研究来说,本文的研究议题具有创新性。本文在研究干部容错机制时聚焦于其扩散逻辑这一个研究议题。该研究议题对于干部容错机制的实践来说至关重要,然而现有干部容错机制研究未予以较多关注。既有干部容错机制研究主要聚焦于价值论证、关系辨析、设计优化、实施现状等议题,本文的研究议题能够帮助干部容错机制研究形成完整的逻辑闭环。(2)对于政策创新扩散研究来说,本文的研究方法具有创新性。具体来看,本文通过机器学习预测建模呈现干部容错机制的扩散逻辑。机器学习预测建模是一种预测性研究方法。与既有政策创新扩散研究所采用的解释性研究方法不同,该方法能够拟合复杂的非线性关系且能够直观呈现所拟合关系的样本外预测性能。本文为未来的政策创新扩散研究者提供了新的方法路径。本文仍有三点局限性有待未来研究解决:(1)干部容错机制扩散逻辑的分析框架仍可进一步完善。本文分析框架中的效率逻辑、合法性逻辑和行动者逻辑包含的变量相对较少。这可能导致一些重要变量被遗漏。例如,在行动者逻辑中,其他类别的行动者或许同样会对干部容错机制的出台产生重要影响。未来应当尝试丰富上述分析框架中的变量,以提供更好的解释力和预测力。(2)干部容错机制扩散的预测模型准确性仍有较大的优化空间。本文的模型预测性能仅达到可接受的水平,而既有研究所提出的恐怖主义、内战预测模型通常有较为优秀(>0.8)的预测性能。预测性能不高的可能原因之一是观测值的不足。具体来看,本文用于研究的观测值数量仅有1789个,该观测值数量不到恐怖主义预测模型所用观测值的1/10。未来研究可结合县级城市数据来获取更多观测值,并以此来提升模型预测准确性。(3)干部容错机制扩散逻辑的分阶段特征仍需进一步讨论。本文只探讨了干部容错机制的总体扩散逻辑,但未能与既有政策创新扩散研究一样探讨扩散逻辑的分阶段特征。待有更多数据量后,未来研究可尝试根据不同阶段训练不同的预测模型,从而解释扩散逻辑在不同阶段的差异。