发展中国劳动力市场的技能分类法揭示了劳动力市场两极分化的程度

文摘   2024-11-04 13:08   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 158 

Xu, W., Qin, X., Li, X., Chen, H., Frank, M., Rutherford, A., ... & Rahwan, I. (2021). Developing China’s workforce skill taxonomy reveals extent of labor market polarization. Humanities and Social Sciences Communications8(1), 1-10.


摘要

中国作为世界第二大经济体,经过四十年的经济高速发展,正在向先进的、知识型经济转型。然而,中国仍然缺乏对中国劳动力背后的技能,以及这些技能的发展和空间分布的详细了解。在其他情况下,类似的数据已被证明是必不可少的;例如,美国标准化的技能分类法——职业信息网络(O*NET),在了解制造业和知识型工作的动态以及来自自动化和外包的潜在风险方面发挥了重要作用。在此,我们使用机器学习技术来弥合这一鸿沟,创建了中国第一个劳动力技能分类法,并将其映射到O*NET中。这使得我们能够揭示劳动力技能分化为社会-认知技能和感官-身体技能,并从劳动力技能的角度探讨中国的区域不平等,并将其与教育等传统指标进行比较。我们构建了一个供公众和政策制定者探索技能分类的在线工具:skill.sysu.edu.cn。我们还将分类学数据集公开供其他研究者使用。

介绍

本文的目的是建立中国第一个劳动力技能分类法,并利用它来调查潜在的技能两极分化。我们建立了一个朴素贝叶斯模型来推断O*NET的职业任务和技能之间的关系,并使用该模型来预测基于工作描述的中国职业所需的技能。

数据

O*NET

O*NET提供了关于每个职业的能力、知识、技能、工作活动、工作情境和工作价值观的重要性的信息,评分从1 (根本不重要)5 (非常重要)。在这些信息中,我们使用能力,知识,技能,工作活动来表征职业技能(161)。根据O * NET161项技能被分为15类:认知能力、复杂问题解决能力、信息输入、与他人互动、知识、心理过程、身体能力、心理运动能力、资源管理能力、感觉能力、社会技能、系统技能、技术技能、工作产出和基本技能。

我们记onet(o , s)为技能sS对职业oO的重要性。我们通过计算方程中描述的相应的显性比较优势( RCA )来确定某一特定技能是否被某一职业"有效使用"

NOCC

NOCC为我们提供了了解中国职业工作内容的主要材料,NOCC定义了职称和职务说明,但与O*NET不同的是,O*NET没有提供技能和能力方面的数据。虽然NOCC缺乏对劳动力技能的详细介绍,但它包含了工作描述中的任务信息,可以用来推断特定职业所需要的技能。职业分类有8个大类,75个中类,434个小类,1481个单位类。

方法

(1) 从任务信息到技能

一个职业可以被概念化为一组任务,一个任务需要一系列的技能。因此,可以根据技能和任务在同一职业中的同位概率来推断技能和任务之间的关系。我们将O*NET职业描述中的K = 1273个任务以词形标记的形式提取出来,利用O * NET中的I = 161个技能构建任务-技能关系矩阵。

其中

表示任务-技能对的互信息,基于它们在O*NET967个职业中的分布。互信息是两个变量之间随机相互依赖的度量。

任务-技能关系的热力图(下图)表明,一些任务与某些特定技能高度相关。例如,对于技能“医药和牙医学”而言,更可能与病人、治疗、护理、疾病和医疗等任务共同发生。

机器学习方法可以用于匹配任务序列标签以及技能标签,从而预测一个职业是否需要某种特定的技能来完成特定的任务。比起其他机器学习方法和深度学习方法,朴素贝叶斯方法更能以更直接和易处理的方式解开任务和技能之间的因果关系。任务是一项工作应用某种特定技能所依赖的先决条件。因此,我们使用朴素贝叶斯模型来预测基于底层任务 ti,oK,某职业 oo 会使用特定技能 ss 的概率。

最终,我们可以通过该模型实现NOCC中的职业到O*NET中的技能的映射,具体实现过程如下图所示。

(2) 城市技能档案

基于本研究得到的劳动力技能分类,我们计算了中国每个城市的技能档案,技能档案由两部分组成:(i) 有效使用的技能数量;(ii) 社会认知分数。

社会认知分数:第一,我们对技能进行聚类分析发现,可以将技能分为两个聚类(社会认知技能和感觉-身体技能)。在161项技能中,社会认知技能有97项,感觉-身体技能有64项。一个职业的社会认知水平可以定义为社会认知技能占认知技能总数的百分比(计算方式如下公式所呈现)。第二,我们通过引入社会认知水平阈值来判断一个职业是否是社会认知职业,在本研究中,我们以0.6为阈值,将所有社会认知水平高于该阈值的职业视为社会认知职业,其余职业视为非社会认知职业(同时尝试了0.70.8的阈值,结果表明不同阈值下的结果是稳健的)。第三,我们通过社会认知职业的就业岗位占总就业岗位的比重来确定一个城市的社会认知得分(计算方式见下公式)

研究结果

(1) 中国劳动力市场的极化现象

劳动力市场极化在1980s后的欧美逐渐显现,近些年学者也开始关心起中国劳动力市场的极化情况。由于缺乏具体的职业数据,研究者只能根据宏观数据(就业数据、制造业数据)或微观数据(如劳动力调查)得出结论,这样的数据缺失导致的结论会自相矛盾——有的研究认为中国劳动力市场会极化,而有的研究则不这么认为。但通过我们的技能分类法,我们可以重新审视中国劳动力市场极化的问题,给政策制定者带来新的思路。

下图显示了六个主要职业群体的技能分布,表明了不同职业群体需要的技能之间存在异质性。在其中,白领工人(例如部门和企业领导、专业技术人员)会更依赖软技能(例如社交、心理处理和复杂问题解决);蓝领工人(例如制造业工人)会更依赖硬技能(例如精神运动能力、工作产出和技术技能)

此外,不同职业之间所需要的技能数量也存在显著的差异。有的职业需要80种以上的技能,而有的却不到40种。对于不同类型的职业而言,专业技术人员类别需要的平均技能数量最多,其中的职业平均需要71种技能,而制造业工人类别和农业工人类别需要的职业最少,其中各自需要5558种技能。然而,这两个职业类别中工人的数量占比最多,分别达到了总数的23%47%,他们的技能组成很大一部分是可以自动化的,也就是说,这些职业的技术失业风险是偏高的。

此外,大多数制造业工人和农业工人居住在中小城市,其经济依赖于某一或少数产业,相对于特大城市来说较弱。对于中小城市来说,实施缓解职业迁移和再培训等自动化影响的政策更具挑战性。

2016年以来,中国采用了最多的工业机器人,这表明有可能取代大量低技能的制造业工人。工人可能会从再培训中受益,以获得更多的职业流动性和经济机会。例如,根据世界经济论坛的说法,通过适当的再培训,装配线工人可以转为建筑工人,以及建筑行业和采掘工人的一线主管。因此,我们构建了一个如下图所示的技能空间来解决技能之间的关系,以了解所有职业的职业流动机会。技能对接近度

(技能空间的边缘)是相应技能对在相同职业中同时出现的最小概率,如下方程所示。我们将技能在职业中是否重要表示为:

我们使用技能空间中fast unfolding的社区检测来识别两个技能集群(Blondel 等人,2008),揭示了技能两极化。知识、社交和认知等技能构成了社会认知集群,身体、感官和锻炼等技能构成了另一个感觉-物理集群。中国的技能两极分化与美国的调查结果一致。尽管连接两个集群的技能(即桥接节点)存在显著差异。两个集群之间的桥接走廊包括数学,判断事物、服务或人的质量以及评估产品、事件或信息的可量化特征等技能。后两项技能工人可以通过积累工作经验掌握,但数学技能只能通过系统学习获得,例如接受高等教育。然而,2018年中国25-34岁人群的4年制本科或以上教育水平仅为14%,远远落后于经济合作与发展组织国家和其他发展中国家(OECD,2021),这意味着大多数蓝领工人的再培训和职业流动都具有挑战性。此外,数学是科学、物理和编程的重要补充技能,而这四项技能都是决定一个国家竞争力的STEM(科学、技术、工程和数学)的组成部分。在中国的劳动力市场中,它们也是职业流动的桥梁或障碍。

在突出某些职业在技能空间上的位置时,我们发现白领和蓝领工人的技能集是截然不同的。例如,企业者在72项技能中有66项属于社会认知集群,而农民在71项技能中有40项属于感官-身体集群。对后者进行再技能化具有特别重要的意义,因为在2010年的人口普查中,农民占总就业人数的41%。而且,中国快速的城镇化,2030年将超过70 %,将进一步抑制这部分劳动力的需求。幸运的是,农民掌握了一些社会认知技能,如系统评估和人力资源管理,这将使职业流动成为可能。

此外,在过去的几十年里,电子设备生产和纺织品等行业为中国的工业化做出了重大贡献。最具代表性的职业是纺织工人和电子设备生产工人,分别占总就业人数的0.3 %1.7 %。可以发现,这两个职业的技能都集中在感觉-身体集群中,因此对它们进行再技能化具有挑战性,但也具有重要意义。计算特定职业的职业路径超出了本研究的范围,但技能空间提供了一个很好的切入点。

从上述例子中,人们可能假设蓝领工人可能依赖于感觉-身体技能,而白领服饰工人依赖于社会认知技能。因此,我们根据社会认知技能与工作整体技能的比例计算特定职业的社会认知得分,以测试这种关系。在美国,社会认知得分较高的工作往往具有较高的工资水平。尽管中国的工资统计只提供了主要群体层面的数据,但我们仍然观察到类似的发现。社会认知类工作(如经理和专业人员(年收入分别为131 , 929元和83 , 148) )的薪酬显著高于感官物理类工作(如商业和服务工人和制造工人) (分别为49502元和50703元每年)。办事员的社会认知得分相对较高,但他们的年收入仅为58211元。工资统计采用了与NOCC不同的职业编码,但仍具有可比性。

(2) 城市技能概况及其对经济增长的影响

如果我们把一个工作看成是一个任务束,一个需要一系列技能的任务,那么,一个城市作为一个工作容器,可以被看成是一个任务束和技能束。在这一部分,我们利用技能分类学构建了中国城市技能概况,并从劳动力技能的角度研究了区域不平等问题。

城市技能概况由两部分组成;一是城市有效使用的技能数量,即Skillc,另一个是城市拥有的社会认知性工作的比例,即Cognitivec。我们通过某项技能对相应城市的重要性高于该技能对所有城市的重要性来确定该技能是否被一个城市有效使用。在161项技能中,城市有效使用的技能数量在55 ~ 103项之间。70 - 80技能之间的范围占一半以上的城市。技能可能代表了一个城市的技能多样性,我们发现技能多样性与人均GDP之间存在显著的相关性(下表模型2)

在技能内容方面,一些城市如中国第三大城市广州在社会认知技能方面占主导地位,而另一些城市如以制鞋业闻名的莆田则主要依靠感官-身体技能。

城市技能概况可能涉及中国潜在的独特的产业结构,其中服务中心依靠社会认知技能,而制造业、采矿业和农业中心则依靠感官-物理技能。如果一个城市拥有大量依赖社会认知技能的工作岗位,这些工作岗位对数字颠覆的抵御能力更强,那么人们可能会怀疑它是否也具有更强的经济绩效。因此,我们以主要依靠社会认知技能的工作岗位占比来计算城市的认知得分并用来探索经济表现。

结果表明,北京得分最高,为0.52,南阳得分最低,为0.09。而且,认知得分与受教育程度是一致的:认知得分相对较高的城市也拥有相对较多的受过良好教育的劳动者。

考虑到教育水平被用作经济绩效的主要解释变量,我们将其作为基准,以探讨技能是否具有更强的解释力。回归结果中的模型1是基本模型,包括人均资本和人口密度两个主要控制变量,解释了人均GDP 61 %的变化。在模型1中分别加入技能数量、大学学历和社会认知得分3个变量,得到模型2 - 4。模型3反映了城市的教育水平(大学学历)对城市经济绩效的影响,而模型2和模型4则反映了技能禀赋的影响。结果显示,三者均有利于经济增长,但社会认知得分比大学学历、技能数具有更好的解释力。当模型5同时考虑社会认知得分和大学学历时,只有社会认知得分显著为正。因此,城市技能概括在解释经济绩效方面比传统解释变量教育因素具有更强的解释力。

此外,我们还发现了"副省级及以上"城市,享有比同级城市更高的行政权力,往往具有更高的认知得分。以省会城市为主体的"副省级及以上"城市是计划经济的遗留产物,行政权力较高的城市往往拥有更多的优质资源,如中央级大学、国有企业等。这些城市通常是区域内为周边地区提供服务的枢纽,致力于制造业、采矿业和农业。在这方面,我们或许可以从一个新的地理和技能相结合的视角来解释中国的区域不平等,其中存在一个核心-边缘的布局,即省会城市提供社会认知技能,边缘城市提供感官-身体技能。

(3) 技能对劳动力迁移的影响

中国的区域不平等还源于城市间对农民工的差异化吸引。当中国开始进入制造业出口鼎盛时期,20世纪90年代中期以来,人口增长一直是衡量地方政府绩效的重要指标。工作机会是移民的首要动机。假设就业机会与就业规模成正比,辐射模型被应用于准确预测美国各县之间的迁移模式。但在中国,由于本地劳动力市场结构的广泛异质性,就业机会并不一定与劳动力市场规模成正比。在中国,一个城市的劳动力市场规模与其社会认知得分的相关性很小。例如,尽管深圳和南阳的劳动力市场规模相近,均为1 000万人,但两者的社会认知得分却存在显著差异,分别为0.310.07。因此,在中国应用辐射模型之前,假设一个工人在就业规模相似的城市获得相似水平的就业机会是不合适的。

相反,我们假定熟练人口规模是一个城市的主要人力资本,因为拥有更多熟练劳动力的城市往往会吸引更多的移民。因此,我们采用辐射模型,假设就业机会与一个城市的熟练工人数量成正比,以测试城市之间的迁移模式是否得到更好的解释。具体来说,我们将受过大学教育的工人数、熟练工人数和总就业人数分别输入到辐射模型,推导出每两个城市之间劳动力移民的预测数量。

人口数据用熟练工人的数量来表示,所有工人一一对应。

为了验证预测的准确性,我们从百度地图收集了每天的城市到城市迁移数据( 2019724)。由于迁移数据只显示了每个迁入城市的前10个迁入城市,因此我们使用标准化折现累积增益( NDCG )来衡量辐射模型在多大程度上可以预测迁移模式(结果见下图)。基于熟练工人、受过教育的工人和总体就业的辐射模型的NDCG均值分别为0.650.670.61。结果发现,基于熟练劳动力人口的模型与基于大学学历劳动力( pt-test = 0.19)的模型没有显著差异。但明显优于基于总就业人数( pt-test = 0.02)的模型。以天津为例,两种辐射模型(使用总就业人数和熟练劳动力)均能成功预测前10个目的地中的7个。然而,当涉及到排序精度时,熟练工人模型的表现优于基线模型。具体而言,熟练劳动力模型预测北京为最热门的目的地,与移民数据完全吻合,而基准模型预测的廊坊仅排在第4位。尽管天津比北京离廊坊更近,但由于北京的熟练劳动力人口更多,因此会有更多的劳动力迁移到北京。因此,技能人口可以更好地作为就业机会或城市吸引力的指标来预测劳动力迁移。

结论与讨论

中国的技能分类法可能为研究中国的劳动力和区域不平等问题开启新的议程。令人惊讶的是,我们的技能分类法在预测城市级GDP方面甚至比教育还要准确,这表明它是一个有用的研究和政策工具。将这种分类法应用于各个城市,揭示了技能配置方面的显著差异。

在过去的几十年里,涉及社会认知技能的工作往往就业率和工资都更高。鉴于这些技能在中国城市之间的分布极不均衡,这表明地理不平等正在增加。那些高度依赖社会认知技能的城市,人均工资可能会更高。职业之间技能的鲜明两极分化表明,工人可能难以从需求下降的职业过渡到需求增长的职业。即使他们能够过渡,许多中国城市职业多样性不足也减少了他们这样做的机会。

拥有多元化技能基础的城市在面对技术和其他社会经济变化时将更具韧性。全球范围内,像制造业这样的常规工作的下降与服务业的增长是同时发生的。然而,在缺乏高技能工人来推动需求的城市中,服务业的机会将是有限的。这表明,政策的一个关键优先事项将是找到帮助工人和城市从依赖感官-身体技能集群过渡的方法。在中国背景下更好地理解职业和技能是这条路径上的重要一步。

主要作者介绍

许伟攀,中山大学博士生(2023年毕业),中山大学中国区域协调发展与乡村建设研究院成员,研究兴趣为:城市研究、创新、复杂网络、遥感。



分享者介绍

黄靖翔

https://huang-jingxiang.github.io/

raconz1211@gmail.com

南京大学新闻传播学院2024级专业硕士研究生
南京大学计算传播学实验中心成员

研究方向:计算传播、自然语言处理


计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章