生成式人工智能对就业的短期影响:来自一个在线劳动平台的证据

文摘   2024-12-16 12:10   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 180 

Hui, X., Reshef, O., & Zhou, L. (2024). The Short-Term Effects of Generative Artificial Intelligence on Employment: Evidence from an Online Labor Market. Organization Science, 35(6), 1977–1989. https://doi.org/10.1287/orsc.2023.18441

                                                                        

摘要

生成式人工智能有潜力通过提高知识工作者的生产力来补充他们,或者完全替代他们。我们研究了近期发布的大型语言模型ChatGPT对一个大型在线平台上自由职业者就业结果的短期影响。我们发现,受影响较大职业的自由职业者因生成式人工智能的引入而遭受困扰,就业和收入均出现下降。在研究其他基于图像的生成式人工智能模型的发布时,我们也发现了类似的影响。通过自由职业者的就业历史来探究异质性时,我们没有发现证据表明以其过去的表现和就业情况所衡量的高质量服务能够缓解对就业的不利影响。事实上,我们发现有迹象表明顶级自由职业者被人工智能不成比例的影响。这些结果表明,在短期内,生成式人工智能降低了对各类知识工作者的总体需求,并可能有缩小工人之间差距的潜力。

介绍

随着生成式人工智能模型(如ChatGPTMidjourney)的迅速采用,近期的发展带来了巨大的希望和风险。强大的人工智能工具相比以前的版本在性能上有了显著提高,用户无需专业知识就能使用它们完成各种任务。从这个意义上说,它们可以被视为一种通用技术,具有广泛的经济和社会影响潜力。

这项新技术对工人的影响仍不明确。一方面,人工智能可以通过提高人类工人的(生产力)来补充他们;而另一方面,它可能会取代工人,导致大规模裁员和失业。人工智能还可能通过加剧或缓解职业内部和职业之间的工资不平等来改变劳动力市场中工人的构成。因此,先前的文献试图评估其他类似技术对劳动力市场结果的影响。生成式人工智能的直接影响仍有待探索,目前的研究对生成式人工智能在各种任务和职业上的未来影响进行了预测。

在本文中,我们对生成式人工智能的引入对劳动力市场结果的短期影响进行了实证研究。我们的实证分析聚焦于202211ChatGPT的推出。数据来源于大型在线劳动力市场Upwork,该平台将自由职业者与短期项目进行匹配。由于与传统的正式就业相比,这个现货市场具有灵活性,所以它是探索ChatGPT短期影响的理想环境。我们首先获取平台上自由职业者完整就业历史的公开可用数据。然后,我们采用双重差分研究设计,研究在ChatGPT推出后,受影响较大职业的自由职业者与受影响较小职业的自由职业者在就业结果上的差异变化。特别是,鉴于先前研究的结果、轶事证据以及ChatGPT是一个专门用于预测和生成文本的大语言模型(LLM)这一事实,我们将与写作相关的服务作为主要受影响的职业进行重点研究

我们发现ChatGPT对工人的就业结果产生了重大的不利影响。受影响较大的职业中的自由职业者与受影响较小的职业的自由职业者相比,ChatGPT发布后,他们在平台上的月均工作数量减少了2%,月收入减少了5.2%。这些影响代表了平台上就业在经济意义上和统计显著性上(1%水平)的减少。我们观察到在集约边际和广延边际都存在不利影响:自由职业者在给定月份获得任何工作的可能性降低了1.2%,并且在有工作的条件下承接的工作数量减少了4.7%

我们对研究结果在几种替代设定下的稳健性进行了检验。特别是,为了评估我们设计的普遍性和有效性,我们进行了额外的分析,估计了在不同时间发布的另一种生成式人工智能对另一组工人的影响。具体而言,我们研究了20224月发布的基于图像的大语言模型(如Dall - E 2Midjourney)对提供图像和设计相关职业的自由职业者的影响。令人欣慰的是,我们观察到基于图像的人工智能模型的发布对平台上自由职业者的表现产生了类似的定性影响,无论是在工作数量还是总收入方面。

接下来,我们研究自由职业者的质量是否会调节对就业结果的影响。我们使用多种方法来确定自由职业者的质量,包括他们过去的就业情况和收入、过去工作所需的技能水平、过去的表现以及小时费率。总体而言,我们没有发现高质量会减轻ChatGPT对自由职业者就业的不利影响的证据。事实上,有证据表明高质量工人受到生成式人工智能工具发布的不成比例的影响,特别是在以图像为重点的职业中。

我们将这些发现解读为,至少在短期内,生成式人工智能模型可替代所有质量类型的知识工作者,有效地减少了他们的就业机会和收入。异质性影响与生成式人工智能可能缩小低质量和高质量工人之间的生产力差距相符。最后,我们讨论了这些初步结果对人工智能对劳动力市场影响的更广泛意义。

文献综述

我们的研究结果为关于人工智能与劳动力市场的不断增长的文献做出了贡献。文献中的一个共同主题是,人工智能对劳动力市场的影响在理论上是不明确的:虽然人工智能可以作为劳动力的替代品,但它也有可能通过提高劳动生产率来补充工人。

最近且具有影响力的发展之一是新的生成式人工智能模型和大语言模型(LLMs)的发布。一些论文旨在量化它们对劳动力市场的影响,特别是最近的一系列论文试图通过衡量一个行业所需任务与人工智能能力之间的兼容性来预测未来哪些行业将受到大语言模型的最大影响。另一系列论文进行实地实验,随机分配对生成式人工智能工具的使用权限,并研究其对工人绩效的影响。最后,Yilmaz等人(2023发现谷歌机器翻译的引入减少了翻译人员的就业,特别是对于具有分析元素的任务。也许与这项工作最相似的是,该论文还发现ChatGPT的引入减少了Stack Exchange上的问题和答案数量。我们的论文通过研究ChatGPT对劳动力市场结果(如工人就业和收入)的短期影响,为这一系列文献做出了贡献。我们详细的工人层面数据使我们能够研究在给定职业中,不同质量水平的工人受到的影响有何不同。

更广泛地说,我们的研究结果也为研究人工智能技术对经济影响的文献做出了贡献。过去的研究已经考察了在机器翻译、客户服务、销售、人力资源、在线零售、国际贸易、数据市场和编程等领域部署人工智能的后果。作为一种通用技术,人工智能有潜力极大地改变生产率以及创新过程。

实证研究框架

数据

我们的主要数据集是从Upwork (Upwork是全球最大的在线劳动力市场之一。该平台为雇主和独立自由职业者匹配中小规模的任务。Upwork上的服务通常是远程工作,涵盖从数据录入、平面设计到软件开发、市场营销等诸多领域)的自由职业者应用程序编程接口(API)获取的。我们抓取了所有可搜索的自由职业者个人资料页面上的所有可用信息,包括他们的职业、资质和技能。我们还观察了过去就业的相关指标,比如过去的总收入、之前的工作数量、已完成工作的成功率以及之前雇主留下的评价。值得注意的是,我们只能观察到20234月时自由职业者群体的一个快照情况,无法观察到个人资料页面随时间推移所发生的变化。

我们将关注范围限定在20221月至20234月期间。就业结果按照工作开始的日期汇总到自由职业者每月的层面,重点关注每月的工作数量和月收入。我们对这两项结果在1%99%的水平上进行了缩尾处理。由于我们的研究设计利用了不同职业之间的差异,所以我们将关注对象限定为仅提供单一职业服务的自由职业者(约占自由职业者总数的85%)。我们最终的数据集包含了92547名自由职业者。表1展示了主要分析中所使用变量的汇总统计数据。我们注意到,平均而言,一名自由职业者每三个月开始一项工作,平均月收入为171美元。然而,不同月份以及不同自由职业者之间存在着很大的差异。


我们的次要数据集用于为我们的研究设计提供描述性的依据,它由从谷歌趋势获取的数据组成。该应用程序编程接口(API)提供了谷歌上特定搜索词的相对关注度。对于每一个搜索词,我们获取了在我们的样本期间内其在美国的关注度变化情况。值得注意的是,谷歌一次只允许对五个搜索词进行比较,并且总是将结果相对于最高值进行标准化处理。因此,当对许多搜索词进行比较时,我们会进行多次查询,并且每次查询总是包含那个具有最高关注度值的搜索词。

实证策略

为了更直接地研究不同应用类型对ChatGPT的不同兴趣,我们利用谷歌趋势数据。如图1A面板所示,我们首先研究“ChatGPT”“GPT”“AI”这些搜索词随时间的相对兴趣。与ChatGPT用户群的快速增长一致,我们记录到在202211月其发布后,与ChatGPT相关的查询的相对兴趣急剧增加。

然后,我们研究谷歌搜索查询所捕捉到的与GPT结合的各种职业领域的相对兴趣。我们选择在Upwork平台上出现的领域,并将它们与GPT一词组合,例如“GPT翻译“GPT移动开发等。结果呈现在B面板中,它提供了描述性证据来支持我们的研究设计以及对写作相关工作的选择。与其他领域(如“GPT翻译“GPT软件开发)相比,“GPT写作是迄今为止最常被搜索的词。这表明公众的注意力和兴趣倾向于在写作行业中应用人工智能技术。我们将这些模式解释为暗示性证据,与以下观点一致:虽然多个行业受到ChatGPT引入的影响,但短期影响在写作相关任务中更为显著。


研究设计

主要设定利用数据的面板结构采用双重差分研究设计。具体而言,我们估计以下设定:


其中it分别是自由职业者和月份的指标,Post202211月之后的一个指标,T表示可能受ChatGPT影响更大的职业,即写作、校对和编辑。Xit是随时间变化的自由职业者层面特征的向量,如平均反馈评分(以及评分是否缺失的指标)、过去月收入的对数和已完成的先前工作数量。Y表示我们主要关注的结果,即每月的工作和薪水,我们也将其分解为广延边际和集约边际。具体来说,我们首先估计(对数)每月工作数量和收入的总效应;其次,在集约边际上,通过以工作为条件的(对数)工作数量和收入来衡量;第三,在广延边际上,通过衡量自由职业者在给定月份是否接受新工作的指标来衡量。所有回归还包括自由职业者和月份固定效应。最后,我们将误差项的标准误差聚类到职业层面,这与处理分配的层面相对应。

双重差分设计的关键识别假设是,在不受GPT发布影响的情况下,从事受影响较大和受影响较小职业的自由职业者的发展情况会相似。为了评估这一假设,我们估计了一个更灵活的双重差分事件研究设定,形式如下:


其中Prej和Postk是虚拟变量,当观察值在添加标签前j个月或添加标签后k个月时等于1

研究结果

主要结果

在各种设定下,我们发现ChatGPT的发布对平台上自由职业者的就业有显著的负面影响。第(1)列和第(2)列展示了与受影响较小职业的自由职业者相比,写作相关职业的自由职业者每月就业和收入的总体影响。ChatGPT发布后,受影响较大职业的自由职业者在平台上的每月工作数量减少了2%(标准误差= 0.004),每月总薪酬减少了5.2%(标准误差= 0.016

在第(3)列至第(5)列中,我们将总效应分解为广延边际和集约边际。第(3)列展示了自由职业者在给定月份获得至少一份工作的线性概率的影响,我们将其解释为在平台上工作的广延边际。在GPT发布后,提供写作相关服务的自由职业者在给定月份开始新工作的概率下降了1.2个百分点,与基线就业相比大约下降了10%。在第(4)列和第(5)列中,我们估计了在该月至少获得一份工作的条件下,对(对数)工作数量和月收入的影响。工作数量大约减少了4.7%(标准误差= 0.011),这比总效应大得多,收入的影响大小大致相同,减少了5.1%,尽管其噪声较大(标准误差= 0.037)。


为了缓解对自由职业者就业中未观察到的长期趋势驱动主要结果的担忧,在图2中我们展示了主要设定的事件时间,如公式2中详细描述的那样。令人欣慰的是,在ChatGPT发布之前,我们观察到最终接受处理和未接受处理的职业中的自由职业者之间存在相似的前期趋势,这为平行趋势假设提供了暗示性证据。在其发布之后,我们看到平台上每月工作数量(A面板)和每月薪酬(B面板)持续且不断增加的下降,这表明存在因果关系。


我们对结果的稳健性进行了多种替代设定的检验,例如省略控制变量。此外,由于聚类数量较少,我们还使用卡梅隆等人(2008)的野生自助法来计算标准误差。或者,我们在行业层面而非职业层面进行聚类。结果呈现在附录表A1中。一个相关的担忧是,即使没有生成式人工智能的引入,受影响和未受影响职业的自由职业者之间存在未观察到的差异,这些差异正在驱动主要结果。因此,我们进行了额外的分析,根据发布前的特征对自由职业者进行匹配,以考虑可观察到的以及潜在不可观察到的差异,在自由职业者的过去就业、过去收入、教育程度、徽章、成功率和平台上的小时费率等方面进行粗略匹配。如表A2所示,使用匹配样本提高了主要结果的精度,并总体上增强了结果。


最后,为了评估我们设计的内部有效性并评估其结果的可推广性,我们进行了额外的分析,估计了在不同时间发布的另一种生成式人工智能对另一组工人的影响。具体而言,我们研究了DALL-E 2Midjourney这两款旨在根据自然语言描述生成图像的模型发布的影响。结果呈现在表A3中,其结构与表2中的主要分析相同。以图像为重点的生成式人工智能的影响估计与我们的主要结果相呼应:我们发现新技术的发布对平台上自由职业者的表现产生了持续的负面影响,无论是在工作数量还是总薪酬方面。


处理效应的异质性

在记录了大型语言模型(LLM)的引入对就业结果产生不利影响的有力证据之后,我们转而探究处理效应的异质性,以便阐明主要估计结果背后的驱动因素。我们尤其有兴趣了解自由职业者的素质或经验是否能够减轻(或可能加剧)对就业结果的影响。

为此,我们将主要的估计量(Post minus T)与衡量自由职业者过往表现的几个指标进行交互分析,这些指标包括:在平台上过往完成的工作数量、在平台上过往获得的总收入以及过去工作中必要的技能水平。我们依据202211月(就在新的大型语言模型推出之前)时的水平来确定这些衡量异质性的指标。此外,我们还根据自由职业者页面上最显著的属性来检验异质性,这些属性包括:他们是否从Upwork平台获得了顶级评价徽章、他们过往的成功率(由过往雇主详细评定)以及他们标明的小时费率。

结果呈现在表3中。A面板展示了对每月工作数量的异质性处理效应,B面板展示了对月收入的影响。总体而言,就衡量自由职业者质量的各项指标来看,我们大体上可以排除自由职业者质量能够缓和生成式人工智能对就业的不利影响这一情况。我们大多在交互项上观察到负的点估计值,这表明顶尖自由职业者实际上是受人工智能不利影响最大的群体。然而,这些效应往往在统计上并不显著,尤其是对于月收入而言,其往往存在更大的波动性。


如附录表A4所示,在估计基于图像的人工智能模型的异质性影响时,我们观察到了更多为负且在统计上显著的效应。例如,查看第2列我们会发现,先前收入高于中位数的自由职业者,其工作数量会额外减少1.2%(标准误差= 0.007),月收入减少2.9%,不过该结果在统计上并不显著。对于基于图像的服务,我们估计先前收入高于中位数的自由职业者的工作数量和月收入分别减少7%14%,二者均在1%的水平上显著。针对基于图像的大型语言模型(LLM)得出的结果更为显著,一个可能的解释是其后续时间段的时间窗口更长,这可能会导致更高的采用率以及技术改进。


我们通过CardDiNardo2002年)提出的经典的技能偏向型技术变革(SBTC)模型这一视角,来解读按劳动者类型划分的异质性效应。假设Upwork平台上的劳动力供给在短期内不会发生剧烈变化,那么在引入ChatGPT之后,不同类型劳动力的相对影响会转化为相对边际产品的变化。如果有人将表3和表A4中的结果解读为高质量劳动者受到的伤害尤为严重的暗示性证据,那么这种解读与越来越多的实验证据是相符的,这些实验证据表明,相较于高能力劳动者,大型语言模型(LLM)的应用会给低能力劳动者带来不同程度的益处。

结论

本文通过估计ChatGPT对大型在线劳动力市场中劳动者就业情况的影响,研究了生成式人工智能和大型语言模型(LLMs)对劳动力就业结果的短期影响。总体而言,我们发现,在那些受人工智能影响最大的职业中提供服务的自由职业者,其就业和收入均出现了下降ChatGPT的发布导致平台上的工作数量下降了2%,月收入下降了5.2%。这些结果在多项替代检验中都很稳健,包括在引入以图像为重点的生成式人工智能后,提供设计及图像编辑服务的自由职业者的就业结果也出现了类似的下降情况。此外,我们发现提供高质量服务并不能减轻人工智能对自由职业者的负面影响,事实上,有暗示性证据表明,顶尖员工受到人工智能的不利影响尤为严重

这些结果对政策制定者和企业领导者有几点启示。除了人工智能技术带来的诸多益处之外,它可能也会产生重大的经济和社会影响。随着生成式人工智能的使用和发展持续增长,因此有必要进一步审视该技术对各行业以及整个经济的广泛影响。重要的是,我们发现卓越的表现和高质量的服务并不能帮助减轻或驾驭生成式人工智能带来的影响。企业领导者必须审慎考量如何适应以及是否采用这些技术,因为人工智能可能不加区分地扰乱现有企业,并削弱它们的竞争优势。

值得注意的是,在本文中,我们提供了关于生成式人工智能短期影响的新颖的初步证据。然而,长期影响可能会有很大不同,而且尚不清楚我们的研究结果如何延伸至更长的时间范围。一方面,随着该技术变得更加普及并渗透到更多行业和职业,其对劳动力就业结果的负面影响可能会加剧。相反,随着人工智能能力的持续发展,它可能会与各种工具更好地融合,并开始更好地辅助人类劳动者提升工作表现。最后,我们的论文完全聚焦于对劳动者(产生的负面)影响。评估生成式人工智能技术的引入给所有利益相关者带来的总体福利影响超出了本文的研究范围,这仍是未来研究颇具前景的一个方向。

附录B:数据收集

我们的主要数据来源是Upwork,这是一个领先的国际自由职业者平台。我们使用三个Upwork API来创建我们的面板数据。首先,我们查询搜索API,以收集每个职业的自由职业者完整列表。其次,根据每个自由职业者的ID,我们使用自由职业者API收集其个人资料页面信息,包括自我介绍、自由职业者收入和工作总时长的汇总统计、Upwork的评级徽章以及工作经历。每个自由职业者的工作经历数据包含工作ID、薪酬、雇佣时长、工作时长、职位名称和反馈等信息。第三,为了用事前信息补充工作经历信息,我们通过职位发布API进一步收集职位发布数据,以获取雇主标识符、职位描述、所需技能、期望职业、期望工作时长或工资以及期望员工水平。

B.1自由职业者收集

Upwork有一个三层职业分类系统,我们遵循最精细的层级,共215个职业,来收集自由职业者列表。一个自由职业者可能声称可以从事多个职业的工作,其中大多数在同一行业。一些自由职业者将其个人资料设置为私人,因此无法搜索。根据我们的方法,我们不收集这些自由职业者的数据。最终我们得到了涵盖这215个职业的568,647名自由职业者的面板数据。

B.2自由职业者资料和工作经历收集

对于每个自由职业者ID,我们查询自由职业者API以获取其主页信息,自由职业者在主页上展示自我介绍和技能。Upwork报告工作成功率,并在自由职业者主页上以徽章形式分配标签,以表明自由职业者的卓越程度。Upwork还汇总每个自由职业者的总工作时长、总收入和工作总数。以上所有信息均截至收集日期。此外,我们还收集每个自由职业者的工作经历,包括工作ID、职位名称、职位描述、反馈、总工作时长和收入。我们只保留从事单一二级职业(即子行业)的自由职业者。我们还删除了第一份工作薪酬超过前五份工作平均薪酬500%或低于5%的自由职业者。这两个阈值是根据经验分布的第10和第90百分位数确定的。从20221月到20234月,我们共有92,457名至少完成一份工作的自由职业者。

B.3职位发布收集

对于每个就业记录,我们使用职位发布API进一步补充信息,以获取有关职位发布的更多信息,包括雇主对工作时长、薪酬、员工技能和水平的期望。大约一半的职位发布不是私人的,这意味着我们无法获取有关该职位的更多信息。我们最终有519,577个职位至少被我们样本中的自由职业者承担过一次,时间范围为20221月到20234月。


作者介绍

Xiang Hui | Assistant Professor of Marketing
I study the design of trust mechanisms and the economics of technology. My latest research focuses on designing quality certification and rating systems for digital platforms, and analyzing the economic and policy implications of Artificial Intelligence (AI) and blockchain.


分享者介绍

黄靖翔

https://huang-jingxiang.github.io/

raconz1211@gmail.com

南京大学新闻传播学院2024级专业硕士研究生
南京大学计算传播学实验中心成员

研究方向:计算传播、自然语言处理


计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章