原文信息:Hui X, Reshef O, Zhou L. The short-term effects of generative artificial intelligence on employment: Evidence from an online labor market[J]. Organization Science, 2024.
标题:生成式人工智能对就业的短期影响:来自在线劳动力市场的证据
摘要
Abstract
生成性人工智能(AI)具有提高知识工作者生产力或完全替代他们的潜力。我们研究了最近发布的大型语言模型(LLM)ChatGPT,对一个大型在线平台上自由职业者的就业结果的短期影响。我们发现,在受到高度影响的职业中,自由职业者因生成性AI的引入而遭受损失,他们的就业和收入都有所减少。在研究其他基于图像的生成性AI模型的发布时,我们也发现了类似的影响。通过探索自由职业者就业历史的异质性,我们没有发现高质量服务(通过他们过去的表现和就业来衡量)能够缓解对就业的不利影响的证据。事实上,我们发现了一些暗示性证据表明,顶尖的自由职业者受到AI的影响更大。这些结果表明,在短期内,生成性AI减少了对所有类型知识工作者的整体需求,并有可能缩小工人之间的差距。
关键词:生成性AI,大型语言模型(LLM),在线劳动市场
引言
近年来,生成式人工智能(AI)模型,如ChatGPT和Midjourney,迅速被应用并展现出巨大的潜力和风险。这些功能强大的AI工具相较于以往版本在性能上有了显著的提升,这使得非专业人士也能轻松使用它们来完成各种任务。因此,它们可以被看作是一种通用技术(Brynjolfsson和Mitchell,2017年),具有对经济和社会产生深远影响的潜力。
经验框架
(一)经验策略
文章利用Google Trends数据研究了不同应用类型对ChatGPT的兴趣。如图1面板A所示,首先考察了“ChatGPT”、“GPT”和“AI”这三个搜索词在一段时间内的相对关注度。与ChatGPT用户群的快速增长相一致,能够看到,ChatGPT于2022年11月推出后,与ChatGPT相关的查询的相对关注度急剧上升。
然后再通过谷歌搜索查询,考察人们对与GPT相结合的各种职业领域的相对兴趣。我们选择了Upwork平台上出现的领域,并将其与GPT一词相结合,如“GPT翻译”、“GPT移动开发”等。结果见B部分,该部分提供了描述性统计数据可以帮助我们看到其对研究设计和写作相关工作的选择。与“GPT翻译”或“GPT软件开发”等其他领域相比,“GPT写作”是迄今为止最常见的搜索词。这表明,公众的注意力和兴趣偏向于人工智能技术在写作行业的应用。我们将这些模式解释为提示性证据,与以下观点一致:虽然ChatGPT的引入会影响多个行业,但其短期影响在与写作相关的任务中更为明显。
(二)研究设计
文章主要利用了数据的面板结构,采用DID模型来进行设计,设立了如下的估计模型:
实证分析结果
(一)主要结果
首先估算了ChatGPT的发布对受影响较大的自由职业者就业和报酬上的影响,结果见表2。在不同的模型规范中,我们发现ChatGPT的发布对平台上自由职业者的就业产生了显著的负面影响。列(1)和(2)展示了,与受影响较小的职业相比,与写作相关职业的自由职业者每月就业和收入的影响。数据发布后,受影响较大的职业的自由职业者在平台上的每月工作数量减少了2%(标准误差=0.004),总的月收入减少了5.2%(标准误差=0.016)。
在列(3)到(5)中,我们将总体影响分解为广泛边际效应和集约边际效应。列(3)展示了对自由撰稿人在给定月份至少获得一份工作的线性概率的影响,我们将其解释为在平台上工作的广泛边际。GPT发布后,提供写作相关服务的自由职业者在给定月份开始新工作的概率下降了1.2个百分点,与基线就业相比,下降约10%。在列(4)和(5)中,我们估计了在该月份至少获得一份工作的前提下,估算了工作数量和月收入(对数)的影响。工作数量减少了大约4.7%(标准误差=0.011),大大超过了总的影响,而收入的影响大小大致相同,减少了5.1%,尽管这个结果的噪声更大(标准误差=0.033)。
为了减轻人们对自由职业者就业中未观察到的世俗趋势推动主要结果的担忧,我们在图2中给出了主要规格的事件时间,详见公式(2)。在ChatGPT发布之前,我们观察到最终处理职业和未处理职业的自由职业者之间存在相似的前趋势,这为平行趋势假设提供了提示性证据。在ChatGPT发布后,我们发现平台上的每月工作数量(面板A)和每月报酬(面板B)都出现了持续且不断增长的下降,这表明两者之间存在因果关系。
由于聚类数量较少,我们还使用了卡梅伦等人(2008)的野生自举法来计算标准误差。另外,我们还在行业而非职位层面进行聚类。与此相关的一个问题是,即使不引入生成性人工智能,受影响职业和未受影响职业的自由职业者之间也存在未观察到的差异,这些差异推动了主要结果的产生。因此,根据自由职业者在发布前的特征来进行匹配,以考虑可观察到的和潜在的不可观察到的差异。匹配的指标有自由职业者在平台上的过往就业情况、过往收入、教育程度、徽章、成功率和时薪。最后使用配对样本提高了主要结果的精确度,并总体上加强了结果。
最后,为了评估我们设计的内部有效性和研究结果的可推广性,我们还进行了一项额外的分析,估算了在不同时间发布的另一款生成式人工智能对另一组工人的影响。我们特别研究了《DALL-E 2》和《Midjourney》的发布效果,这两个模型旨在根据自然语言描述生成图像。与我们的主要说明类似,我们将受影响群体定义为提供设计、图像编辑和艺术服务的自由职业者子集10两个模型的发布时间大致相同,DALL-E2发布于2022年4月,Midjourney 发布于7月。保守起见,将发布时间定为2022年4月之后。其结果结构与表2中的主要分析相同。对以图像为重点的生成式人工智能影响的估计结果与我们的主要结果一致:即无论是工作数量还是报酬总额上来看,新技术的发布对自由职业者在平台上的表现均产生了一致的负面影响。
(二)异质性处理效应
为此,我们将主要估计量与自由职业者过去表现的几种衡量标准进行交互:在平台上的过去工作数量、在平台上的过去总收入,以及过去工作所需的技能水平。异质性衡量标准为2022年11月的水平,即新的大型语言模型(LLM)发布之前。此外,我们还测试了自由职业者页面上最显著属性的异质性:他们是否获得了Upwork的“顶级评价”徽章、他们过去成功率(由过去的雇主详细说明),以及他们声明的小时费率。值得注意的是,我们仅在收集数据时观察到这三个衡量标准,无法评估在我们的样本期间这些标准是否发生了变化。为了便于解释,我们为六个异质性衡量标准中的每一个创建了一个高于或低于中位数值的指标。
结果在表3中呈现。面板A展示了对每月工作数量的异质性处理效应,而面板B展示了对每月收入的效应。总体而言,通过各种衡量自由职业者质量的标准,可以大致排除自由职业者的质量会缓解生成性人工智能对就业的不利影响。我们主要观察到交互项的负点估计,这表明“顶级”自由职业者实际上是受人工智能影响最大的群体。然而,这些效应通常在统计上并不显著,尤其是对于每月收入,这往往更加嘈杂。在观察第二列时,先前收入高于中位数的自由职业者在工作数量上额外减少了1.2%(标准误差=0.007),月收入减少了2.9%,尽管结果在统计上并不显著。对于基于图像的服务,我们估计先前收入高于中位数的自由职业者的工作数量和月收入分别减少了7%和14%,两者在1%的水平上都具有统计显著性。对于基于图像的LLM更强结果的一个潜在解释是,更长的发布后时间窗口可能导致更高的采用率以及技术改进。通过结果解释得到结论,即采用大型语言模型(LLM)相对于高能力工作者而言,对低能力工作者更有利。
结论与启示
(一)结论
(1)在受AI影响最大的职业中,提供服务的自由职业者在就业和收入方面都在减少。
(2)在引入以图像为重点的生成性AI后,提供设计和图像编辑服务的自由职业者的就业结果也出现了类似的减少。
(3)提供高质量的服务并不能减轻AI对自由职业者的负面影响,实际上,顶尖员工受到AI的影响更大。
(二)启示
(1)随着生成性AI的使用和发展继续增长,有必要进一步审视这项技术对各个行业乃至对整个经济的普遍影响。
(2)企业领导者必须仔细考虑如何适应以及是否采用这些技术,因为人工智能会不分青红皂白地颠覆现有企业,削弱其竞争优势。
顶刊数据展示
高级、永久会员数据展示