2024年10月,“AI and Finance”对生成式人工智能(Generative AI, 例如 ChatGPT)对金融企业与研究的影响进行了重新审视。研究发现,人工智能的开发和运用正在推动企业和金融研究的技术变革。本研究回顾了有关ChatGPT对公司价值影响的文献,并为未来研究这一重大技术革新带来的冲击提供了方向。最后,本文总结了与人工智能工具改进相关的研究方法创新与应用,为使用人工智能的研究人员提供了工具介绍与建议。中国人民大学金融科技研究所(微信ID:ruc_fintech)对研究核心部分进行了编译。
来源 | NBER
作者 | Eisfeldt, A. L., & Schubert, G
编译 | 曹馨元
生成式人工智能 (Generative AI) 给企业和金融研究带来了重大的技术冲击。在金融领域,生成式人工智能和大语言模型(LLMs)引发了对相关技能需求的快速增长。图1显示了金融和保险行业每月招聘职位中提及特定技术技能的比例,其中,对“人工智能”技能的需求在ChatGPT发布后普遍增长了两倍。图1 金融和保险业的技能需求本研究将生成式人工智能作为金融经济学研究者研究的一个课题,以及进行金融研究的方法论工具。其中重点关注大语言模型和相关深度学习技术方面的创新,并不包括那些机器视觉、机器人等归入“人工智能”的工具。本文主要描述了当前的金融研究前沿,并提供了如何利用生成式人工智能改善资产管理和公司财务决策的实用技巧。
1. 生成式人工智能对公司价值观和公司政策的影响,并提供未来研究的方向;2. 生成式人工智能对金融研究方法的影响,并为金融研究者提供使用生成式人工智能进行研究的指导。
本文重点首先放在生成式人工智能对企业的技术冲击,然后具体阐释了对研究的技术冲击。Ⅰ 生成式人工智能:对企业的技术冲击
2022年11月ChatGPT的发布带来了巨大的技术冲击,对企业价值的影响总体上是巨大且积极的,但估值的变化显现出显著差异。现有研究普遍关注于企业生产流程转变、生产力变化和进一步创新的不确定性如何改变企业行为方式,但事实上,技术冲击的变化还会影响企业在迅速推进的人工智能技术前沿条件下的决策转变。这里,研究者回顾了Eisfeldt et al. (2023) 关于生成式人工智能重大实证研究的发现,接下来展现了各行业中生成式人工智能的应用并说明未来的研究方向。
首先,研究者需要确定哪些公司已经受到了当前技术的冲击,这里,他们选择研究者通过调查专利数据、公司产品信息来评估公司对生成式人工智能的暴露程度(exposure),并揭示哪些公司已经部署该技术从而得到生产潜力。在Eloundou et al. (2023)研究中,他们评估了不同职业暴露与大语言模型LLM的能力,并通过结合一家公司的生成式人工智能暴露的岗位级别得分与基于LinkedIn个人资料的每家公司就业结构的信息来衡量一家公司的暴露程度。具体而言,研究者部署了一个由大语言模型驱动的分类算法,根据任务的描述将其分配到不同类别中,来区分使用GPT-4大语言模型完成任务可能对生产力带来的影响。最后得到三种不同的暴露程度:①直接暴露:直接使用类似于ChatGPT的大语言模型可以减少任务完成时间≥50%②间接暴露:当与额外的软件或工具结合使用时,大语言模型可减少任务完成时间≥50%③无暴露:使用大语言模型不会显著减少完成时间,也不会对执行的质量产生重大影响。研究人员利用这个方法对19625项任务进行了分类,发现14%的职业任务直接暴露,22%任务间接暴露,64%的任务未暴露。结果表明,生成式人工智能的暴露程度在职业内部的不同任务中可能会有所不同,有些任务会变得更容易完成,而另一些则不受影响。虽然Eisfeldt et al. (2023) 关注的是生成式人工智能的暴露程度,但其他研究人员为公司在前几波与人工智能相关的创新中的暴露程度制定了衡量标准。例如,Babina et al. (2024) 基于从详细的员工简历和职位发布中识别出的与人工智能相关的技能及其在2007-2018年期间在不同公司中的普及程度,制定了一个公司层面人工智能投资的衡量标准。
接下来,作者针对不同行业中生成式人工智能的普及展开调查。图2展示了所有职业的平均通用人工智能暴露度(按2022年的就业情况加权)为0.27。可以发现,在白领职业群体中,医疗保健职业的暴露度低于平均水平,为0.18;而金融职业的暴露度几乎是平均水平的两倍。此外,由于大语言模型在代码方面的出色能力,计算机相关职业的暴露度最高,为0.62。其中,作者探究了金融行业内不同职业的生成式人工智能的暴露程度与其他特征之间的关系如何。图3展示了生成式人工智能暴露程度与金融职业工资之间的关系,数据表明,高薪的金融职业不太容易受到生成式人工智能对生产力的影响。因此,在金融职业中,暴露程度与工资存在负相关关系,这和整个经济中工资与暴露程度之间的正相关关系形成了鲜明对比。这种相反的模式可以表明:几乎所有此处展示的特定金融职业已经需要高水平的分析技能来完成。接下来,作者针对金融市场在多大程度上预测到新技术的生产力潜力将会实现,哪些企业被认为更有可能从中受益展开了分析。这里主要运用了构建投资组合的方法展现新技术对金融市场带来的冲击。首先,本研究根据企业在生成式人工智能方面暴露程度,将它们分为五个价值加权投资组合。分析表明,在ChatGPT发布后的两周内,暴露程度最高的五分之一企业(被标记为“人工智能”投资组合)的每日回报率比暴露程度最低的五分之一企业(被标记为“人类”投资组合)高出44个基点。因此,本研究在一个投资组合中做多人工智能股票,而做空人类股票,可以称之为“人工智能减去人类”(“Artificial-minus-Human”) 投资组合AMH,该投资组合在技术发布后展现了显著的超额收益。且可以发现,在2023年3月GPT-4发布后,AMH投资组合的回报率再次显著提升。
此外,对于企业价值的估计,研究人员进行了粗略的估算。如果每种职业的劳动产品最终可以提高50%生产率份额,假设工资代表了每个工人的边际产品,且生产率影响仅适用于每个工人的边际产出,则可以计算 就业×年度工资×50%×暴露份额 作为新技术可能创造价值的代理变量,其中还应该考虑一些适应和动态效应。结果显示,在所有职业中,预计将每年创造约1.4万亿美元的价值。仅在金融职业中,相应的数字为910亿美元,相对于金融职业360万名员工占美国总就业的2.5%比例,产生了巨大影响。
D. 未来工作的方向
现有研究关注的是职业与生成式人工智能之间的关系,但后续的研究可以集中在:1. 生成式人工智能如何与员工在职业中的等级相关联;2. 生成式人工智能如何为企业价值的增长提供资金;这需要对无形资产(如关键人才、软件、数据等)的资本结构进行研究其中,Veldkamp和Chung (2024) 强调了数据在预测中的作用,并且结合此类数据,生成式人工智能有可能通过降低不确定性来改善资本预算决策。Crouzet和Eberly (2023) 提供了一个框架,可用于理解与生成式人工智能相关的无形资产以及任何巧合的市场力量所产生的潜在租金如何影响投资激励。Bertomeu et al. (2023) 提供了外部模型的获取的重要性,他们考虑了在生成式人工智能技术已被部分采用后,当公众对其的访问被撤销时,企业估值会发生什么变化。4. 从资产定价角度看,重大技术冲击预计会改变经济结构,从而改变构成市场风险的因素。其中,Cochrane et al. (2008) 在一个具有两个部门且部门规模随时间变化的框架中提供了预期回报模型。与这些观点一致,Babina et al. (2023) 则提供了证据,表明雇用更多人工智能人才的公司随着时间的推移,其系统性风险有所增加。生成式人工智能技术冲击的早期影响是,一些现有的学术研究活动可能会变得更加高效 (Korinek, 2023)。研究发现,通过使用大语言模型进行代码生成和调试,清理数据或进行统计分析的编程可以在更短的时间内完成,并拥有更快的迭代周期;使用深度学习技术或大语言模型而非人工标注员对文本数据进行分类可以更快完成,而且通常成本要低得多(例如,Dell (2024) 提供了关于何时以及如何使用这些方法(例如从历史文献中构建经济指标)的详细建议);大语言模型可以协助起草文本,并为论文和演示文稿提供近乎即时的校对服务——还有许多其他应用。本研究认为,对于学术研究人员来说,这些新工具可以使“补充性”任务实现自动化或提高其效率。与直接有助于该职位的核心目标不同,补充性任务对于该职位的主要职能而言不太关键,但仍能增加职业产出。
以下讨论了生成式人工智能(及相关深度学习技术)在金融研究中的众多不同应用,涵盖:高维数据的嵌入;使用大语言模型进行文本分类;将大语言模型作为模拟调查回应的工具;以及大语言模型如何能够帮助发现新的研究思路和生成假设。下表展示了当前金融研究直接或间接受到大语言模型影响的实例:
嵌入是一种将不同类型的数据表示为向量形式中的数字的方法,通过将复杂的信息转化为一组数字来捕捉数据的含义和特征。更直观地说,嵌入可以被视为一种主成分分析,通过神经网络的训练提取与特定预测任务最相关的成分。在金融研究中,嵌入技术在总结和翻译高维数据方面特别有用,例如在财报电话会议记录的背景下。然后,恢复的嵌入向量可以作为其他分析的输入,例如更传统的机器学习预测模型,如违约预测或情感分析。此外,嵌入还可以用来创建“语义轴”,正如An et al. (2018) 所建议的。嵌入在语义空间中可以根据资产类型和投资者在类似情境中投资的可能性来对资产进行聚类,这些资产嵌入使金融研究人员能够基于投资者的投资组合选择来描述投资者,从而超越了传统的可观测特征。在金融研究中,一个特别有影响力的变换器模型是BERT(双向编码器表示来自变换器),由Devlin et al. (2018) 开发。与最近生成的AI模型不同,后者从输入文本生成输出文本,BERT作为一个编码器。这种产生有意义嵌入的能力使BERT成为金融研究人员寻求复杂方式分析文本数据的宝贵工具针对特定领域文本分类的分析,像BERT这样的模型可以通过调整参数来优化与特定任务相关的目标函数。可以参阅:(1) 例如,Caragea et al. (2020) 训练了一个基于BERT的模型,根据与金融科技相关的发明分类法对数百万专利申请的摘要进行分类。(2) 同样,Chen and Wang (2024) 利用一个Transformer模型对专利摘要进行嵌入,使他们能够在语义向量空间中比较这些申请与参考专利组的接近程度。此外,研究人员还开发了类似于BERT的模型来分析金融新闻、监管文件、分析师报告和电话会议记录,其中一个例子是Krockenberger et al. (2024) 开发的CovenantAI,通过应用MPNET句子转换器,为文本块返回单个向量嵌入,从而训练一个分类器来识别表明违反契约的文本语义。最近,自2022年11月ChatGPT发布以来,最新一代的大语言模型为金融研究人员提供了另一组先进的能力。这种“生成式”模型能够对有关文本内容的用户查询做出响应,并且能够理解和解释复杂的文本。这允许研究人员使用大语言模型 (LLMs) 从原始文本中提取直接分类或标签。这样,研究人员就不必训练一个单独的机器学习模型,该模型将嵌入映射到标签,因为大语言模型直接返回一个标签。相关的研究可以关注Chang et al. (2024)。其研究运用了gpt-3.5-turbo-16k来评估数十万次财报电话会议,这种大型上下文窗口使得研究人员能够增加模型单词考虑的文本数据量,来标记文本。结果发现,大语言模型考虑上下文和单词之间的语义联系的能力有助于可靠地解读财报电话会议的语气。而Lopez-Lira和Tang (2023)的研究则为这种能力的增加和证实提供了更多证据。大语言模型在研究中另一个潜在用途是作为一种快速、廉价且随时可用的调查应答者,能够“模拟”人类反应。例如,Hewitt et al. (2024) 表明,GPT-4在预测实验结果方面可以超越人类专家。该论文使用该模型模拟个体对治疗的反应,并利用模拟的反应来估计治疗效果。与人类预测者相比,GPT-4在预测实验的相对效应大小方面表现优于人类。Fedyk et al. (2024) 表明,当大语言模型(LLMs)被提示从具有特定人口特征(此处:年龄、收入、性别)的人的视角做出回应时,它们在资产类别(股票、债券和现金)的偏好方面能够表现得与人类调查受访者类似。在时间序列设定中,大语言模型还可以作为可预测性的基准:如果目标是区分结果中预期的变化和意外的变化,那么基于时间t信息的LLM预测可以作为基准,用于确定在时间t+1的结果中哪些部分是合理预期的,哪些部分是意外的。(例如在衡量货币政策“意外”的研究可以使用基于LLM的预测)Girotra et al. (2023) 表明,GPT-4可以在极少的提示下生成新产品想法,平均而言,这些想法比顶尖MBA项目的学生生成的想法更能引发购买意愿。Si et al. (2024) 在对其生成的想法描述的盲评中发现,大语言模型系统可以比专家自然语言处理研究人员产生更多新颖的研究想法。其次,经济学和金融学中思想产生的另一个方面通常是收集和分析通过结构化访谈获得的定性数据,这些数据随后可用于验证或创建新的理论来解释经济行为者的行为。在这里,生成式人工智能可以通过使用大语言模型作为人类受访者的廉价访谈者来扩大研究人员进行“面对面”访谈的能力。Geiecke and Jaravel (2024) 开发并验证了一种基于大语言模型的工具,用于进行定性访谈。他们表明,该工具能够在应用中提供高质量的响应,例如,通过调查人类来引出政治偏好或讨论诸如拥有有意义的生活等复杂话题。因此,这些新的调查方法有助于扩大假设开发和调查数据收集的能力。由于上述方法论是最近开发,并首次运用到金融研究中的,因此需要验证这些模型是否正确。以下提供一些主要的研究观点。在很多应用中,人们可能并不仅仅想给文本分配一个二元标签,而是希望分配更精细的数值差异或者绝对量化。LLM并不能将每篇文本和样本中其他收益电话会议进行相对评估,因为它并没有记忆能力,使其“跨越”样本中的电话会议进行比较。大语言模型LLMs在金融研究中有前景的应用中,也包括不明确的数字评分相关的问题,该应用涉及到对实体的分类或聚类,例如,基于公司的企业沟通将公司聚类为不同的组,相关的重要研究为Beckmann et al. (2024),他们解释了公司收益电话会议中异常沟通对公司后续财务市场结果的影响。然而,本研究想要强调的是,虽然大语言模型在没有给定标准或基准的情况下执行此类定量映射和分类的能力仍有待证明,但这种程序往往会产生比基于单词计数的更传统方法更可靠的结果(参见Loughran and McDonald (2020)),因为大语言模型更有可能可靠地理解不同的用法和上下文。Wang et al. (2023) 指出,LLM存在位置偏差——提供信息和请求的顺序可以显著改变响应。他们在研究中建议,对于对响应理由感兴趣的研究人员,简单地要求模型首先提供解释,然后再提供定量分数,更有可能产生这两个方面始终相互关联的响应。RAG (Retrieval-Augmented Generation) 方法通常涉及对文本进行清理和分块,以便提前进行检索如何将较大的文本最佳地划分为较小地块是一个重要问题。这里LLM对在长提示中包含不相关信息很敏感,因此RAG方法不仅存在遗漏本应该包含在提示中的相关文本的风险,而且添加在提示中的不相关文本也会使大语言模型感到困惑。这可以通过在检索最佳匹配项之前或之后添加简单的正或负关键词过滤器来解决。同时,创建有效的RAG流程的关键是评估流程的每一步是否按照预期执行。
一般来说,研究人员需要检查RAG系统的性能,并根据需要调整所使用的工具,因为“标准”工具可能并不适用于所有类型的文本,并且提示通常需要调整,例如,包括更多正确标签的示例,以确保大型语言模型按预期响应。就像在经典机器学习中一样,研究人员应该自己对这个“真实”示例的小随机子集进行评分,并确保RAG工作流程和提示的不同迭代对这个子集表现良好,然后再将分析扩展到整个数据集。研究人员应该在他们的论文中记录这些设计决策,就像包括计量经济学方法,如差异差异设计,或估计方程一样。
总体而言,ChatGPT的发布对公司价值迅速产生了巨大的影响,这表明未来研究关于生成式人工智能对公司政策的影响将取得丰硕成果。越来越多的创新研究利用生成式人工智能工具来研究公司财务和资产定价的经典问题。与之前的技术创新一样,比如在20世纪后期广泛可用的金融市场数据,以及20世纪初计算能力的进步,本研究回顾了现有的创新研究。并针对生成式人工智能的使用为未来的工作提供了有效工具。
……