TOP刊最新: ChatGPT用于文本分析的指南, 如何在经管商科研究中使用生成式大语言模型?

学术   2025-01-15 13:34   美国  

凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

接着“24年全球访问量最高的50个AI工具, 看样子学术研究必须主动融入AI, 否则被淘汰.”,

读完最新TOP刊MS会计版块上的文章《ChatGPT for Textual Analysis? How to Use Generative LLMs in Accounting Research, ChatGPT用于文本分析?如何在会计研究中使用生成式大语言模型》后觉得非常有启发。该文真正意义上做到了通过提供介绍GLLMs、实用框架、案例研究以及深入讨论,助力中青年学者有效采用并评估GLLMs在文本分析研究中的应用。

Ties de Kok , 2025, ChatGPT for Textual Analysis? How to Use Generative LLMs in Accounting Research, Management Science.

概览:

生成式大语言模型(GLLMs),如OpenAI旗下的ChatGPT和GPT-4,正逐步成为会计研究领域中极具潜力的文本分析工具。GLLMs不仅能解决所有可通过非生成式方法(nongenerative methods )处理的文本分析任务,还能攻克一些过去只能依赖人工编码来解决的问题。尽管GLLMs具有新颖性和强大的功能,但它们也存在一定的局限性,并带来了新的挑战,这就要求研究人员在使用时必须格外谨慎。

本文重点研究了GLLMs在会计研究中的应用,并与现有方法进行了深入细致的对比分析。此外,本文还提供了一个实用的框架,帮助研究人员高效地运用GLLMs,该框架全面涵盖了模型选择、提示词设计以及确保构建效度等关键要素。

在一项案例研究中,本文充分展现了GLLMs的强大能力,通过检测财报电话会议中的“非回答(nonanswer)”内容,而这一任务一直以来都是自动化的难点所在。新的GPT方法实现了96%的高准确率,与Gow等2021年提出的方法相比,非回答错误率显著降低了70%。最后,本文还深入探讨了在使用GLLMs时需要重点关注的偏差、可复现性以及数据共享等关键问题。总体而言,本文为研究人员、审稿人以及编辑提供了有效运用和评估GLLMs开展学术研究的丰富知识和实用工具。

简要介绍:

自然语言处理与机器学习的飞速发展,孕育出了生成式大语言模型(GLLMs),其中OpenAI旗下的ChatGPT和GPT-4堪称典范。这些新兴模型在会计研究领域大放异彩,展现出分析文本数据的巨大潜力。GLLMs在处理文本分析任务时,堪比人工编码,不仅具备强大、灵活、易用等诸多优点,还兼具机器学习方法在可扩展性、速度以及成本等方面的诸多优势。

例如,经过精心指令训练的GLLM,能够精准地从环境、社会与治理(ESG)报告中提取排放目标,识别出在财报电话会议中尝试幽默的CEO,对比不同公司间风险因素的一致性,对员工评论中的话题进行聚类分析,以及从职位发布中提取企业文化信息等。尽管GLLMs功能强大且充满创新,但它们也存在一些局限性,并带来了诸多新的挑战,研究人员在使用时需要格外谨慎。本文的目的在于为研究人员、审稿人以及编辑提供如何有效运用和评估GLLMs在学术研究中的相关知识和实用工具。

GLLMs是一种能够读取并生成文本的模型,类似于功能强大的自动补全工具。GPT模型是GLLMs中最常见的类型。由于GLLMs基于自然语言,因此它们能够更便捷地应用于多种文本分析任务。GLLMs所具备的通用能力,使其在几乎没有或仅有少量训练数据的情况下,便能完成众多任务,从而节省大量时间和资源。例如,Hassan等在2019年通过对海量政治文本数据集进行算法训练,来识别财报电话会议中的政治风险讨论。若没有GLLMs,这项任务将变得极具挑战性且耗时费力。

像GPT-4这样的最先进GLLM,仅需提供电话会议片段并询问是否涉及政治风险,便能直接解决这一问题,实现“零样本”分析。像GPT-3或Llama2这类较小的模型,在经过恰当的指令引导或训练后,也能达到类似的出色表现。此外,GLLMs庞大的体量赋予了它们一定程度的推理能力和对世界的理解能力,这有助于它们解决一些难以自动化的复杂问题。例如,Gow等在2021年发现,由于任务存在细微差别和异质性,现有的机器学习方法很难识别财报电话会议中的非回答内容。而GLLM方法却能够攻克这类复杂任务,本文在案例研究中对此进行了展示。总体而言,GLLMs能够助力研究人员更轻松地分析文本数据,进而探索新的研究问题。

尽管GLLMs功能强大,但它们也存在局限性,并带来了新的挑战。GLLMs的自然语言特性使得在使用过程中,仿佛是在与一位具备能力的人工智能进行合作。然而,即便是最先进的GPT模型,也可能会犯错误,无法保证始终给出有意义的回答(尤其是在直接使用时)。研究人员在运用GLLMs时需谨慎行事,同时也要像使用其他机器学习(ML)方法一样,仔细评估其构建效度。

此外,GLLMs庞大的规模可能会导致它们运行缓慢、成本高昂且难以控制。要克服这些局限性,充分释放GLLMs的潜力,就需要研究人员以全新的方式开展工作和思考问题。然而,尽管GLLMs迅速普及,学术研究中关于如何使用这些模型的指导却相对匮乏。例如,在Bochkay等2022年对会计领域文本分析方法的概述中,并未提及GLLMs。本文旨在通过提供介绍、实用框架、案例研究以及深入讨论,助力研究人员有效采用并评估GLLMs在研究中的应用。

本文首先对GLLM方法进行了介绍,涵盖了其基本工作原理,并将其与现有的语言模型(如BERT)进行了对比分析。接着,本文深入探讨了GLLMs相较于现有的文本分析技术和人工编码的优缺点。结论显示,GLLMs能够解决所有可借助非生成式方法解决的文本分析任务。然而,对于一些较为简单、无需运用GLLMs强大能力的问题,非生成式技术在成本和速度方面可能更具优势。GLLMs的适用场景主要是那些原本需要借助复杂的机器学习技术或人工编码来解决的问题。与人工编码相比,GLLMs在成本和速度上具有显著优势,并且能够高效完成众多文本分析任务,达到等效的工作效果。不过,人工编码人员通常更易于指导,并且在处理小样本的复杂任务时更具适用性。

接下来,本文提出了一个四步框架,目的是帮助研究人员在其研究项目中高效地运用GLLMs。该框架在Anand等2020年以及Bochkay等2022年提出的指导基础上进行了拓展,重点阐述了GLLMs特有的实施细节和挑战。框架首先包括了定义研究任务以及确定执行任务所需信息的步骤。如果GLLMs缺少必要的信息或上下文,它们就容易通过猜测或编造信息来“臆造”答案。为了解决这一问题,框架紧接着提供了关于如何选择合适的GLLM方法和设计提示的指导,并且包含了图1中的流程图。最后一步则是提供确保构建效度的指导,设计评估方法来评估模型性能并及时发现潜在问题。最终,在线附录和配套网站提供了更多的实用技巧和代码示例,供研究人员参考和应用。

为了充分展现GLLMs的强大能力,本文开展了一项案例研究,专注于识别财报电话会议中的“非回答”内容。传统上,检测非回答内容一直是个难题,因为它涉及到诸多细微差别以及对上下文的深度依赖。研究结果显示,GLLMs能够以多种不同的方式来解决这一任务,且每种方法都较Gow等在2021年提出的方法更为精准。通过将GLLMs与现有方法有机结合,本文成功实现了96%的准确率以及87%的非回答F1分数,同时成本也保持在合理范围内。这表明,相较于Gow等2021年的方法,非回答错误率大幅降低了70%。为了进一步凸显GLLMs的灵活性与能力,本文还对ChatGPT 3.5模型进行了微调。借助GPT-4生成的训练数据集,本文成功提取了额外的非回答维度,例如其理由、问题类型以及情感等。

最后,本文深入探讨了在学术研究中运用GLLMs时需重点考量的几个关键因素。GLLMs的训练数据引发了一系列问题,例如偏差、来源材料的可靠性以及对近期事件缺乏了解等。此外,使用GLLMs还带来了新的可复现性挑战。研究人员需格外小心,因为不同模型并非可以随意互换,且第三方提供商有可能随时删除或修改模型。研究人员应始终妥善保存其原始提示和完成内容,以防失去对源模型的访问权限。同时,研究人员在将研究数据发送给第三方服务时也应谨慎行事,因为此类数据共享可能会受到禁止或并不希望发生。另外,GLLMs目前越来越多地被用作写作和编程助手。尽管这些工具能够在一定程度上提高生产力,但研究人员在开展研究工作时,切不可盲目依赖GLLM的输出结果,而应始终在使用之前仔细审查和验证输出内容的准确性和可靠性。

本文主要作出了四项贡献。首先,本文通过展示如何将生成式大语言模型(GLLMs)作为一种强大且新颖的文本分析方法,拓展了Bochkay等2022年的研究成果。其次,本文引发了人们对GLLMs相关挑战和局限性的关注,并提供了全方位的指导,涵盖了确保构建效度、应对偏差和知识局限性,以及缓解可复现性和数据共享问题等多个方面。第三,本文提供了实用的资源和指导,助力研究人员开启运用GLLMs开展自己项目的征程,包括一个详细的框架、技术指导、代码示例等,这些内容均可通过在线附录和配套网站获取。最后,本文通过深入研究财报电话会议中非回答内容的普遍性及其不同维度,为沟通与信息披露领域的文献做出了有益的贡献。通过配套网站,本文提供了非回答数据集及其维度,供未来研究使用。总地来说,本文为研究人员、审稿人以及编辑提供了有效运用和评估GLLMs在学术研究中的相关知识和工具。


本文深入探讨了在学术研究中运用GLLMs时需重点考量的几个关键因素,例如,在作者看来,使用GLLMs时需要注意的两个要点是:
5.2 可复现性
确保研究的可复现性是一项既充满挑战又极为关键的任务,尤其是在处理复杂的数据和程序时。生成式大语言模型(GLLMs)面临着两个具体的可复现性挑战。首先,GLLMs是由拥有数十亿参数的大型神经网络驱动的,而我们对这些网络的工作原理尚未完全理解。对于给定的提示,输出可能在不同模型、同一模型的不同版本之间,甚至在不同生成周期之间存在显著差异。例如,Chen等在2023年记录了2023年3月和2023年6月的GPT-4输出之间存在显著差异。其次,访问GLLMs通常需要通过第三方提供商。然而,这些提供商可以随时更改模型或使其不可用,这使得确保完全的可复现性变得困难。
提高可复现性的首个选择是不依赖第三方API,而是采用你可以存储并在本地运行的GLLMs。在线附录5和配套网站提供了关于如何在本地使用和微调GLLMs的详细讨论以及相应的代码示例。自行运行模型能够让你获得更多的控制权,从而增强研究的可复现性。然而,这种方法并不能解决所有可复现性的问题。例如,获取所需的专用硬件可能成本过高、难以获取,或者需要极高的技术知识和专业技能才能让他人成功复现。此外,即使在不同的硬件上运行同一神经网络,仍可能会导致输出结果出现细微差异,因此难以确保完全的复现。对于许多项目来说,使用第三方API所带来的便利和优势往往超过了本地运行GLLM所面临的挑战。
一个更具普遍适用性的建议是,始终假设可能会失去对生成内容的确切来源的访问权限。这个确切来源可以是本地的GLLM、API背后的GLLM,甚至是人工编码员。基于这种假设,至关重要的是始终准确存储并备份原始提示和生成内容,以确保它们在输入和输出源时的一致性。拥有原始提示和生成内容可以使所有后续分析得以复现,这是在无法确定性源的情况下,所能做出的第二最佳选择。尽可能使生成内容具备确定性也非常有帮助。将“温度”(temperature)超参数设置为零,能够让GLLM始终选择概率最高的标记,从而使生成内容尽可能地接近确定性。最后,透明地展示你的实证选择,比如数据、任务、提示设计、方法和模型等,是一种良好的实践方式。在条件允许的情况下共享你的代码,也是减少歧义、提高可复现性的直接有效方法。
5.5 使用GLLMs进行写作和编程
生成式大语言模型(GLLMs)在写作和编程领域的应用正变得越来越广泛,同时也引发了一些特定的关注点和挑战。在写作方面,GLLMs面临的主要问题包括归属性和写作内容的事实准确性。例如,在2023年的医学研究中,Bhattacharyya等发现,由ChatGPT生成的学术引用中,仅有7%是真实且准确的。虽然GLLMs可以协助进行校对或编辑学术写作,但我们不应盲目依赖其生成的写作内容。相反,我们应该仔细检查生成内容中的不准确之处、错误归属或其他潜在问题。
在编程领域,GLLMs可以作为一种强大的生产力工具,帮助编写和调试代码。然而,学术研究和编程问题往往较为特殊且不常见,与互联网上普遍存在的编程问题存在明显差异。当前的GLLMs擅长处理在训练数据中广泛出现的编码问题,但在面对更复杂、稀有或特定领域的编程任务时可能会遇到困难。研究项目中的代码库中的小错误可能会对结果和推论的有效性产生重大影响。因此,由GLLM编写或修改的代码应始终经过准确性验证。研究人员不应使用GLLM编程助手编写自己不理解、无法适当评估和审查的代码。在这方面,本文赞同Bochkay等在2022年的呼吁,认为研究人员仍应投入时间发展文本分析和编码技能,机构也应投入资源提供培训和指导。鉴于GLLMs的存在,投资于这些技能的回报率更高,因为它们使研究人员能够更有效地运用自己的专业技能。
长按以下二维码查看全文PDF:

*群友可在社群直接下载全文PDF参看。
关于机器学习,参看:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思
20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文!25.更精确的因果效应识别: 基于机器学习的视角,26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!28.机器学习和经济学, 技术革命正在改变经济社会和学术研究,29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”,30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容!32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子?33.机器学习已经用于微观数据调查和构建指标了, 比较前沿!34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法!35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

8年,计量经济圈近2500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


计量经济圈
凡是搞计量经济的,都关注这个号了。
 最新文章