芝加哥大学布斯商学院:用大语言模型进行财务报表分析,能够超越专业人类分析师?

文摘   2024-08-07 06:59   英国  

芝加哥大学布斯商学院:用大语言模型进行财务报表分析

摘要

我们研究了LLM(大语言模型)是否可以像专业人类分析师一样成功地进行财务报表分析。我们向GPT-4提供标准化和匿名的财务报表,并指示模型分析它们以确定未来收益的方向。我们发现,即使没有任何叙述性或行业特定的信息,LLM在预测收益变化的能力上也优于财务分析师。

关键词

财务报表分析、大语言模型、GPT-4、思维链、神经网络、资产定价、收益、收益变化方向、分析师


研究背景

传统上,财务报表分析是由财务分析师和投资专业人士进行的,其主要目的是了解公司的财务健康状况,并确定其业绩是否可持续。与LLM执行的典型任务不同,FSA(财务报表分析)是一项定量任务,涉及分析趋势和比率,同时还需要批判性思维、推理和最终的复杂判断。

LLM相对于人类分析师的一个重要优势在于它能够快速分析大量的非结构化数据,并具有广泛的知识基础,使模型能够在数据中识别模式,例如熟悉的商业情况。


我们的发现

  • • 预测能力
    我们发现LLM在预测收益变化的能力上优于财务分析师。即使没有任何叙述性或行业特定的信息,LLM在分析标准化和匿名的财务报表时表现出色。特别是,LLM在分析师通常表现不佳的情况下表现出相对优势。以下是一些具体发现:

    • • 预测准确性:在预测未来收益方向时,GPT-4的准确率达到60.35%,比分析师预测的53%高出显著7个百分点。这一差异在统计上显著,达到了1%的显著性水平。

    • • 叙述性见解:LLM生成的叙述性见解对公司的未来表现有很大帮助。这些叙述性见解可以进一步用于训练人工神经网络(ANN),使其预测准确率接近GPT-4的水平。我们发现,基于GPT叙述见解训练的ANN达到了59%的准确率,几乎与GPT预测准确率(60%)相当。

  • • 交易策略
    基于GPT预测的交易策略比基于其他模型的策略产生了更高的夏普比率和阿尔法。我们的研究表明,LLM可能在未来的决策中占据核心地位。具体来说,基于GPT预测的等权重投资组合的夏普比率达到了2.84,而价值权重投资组合的夏普比率则为0.95。相比之下,其他模型的投资组合表现略逊一筹。


研究方法

为了测试LLM的能力,我们进行了以下步骤:

  1. 1. 数据准备
    我们使用了从1968年至2021年的Compustat年度财务数据,并设置了2022年的数据来预测2023年的财年收益,以测试模型在训练窗口之外的表现。我们确保数据标准化和匿名化,以防止模型在分析过程中依赖记忆中的特定公司信息。

  2. 2. 比较模型
    我们将GPT-4的表现与传统的逐步逻辑回归模型和人工神经网络(ANN)进行了比较。逐步逻辑回归模型包含59个预测变量,而ANN使用相同的变量集但还利用了更复杂的非线性交互。我们的重点是比较这些模型在预测未来收益方向方面的表现。

  3. 3. 评估标准
    我们主要比较了不同模型在预测收益变化方向上的准确性,并进行了统计显著性测试。我们的分析还考虑了模型在不同情况下的表现,如公司是否出现亏损和收益波动等。我们发现,GPT在这些复杂情况下表现尤为出色。


主要结果

  • • 与分析师比较
    我们发现,GPT-4在预测收益变化方向上的准确率为60.35%,比分析师预测的53%高出显著7个百分点。这一差异在统计上显著,达到了1%的显著性水平。具体来说,分析师的预测准确性在不同时间段有所不同,而GPT的预测表现则相对稳定。

  • • 与ML模型比较
    GPT-4的预测准确性与最先进的ML模型相当,甚至在某些情况下表现更好。特别是,当公司出现亏损或收益波动较大时,GPT-4的表现尤为出色。此外,我们发现,GPT与人工神经网络(ANN)的预测具有互补性,两者结合使用可以提高整体预测准确性。

  • • 交易表现
    基于GPT预测的交易策略显示出更高的夏普比率和阿尔法,说明其潜在的投资价值。我们比较了基于不同模型的投资组合的累计收益,发现GPT的预测显著提高了投资组合的收益表现。基于GPT预测的等权重投资组合的夏普比率达到了2.84,而价值权重投资组合的夏普比率则为0.95。


结论

我们的研究表明,LLM不仅可以在财务报表分析中表现优异,还可以为投资决策提供有价值的见解。尽管LLM目前的能力已经令人印象深刻,但其未来的发展和应用潜力仍然巨大。特别是,LLM在处理复杂和不确定性高的数据模式时表现出色,这使其在实际应用中具有重要的潜力。

然而,是否能显著提高人类在金融市场中的决策质量仍有待观察。我们将这个问题留待未来研究。最后,尽管我们努力了解模型预测的来源,但要实验证明模型表现良好的确切原因仍然很难。


参考文献

  • • Abarbanell, J.S., Bernard, V.L., 1992. Tests of analysts’ overreaction/underreaction to earnings information. Accounting, Organizations and Society 12, 1–29.

  • • Bradshaw, M.T., 2011. Analysts’ forecasts: what do we know after decades of work? Working Paper.

  • • Bradshaw, M.T., Drake, M.S., Myers, J.N., Myers, L.A., 2012. A re-examination of analysts’ superiority over time-series forecasts of annual earnings. Review of Accounting Studies 17, 944–968.

  • • Fama, E.F., French, K.R., 2015. A five-factor asset pricing model. Journal of Financial Economics 116, 1–22.

  • • Ge, W., McVay, S., 2005. The disclosure of material weaknesses in internal control after the sarbanes-oxley act. Accounting Horizons 19, 137–158.

  • • Lopez-Lira, A., Tang, Y., 2023. Can chatgpt forecast stock price movements? return predictability and large language models. arXiv preprint arXiv:2304.07619.

本文总结自芝加哥大学布斯商学院的WORKING PAPER,希望大家喜欢我们的分享,如果你有任何问题或想法,欢迎在下方留言,我们会及时回复哦~


公众号:LLMQuant



LLMQuant
起源于剑桥大学的量化社区,每日分享人工智能与量化金融前沿: www.llmquant.com