引言
当前用于测量情感的最新技术是使用“词袋”方法,计算专门针对金融和会计行话的词典中的单词数量,比较有名的是由Loughran和McDonald(2011)(LM词典)开发的词典。但是,该方法被批评为与更复杂的机器学习技术相比可能具有低功效(Gentzkow等人,2019)。本文通过利用计算机科学中自然语言处理(NLP)文献的技术,较明确地比较它们的构成和相对于LM词典的预测能力。
实际上,我们提出了这样一个问题:是否可以构建一个由股价反应作为“监督者”的词典来与人类对积极和消极词汇进行编码竞争。我们验证了这两个词典,测量它们在盈利公告周围预测股票回报的能力。机器学习(ML)算法在样本外测试中表现明显优于基于LM词典的方法。我们对文献的主要贡献在于展示了ML算法如何实现这种改进,提供了在金融和会计披露中测量软信息的新工具。
本文重点关注与公司盈利公告相关的会议通话转录(“盈利电话”),这可以说是公司日历中最重要的定期安排事件。Frankel等人(1999)认为,与其他定期安排事件(如年度10-K报告的提交)相比,这些实时通话包含了更多的新信息。
我们使用Taddy(2013)的多项式逆回归模型(MNIR),计算机科学文献中的一种标准机器学习技术,来构建我们的新词典。该算法的主要输出是一组特征n-gram的加载,用于描述它们的情感(积极和消极)。我们的积极/消极n-gram词典,我们称之为ML词典,包括那些与MNIR模型中的积极/消极加载相关的n-gram。虽然我们关注Taddy(2013)中的MNIR算法,但文献中其他机器学习算法背后的足够减少思想可能会产生类似(或更好)的结果。
我们的目标之一是基于股价对盈利电话的反应,开发一套可以测量与业务有关的英语一般话语中情感的新词典。我们将MNIR估计的输出,通过要求在样本(时间/行业)之间足够稳定来减少其维度。我们的最终校准产生了一组几百个单字和二字词组,我们认为这是我们研究议程的主要输出之一。这些“纯粹的金融英语”词典在我们的论文中的盈利电话样本、10-K报告和《华尔街日报》文章上表现出色。
在使用单字词典时,ML算法发现了具有预测能力的新词汇,还允许我们细化LM词典的词汇列表。例如,我们发现词汇“issue(s)”非常负面,而“momentum”非常正面(LM词典中都没有包含)。ML算法不认为“against”是一个负面词,或者“confident”是一个积极词(这两个都包括在LM词典中)。我们强调我们制作的新词汇集很小(少于100个词汇),而ML算法排除了大多数LM词汇。
Loughran和McDonald(2020)捍卫了由个别研究人员选择词汇开发的词典,而不是基于算法的词典,“人类与机器”。他们写道:“研究人员对定义词汇表存在犹豫,因为这涉及主观性。为了使这一方法有效,过程必须是透明的,生成的词汇表应该相对详尽。”我们分享了我们研究项目的数据、词典和代码,以便读者可以重现我们的算法选择的每个单词。而ML词汇相对于LM词汇要显著得多。
金融领域的文本分析文献始于研究新闻媒体(Tetlock,2007),主要是因为当时数据可用性和计算约束。对年度报表的兴趣也很大,从分析情感(Loughran和McDonald,2011)到行业(Hoberg和Phillips,2016)和地理分类(García和Norli,2012)。在过去的十年中,出现了各种其他文本来源,从FOMC会议记录(Hansen等人,2018)到互联网论坛(Antweiler和Frank,2004;Das和Chen,2007)和彭博新闻(Fedyk,2020)等。我们专注于盈利电话的转录(Matsumoto等人,2011;Larcker和Zakolyukina,2012;Bochkay等人,2019;Fedyk,2021),主要是因为它们提供了高信号噪声比,这对机器学习应用至关重要。
本文通过应用于盈利电话的机器学习技术来测量情感,创建了新的单字和双字词典。Tetlock(2007)使用的哈佛-IV词典长时间以来在社会科学领域是标准。Loughran和McDonald(2011)为会计和金融文档优化了这些词典,使用了年度报表(10-K报告)。Muslu等人(2015)研究了10-K报告中的前瞻性陈述,Cookson和Niessner(2020)创建了描述投资风格的词汇列表,Baker等人(2016)进行了类似的尝试,试图衡量政治不确定性,许多LDA论文也使用某种类型的词典来为主题提供内容。
我们的研究遵循Kogan等人(2009)和Manela和Moreira(2017)提倡的监督方法,但我们研究的是第一时刻(情感),而不是波动性。Jegadeesh和Wu(2013)的分析在精神上类似,选择使用股价反应来挑选词汇,但重点是Loughran和McDonald(2011)的词典,而不是允许数据从更大的集合中挑选n-gram。Ke等人(2019)在道琼斯新闻线和《华尔街日报》的语料库中使用机器学习技术,重点是预测未来回报。Cong等人(2020)在华尔街日报头版使用词嵌入来预测低频宏观经济变量。Meursault等人(2021)使用机器学习技术研究盈利电话,重点是盈利公告后的漂移。与此不同的是,我们的主要贡献在于利用同时的价格反应生成一套新的情感词典,揭示了通常与ML技术相关联的“黑匣子”(Loughran和McDonald,2020)。
情感的测量
数据
我们研究了三种不同类型的文本语料库:盈利电话,10-K报告和《华尔街日报》文章。我们注意到这三个语料库显然相关:10-K报告通常在盈利电话后不久发布,而《华尔街日报》文章经常与这些公开披露有关。与此同时,它们在文本类型上有很大的不同:无论是在内容上(盈利电话的情况下,是有问答环节的口头语言;10-K的情况下,是含有大量法律术语的书面语言;《华尔街日报》的情况下是记者式的写作),还是在大小上(盈利电话有几千字,每篇《华尔街日报》文章有几百字,而年度报告非常庞大)。下表展示了我们研究的语料库概况。
季度盈利电话数据集是通过合并两个数据集构建的。第一个数据源是从2005年到2020年之间由Seeking Alpha收集的盈利电话转录稿;第二个数据源是由华尔街Horizons提供的盈利电话转录,涵盖了2009年到2020年。这两个数据集在重叠的2009年至2020年期间的交集与它们在同一时期的并集几乎相同,具有相同的字数:我们使用这两个数据集只是为了获得更长的时间序列。
年度报告数据集包含了在1996年至2018年期间提交的所有10-K报告,这些报告与CRSP数据库相匹配。我们遵循Loughran和McDonald(2011)中的样本选择,考虑了在NYSE、Amex或NASDAQ上市的股票。我们排除了在电话会议前一天的股价低于3美元的公司,并要求公司在提交日期之前和之后的一年中至少有60天的交易。我们排除了字数少于2000字的备案。最后,我们只包括每年每家公司一个10-K备案,两个备案之间有180天。最终样本包括总共76,922个观察值。
我们使用Factiva收集《华尔街日报》(WSJ)文章,遵循Goldman等(2022)的安排。我们手动下载所有在Factiva中标记为与特定公司相关的文章,从Ravenpack数据库排名频率最高的公司列表开始,时间跨度为2000年至2021年。我们将分析限制在提及至多七个实体的文章,并且要求最少有二十个字。由于我们在分析中使用每日股票回报数据,我们将同一公司在同一天的所有新闻合并,然后构建这个聚合文本的情感分数。我们的最终数据集有87,198个独特的观测值。
我们的论文将重点关注来自盈利电话的语料库,即公司管理层与分析师/投资者之间的通话的转录,以构建新的ML词典。我们之所以专注于这个语料库的主要原因是,与大多数其他公司事件相比,盈利电话的信噪比显著更高,即相对于实际10-K报告的发布(Loughran和McDonald,2011),这些报告通常是在盈利电话后不久提交的。我们的方法实质依赖于使用股价反应来标记n-gram词组为正面或负面:机器学习算法在训练时受到市场反应的监督。在我们的实证分析中,具有强烈信噪比因素是至关重要的。为了支持我们选择盈利电话的理由,我们遵循Griffin(2003)的方法,计算围绕三个不同事件的每一天的绝对超额回报,其标准化值为其均值和标准差(在盈利电话日期的前-60至-2天期间计算)。
稳健多项式逆回归
在本部分,我们将描述我们的主要文本分析工具多项式逆回归(MNIR)模型,以及我们用来避免过度拟合的扩展,我们称之为“稳健MNIR”。MNIR模型具有贝叶斯风味,属于接近主题模型(如LDA)的一类算法。MNIR使用给定情感的文本条件分布来获取用于总结与股票回报反应相关信息的低维分数,这实际上是许多这些算法的核心。
我们感兴趣的逆回归是股票回报对词数的逆回归,它在具有一组先验的贝叶斯框架中生成了关于标记(n-gram)对股价的影响的后验集。MNIR模型不需要离散化我们的结果变量股票回报,因为它允许变量是连续的。为了实现目的,我们在MNIR中寻求的主要输出是该算法生成的每个p个n-gram上的负载。在我们的基本回归中,这些负载在正/中/负中大致均匀分布。因此,MNIR算法允许我们将n-gram分类为两个字典:一个由具有正负载的n-gram组成,另一个由具有负负载的n-gram组成。
选择MNIR算法而不是文献中的其他算法的原因是其性能。与其他算法相较而言,MNIR对参数规格变化非常稳健,也提供了更高质量的预测,并且运行时间更短。
创建情感分数
金融文献中测量情感的标准方法是从“词袋”开始,即一组由研究人员标记为积极/消极的标记集合。一旦确定了词袋或字典,可以使用词典成员的词频之和(经文档大小归一化)或一些考虑了术语在整个语料库中出现频率的变化(如使用tf-idf分数)来分配情感分数。我们将在整篇文章中使用词频权重进行主要分析。
积极/消极字典是给定dtm中p个n-gram的子集,即词汇表V的子集。我们可以将其表示为与所考虑的dtm具有相同行维度的矩阵,其中每一列都与字典中包含的每个术语相关。我们将为给定文档 j 和包含m个单词(积极/消极)的字典定义情感,如下所示:
在单词的情况下,我们的方法模仿标准的词袋方法,从潜在标记集合开始,我们为每个标记分配积极/中性/消极的情感分数。因此,我们可以直接将我们的字典与文献中的字典进行比较。但是,我们的方法范围更广,因为允许使用二元词,我们可以捕捉英语语言的更微妙方面。需要注意的是,在计算LM(标准词汇匹配)分数时,对语料库没有施加词频限制,仅在训练机器学习算法时才会使用上述描述的文档-术语矩阵(dtm)。
这种情感分数的构建可以使用n-gram组合字典,而不仅仅是单词,但前提是我们有合适的n-gram空间中的dtm,以及一个可以标记不同n-gram的方法。MNIR算法的输出允许我们创建这样一种分类:在估计MNIR模型的足够减少统计量的积极/消极负载中出现的n-gram。
总之,我们使用标准LM方法为语料库的每个文档计算情感分数,同时也使用ML字典进行计算。由于后者可以使用一元词或二元词进行构建,因此我们将拥有机器学习算法开发的不同字典集。在处理一元词时,我们将区分包含在LM和ML列表中的术语,并将独立于LM和ML列表的术语单独添加。这允许我们确定每个字典在预测股价变动方面的边际贡献。特别是,我们将研究ML算法与人工分类(LM)一致的术语的影响,以及新术语的边际贡献。
为词汇着色
在本节中,我们深入探讨了驱动我们预测性改进的因素。
词典广度
上图绘制了由2k个术语的dtm覆盖的语料库的百分比,其中k = 9,...,26。红十字表示单词表现:我们发现,只要有4-8K的单词表,我们几乎就阅读了整个盈利电话语料库。这与双词组覆盖(蓝色圆圈)形成对比:即使有10K个标记,dtm仅覆盖了大约28%的语料库。对于三元组(绿色菱形),使用10K个标记的覆盖率低于语料库的10%,必须使用超过500K个标记的dtm才能覆盖超过25%的语料库。
在盈利电话方面,似乎双词组已经很好地总结了文档,而不需要再使用三元词组。与此同时,完整的双词组表示的大小明显大于单词表,几乎大约是100的倍数,尽管我们进行了所有的清理/标记删除。唯一双词组的数量(每个电话)尽管在整个语料库中有更多的唯一三元组(78m)而不是唯一双词组(15m),但是在盈利电话级别,唯一三元组的数量与唯一双词组非常相似。
以上讨论揭示了算法构建模块的一些重要方面。但这并没有涉及最终的词典宽度,它们是稳健MNIR算法的结果。我们将单词分组为仅限LM、仅限ML和联合LM/ML。在上表中,我们报告了每个词典中n-gram的总数,以及一个给定词典覆盖的语料库的百分比。证据表明,ML词汇不仅是强有力的信号,而且比LM词典要常见得多,尽管单词表的大小要小得多。即使双词组列表的大小也相当小,每个方面的积极和消极词汇约为350个标记,生成的信号数量与盈利电话语料库中的LM词汇表差不多。
比较LM和ML词典
我们的下一个任务是更仔细地研究来自机器学习算法的积极和消极标签的实际选择,以及它们与LM词典的比较。
在上表中,我们列出了LM词典中按频率排名的前30个积极和消极词,以及它们相关的稳健MNIR分数。我们注意到这60个LM词覆盖了盈利电话语料库中所有LM词的总词频的65%以上。表中列出了考虑中的标记,它在整个语料库中的覆盖范围(Cov.,以基点为单位测量),以及在500个交叉验证样本中将该单词标记为积极(消极)的百分比。
ML算法广泛地与LM分类相符。表中列出的30个积极的LM单词中,有12个也被稳健MNIR方法分类为积极:按频率排名前三的LM单词是一个典型示例(好,强,更好)。有趣的是,与“改进”的动词有关的大多数单词都被LM和ML算法都分类为积极,除了“improve”这个动词本身:根据稳健MNIR算法,“improvement”,“improved”,“improving”和“improvements”都被分类为积极,但在34%的交叉验证样本中,“improve”是负面的(只在11%的样本中被分类为积极)。还有一些其他LM单词具有相对较高的ML分数(如“机会”,“进展”),但还有许多其他单词根本不那么积极(如“最好”,“尽管”),而“confident”一词实际上包含在ML消极词典中。ML和LM词典对积极词的分类方式有很大不同。
在负面词汇中,诸如“decline(d)”,“loss”或“challenges(ing)”的词汇具有类似的LM和ML一致性。由于外部有效性,即“问题”在盈利电话中是一个非常特殊的词汇,因此存在一些分歧。但也有很多不同之处:ML算法将“break”评为积极,而“restructuring”则是一个不确定因素(31%的积极分数和30%的消极分数)。其他词汇,如“recall”,“against”和“volatility”,根据ML分数来看,都不是特别消极的。我们的方法捕捉到了标准词袋方法无法测量的金融文本色彩。
类似的情感,我们看到“increase(d)”被ML算法标记为积极,而“decrease”被视为消极。尽管这些似乎是自然的选择,但从后来看,两者都没有包括在LM词典中。语境再次非常重要:动词“increase”的使用与积极变化相关,而动词“decrease”难以与任何积极事件联系起来。
消除歧义
本节的目标是研究双词组在构建情感度量方面的作用,超越了标准的“词袋”方法,该方法侧重于单词,同时突出了ML算法选择单词的原因。我们认为,使用双词组的特点有助于理解单个单词的情感,双词组在消除单词的含义上非常有用。
我们开始分析,通过图形方式呈现ML分析的主要输出:给定单词被认为积极/消极/中性的百分比。上图绘制了这三个坐标,针对按频率排名前4096个单词,我们在三元图中将积极(消极)的LM词汇标记为蓝色(红色),其余标记为黑色。在不需要消除歧义的假设下,我们期望所有点都集中在三个角落:要么一个词是中性的,积极的,或者消极的。ML算法强烈拒绝了这个零假设:大部分点都集中在三角形的上部中心,对应于大多数情况下是中性的单词,还有一些积极和消极的背景。有一些术语在所有样本中具有一些零积极(消极)分数,绘制在三角形的边上,但我们看到ML算法在大多数情况下将这些术语分类为中性。值得注意的是,这些模式广泛适用于LM词典词汇:平均而言,蓝色(红色)单词位于三元图的正面(负面)一侧,但大部分集中在顶部的中性空间。有一些术语似乎相当明确,它们位于三元图中的阴影区域,在这些区域中,D+和D-分数高于我们的80%阈值。这些是ML算法选择的术语,舍弃了其他大多数是中性的单词。需要注意的是,虽然在图3的阴影区域中有少数LM词汇,但大多数这些单词在文献中是新的,这是我们论文的一个贡献之一。
如前所述,LM中的积极词“improve”在ML分析中表现不是很积极。我们看到,双词组“continue(s) improve”和“able improve”的ML积极分数相对较高。另一方面,许多双词组被稳健MNIR估计标记为消极:例如“improve performance/over/second”和“going/conditions improve”。存在这样的句子,其中“improve”没有用积极的涵义使用,使得单词不适合作为情感指标。使用双词组,我们只选择那些确实使用“improve”时带有积极意义的情况。
我们通过基于盈利电话进行训练的ML算法,引入了一些上下文特定性(即现金流),总体上是积极的,因为我们试图衡量“金融话语”,但显然不是理想的:尽管首席财务官仅在业绩电话中当情况良好时才会使用现金流,但记者可能会选择在不同的情境中使用它。我们已经校准了我们的经验演练,以避免过拟合,但不可避免地会有一些词汇不会引起人类的共鸣。另一方面,放宽我们严格的包含标准将添加许多潜在的好信号,但会包括其他(嘈杂的)词汇。
否定词的情况
词汇“not”值得进一步讨论,因为它是英语中的标准否定词,它在我们的语料库中非常常见,并且由于其D-分数为97%,稳健的MNIR算法将其包括在ML负面词汇列表中,具有极其负面的情感分数。文献中的传统观点是,由于这种否定,积极词语的影响较小。
上表重点关注以“not”开头的双词组。首先关注右面板,我们看到有四个以“not”为前缀的单词,是ML的负面双词组,具有较大的D-分数(not able/happy/satisfied/pleased)。与此同时,有两个LM负面词,当是否定时,ML算法仍然将其视为负面(not lost/losing)。此外,表中有几个以“not”为前缀的ML负面单词(changed, believe, expected, issue, related, offset),它们的ML分数仍然非常负面。转向左面板,我们看到类似的混合。只有一个LM负面词汇表现为积极的双词组,即“not break”。有五个积极词汇,是否定后仍然被ML算法视为积极。更重要的是,左面板中双词组的频率计数明显小于右面板中的频率计数。此外,请注意D-分数相对于D+分数相当大。总体而言,“not”双词组通常都是负面的。
的确,否定积极词汇会生成负面的双词组,但同样的,否定消极词汇也会生成负面的双词组。换句话说,在英语中使用否定词携带强烈的负面情感,不管是否定什么。至少根据股价,使用我们的ML算法,这是关于金融背景中否定的情感的建议。
结论
我们基于Taddy(2013)的机器学习算法的变种构建了词典,过程中使用了大量的财报电话会议转录文本。我们发现,我们的算法选择的标记要比基于词袋模型的现有技术表现出色。此外,我们认为机器学习方法可以帮助我们完善现有的词汇表,突出哪些词更具影响力,还可以找到人工编码可能遗漏的新词。我们的实证结果展示了如何通过消除歧义来为金融文本上色。
我们注意到,我们的实证方法不能区分贴现率(风险)和现金流的冲击:我们的机器学习方法混淆了这两种冲击,因为它只是在回报上进行训练。从Hassan等人(2019, 2021)的风险词汇词典中添加风险词汇并没有改变我们的任何发现,这表明现金流的消息是驱动机器学习算法选择的原因。进一步解开这两种不同消息来源的疑惑似乎是未来研究的一个有趣方向。
虽然这一争论远未结束,但我们的证据更明确地支持了机器学习算法,而不像Loughran和McDonald(2020)所建议的那样。我们的分析支持了新的机器学习词典的外部效度,但只有未来的实证研究才能解决如何衡量我们这门沉闷科学叙述的情感的争论。
以下为部分报告截图
来源: 人大金融科技研究所