TOP刊: 文本分析技术及在经济学和商学中的应用, 一个指南和综述

学术 2024-11-02 12:15 美国

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

这篇TOP刊上的文章对文本分析的技术以及在商学研究中的应用做了一个综述，对于将文本分析方法应用于经济学研究也有借鉴意义。

关于文本分析，参看1.TOP前沿: 文本分析方法必读实用指南! 基于文本即数据的机器学习！2.基于文本大数据分析的会计和金融研究综述, 附24篇相关讲解文章！3.Top金融,经济与会计期刊中的文本分析, 一项长达2万字的综述性调查，4.文本分析方法在政策评估研究中的应用, 从描述性推论向因果推断的最新发展，5.文本分析的步骤, 工具, 途径和可视化如何做？6.文本大数据分析在经济学和金融学中的应用, 最全文献综述，7.不想被淘汰, 必须看这份“另类数据,机器学习和文本分析”的前沿文献菜单，8.GPT在文本分析中的应用, 一个基于Stata 的集成命令用法介绍，9.前沿: 川普语录! 研究川普还得俄罗斯人! 无疑将是文本分析的典范！10.不想被淘汰, 必须看这份“另类数据,机器学习和文本分析”的前沿文献菜单

《文本分析技术及在经济学和商学中的应用》

关于下方文字内容，作者：张继轩，兰州大学管理学院

Bochkay, K., Brown, S.V., Leone, A.J. and Tucker, J.W. (2023), Textual Analysis in Accounting: What's Next?. Contemp Account Res, 40: 765-805.
Natural language is a key form of business communication. Textual analysis is the application of natural language processing (NLP) to textual data for automated information extraction or measurement. We survey publications in top accounting journals and describe the trend and current state of textual analysis in accounting. We organize available NLP methods in a unified framework. Accounting researchers have often used textual analysis to measure disclosure sentiment, readability, and disclosure quantity; to compare disclosures to determine similarities or differences; to identify forward-looking information; and to detect themes. For each of these tasks, we explain the conventional approach and newer approaches, which are based on machine learning, especially deep learning. We discuss how to establish the construct validity of text-based measures and the typical decisions researchers face in implementing NLP models. Finally, we discuss opportunities for future research. We conclude that (i) textual analysis has grown as an important research method and (ii) accounting researchers should increase their knowledge and use of machine learning, especially deep learning, for textual analysis.

文本分析技术及在经济学和商学中的应用

一、概论

叙述(narrative)是“理解人类行为的动机和经济影响”的重要抓手(Shiller 2017)，而文本是叙述的主要呈现形式，因此分析大量文本是开展经济与管理研究的重要渠道。传统的分析文本方式是人工整合分析，而自然语言处理(natural language processing, NLP)的出现使得分析文本更加简便、迅速、高效。本论文所讨论的文本分析(textual analysis)就是将自然语言处理技术(下文简写为NLP)应用于文本数据。

近二十年来，文本分析在社科研究中越来越频繁地出现。在会计研究中，文本分析扮演着各种角色：52.7%直接从文档中构建变量，并将该变量用作假设检验的因变量或解释变量；29.9%的文本分析提取目标文本信息(例如通过关键字搜索或正则表达式)，并从提取的数据中构建变量以供后续分析；5.8%的人基于文本分析构建控制变量；2.4%的文献生成了基于文本的变量作为感兴趣结果的预测变量；9.2%用于其他目的。可以看出，文本分析正在研究中扮演越来越重要的角色，有必要学习文本分析的技术及其应用，用好这一强大工具。

在[第二章])中，文章将目前为止常用的NLP方法放在一套框架下叙述，从三个方面进行归集：

(1) 文本表示(Text representation): 文本数据如何作为NLP模型的输入？([2.2节])

a) 词袋法(bag-of-words, BOW)，将文本文档表示为字数的向量；

b) 词嵌入(word embedding)，将词语或短语从词汇表映射到向量的实数空间中，这样词义的语义信息就能以数值的形式表达出来，降低文本维度。

(2) 用什么模型？([2.1节])

a) 基于规则的转换

i. 简单转换

ii. 文本比较

b) 传统机器学习(machine learning)

c) 深度学习(deep learning)

(3) 要什么输出？

根据研究具体而定。

[第三章])详细介绍NLP在会计中的应用，包括常见的披露情绪、可读性、文件相似性、前瞻性信息和主题探索，并对其NLP实现和深度学习等新方法实现做了介绍。

鉴于文本分析通常用于构建假设检验，有必要考察文本分析的效度如何。这将在[第四章])进行介绍。

[第五章]为研究人员在实施NLP方法时面临的常见操作提供指引，例如数据采集、预处理、模型选择、监督机器学习等，并推荐了研究中可用的资源(例如，库、代码和文本度量)

[第六章])介绍了未来研究的两个方向，包括监督深度学习以及主题建模。

这篇文章有三方面的贡献：(1)强调文本分析作为一种重要的研究方法的存在；(2)在会计专业博士生的培养中注意引入文本分析的培训；(3)对可用的NLP方法及其应用进行了更系统、更完整的新近介绍。

二、NLP方法：概述

表 1 文本分析方法、所应用的场景和文献举例

2.1 NLP模型

NLP模型分为两大类：基于规则的转换和基于数据的转换。

基于规则的转换包括简单转换和文本比较。顾名思义，是使用手动制定的规则(例如词典)将输入转换为输出。一旦制定了规则，转换就很简单了；但这也导致工作量和矛盾也主要集中在转换规则的制定上(耗时费力，复杂情况不适应，等等)。

基于数据的转换是让计算机在训练数据(training data)中不受人工干预地学习，这被称为机器学习(machine learning)。在机器学习中，研究人员可以控制模型的特征(单个可测量的属性或特征)，并且必须仔细调整超参数(hyperparameters, 控制模型的学习过程的参数)。许多模型已经适配了NLP，一些模型还是为NLP而开发的。

机器学习可以分为监督学习(supervised learning)和无监督学习(unsupervised learning)。在监督学习中，训练数据中的输出变量已经被标注或标记，以便机器学习输入和输出之间的关系；在无监督学习中，输出变量没有标记，机器无法根据标记区分出输出数据，机器的工作是发现潜在的输出(例如，语义聚类)。

本文将传统的机器学习模型和深度学习模型分开，前者在计算机科学领域已经发展了几十年，并在其他学科中得到了应用，后者是最近才发展和应用的。

2.1.1 简单转换

这是最简单的一种转换。常见的例子有

(1) 关键字搜索

(2) 对包含某些关键词的词、句、段的计数

(3) 识别复杂单词、长句子或其他写作元素(例如可读性)

(4) 对某些类型的词进行分类(例如否定词的计数)

然而，由于转换过于简单，因此输出的解释工作复杂，导致对输出的解释依赖于直觉、心理等。输出结果可以有多种多样的解释，例如，文档长度可以代表披露数量，也可以代表混淆程度；有许多特殊情况也会导致简单转换的输出与解释有偏，例如，每个单词更多的音节可能会降低易读性，但财务报表中的“company” “industry”等单词的音节大于平均音节而具有高度易读性。

2.1.2 文本比较

一些模型，例如文本比较，超越了简单转换，但尚未使用机器学习等方法。

例如，使用向量空间模型(VSM)的余弦相似度模型用n维向量表示每个文档，并使用两个向量之间的夹角来度量两个文档的相似度。该方法最初是为信息检索而设计的，但也可以用于其他目的，如量化披露随时间变化的程度。

如果向量表示的特征不是简单的单词计数，比如主题混合，余弦相似度仍然可以计算和解释。

2.1.3 传统机器学习

在传统机器学习中，文章讨论如下四个主题：

(1) 朴素贝叶斯方法(naïve Bayes, NB)

这是一种基于贝叶斯定理的概率式的监督学习算法，该算法用于分类。

分类单位可以是句子、段落或整个文档；每个单元被简化为包含每个单词频率的单词列表。该算法估计最能产生真实分类的权重，然后用这个权重去对其他数据进行分类。

这一方法十分流行，但它的实际表现可能受限，这是因这一方法假设用于预测分类的特征是相互独立的。

(2) K-近邻(K-nearest neighbors, KNN)

这也是一种监督学习算法，用于产生分类或产生连续型的输出。

K是研究人员在研究中所考虑的与某个数据点近邻的数据点的个数，由研究人员指定；“近邻”指的是两个数据点之间的“距离”尽可能近。这种方法没有从训练数据中学习判别函数。

K值的选择对KNN算法的性能有很大影响。较小的K值可能导致模型对训练数据过度拟合，而较大的K值可能导致模型欠拟合。

(3) 文本回归和决策树(text regressions and decision trees)

文本回归是在能解决文本数据高维性的一种回归技术。文本的高维性会形成许多待处理特征(因素)，而当因素的数量超过样本数量时，常用的回归方法就无法使用(比如用OLS无法回归)，而且会产生过拟合问题，导致模型在预测其他数据时表现不如预测原先的样本数据(Varian 2014)。一种解决方案是正则化(regularization)，即在损失函数中添加惩罚项以减小某些参数(称为权重(weight)或系数(coefficient))的大小。

a) 常用的惩罚线性回归是ridge和lasso，后者是后来发展起来的，且现在比前者更受欢迎(Hindman 2015)。

b) 非线性回归有两种类型。

i. 分类和回归树(classification and regression trees, CART)

这一模型根据可用的最佳预测特征将数据划分为两组，并根据剩余的最佳预测特征进一步划分每组，直到剩余的特征都不能进一步改善预测为止。大多数的树模型是路径依赖的，可能受到极端观测值的影响，可能会过拟合。

最新和最流行的模型是随机森林(random forest, RF)，它通过对样本和特征的交叉随机抽样来克服上面的弱点(Hindman 2015)。

ii. 支持向量机(support vector machine, SVM)

这一模型将训练数据作为高维空间中的数据点，并在高维空间中找到一个超平面分类。支持向量机在某种意义上是半参数的，一方面估计参数，但另一方面又允许一系列结构可能性(Cui and Curry 2005)。SVM的一种变体是支持向量回归(support vector regression, SVR)，其具有处理高维输入的正则化机制，在输出变量连续时可以使用。

(4) 主题建模(topic modeling)

“主题”是文本数据的一个潜在属性(输出)，它依赖于词的共现趋势。在技术层面上，主题发现是搜索相关词的聚类，并将输入数据的维数降低到这些聚类上(Schwartz and Ungar 2015)。最流行的模型是潜在狄利克雷分配(latent Dirichlet allocation, LDA)。由于LDA是一个概率模型，必须预先指定主题的数量等，因此一个研究人员生成和解释的主题可能与另一个研究人员生成和解释的主题不完全相同。这一技术也可以在检查两个文档的主题相似性等不需要明确主题的情况下使用。

2.1.4 深度学习

传统的机器学习方法在大多数时候可以提供解决方案，但是当问题的复杂性上升时，传统机器学习可能无法提供令人满意的结果，这主要有三方面原因：(1) 传统机器学习可以学习非线性关系，但很困难甚至不可能；(2)传统机器学习需要研究人员手动标注来作为模型输入；(3)研究人员往往从零开始训练传统机器学习模型，这需要大量的数据。

深度学习可以克服上面的困难。在概念层面上，深度学习是一种特殊的机器学习，其把世界建构成一个概念体系，每个概念都以更简单/不那么抽象的概念加以定义，这样可以实现更好的效果，具有更好的灵活性(Goodfellow et al. 2016, 8)。在技术层面上，深度学习通过人工神经网络(artificial neural network, ANN)来模仿人类的大脑。深度学习有更多隐藏层(三个甚至更多)和更少的各层节点，层数越大的层处理的复杂性更大。

下面，文章详细讨论ANN和深度学习的发展。

ANN的基本形式至少在1980年就存在，当时被用于图像的模式识别(Fukushima 1980)。ANN至少有三层神经元：输入层，一个或多个隐藏层和一个输出层。输入层表示模型的输入数据，输出层产生一系列连续变量(比如句子的情感赋值)，这些连续变量可以进一步被映射为相互独立的分类。深度学习模型会学习如何通过在选定的激活函数(activation function)和损失函数(loss function)的基础上调整每一层的权重和偏差(类似于传统回归中的斜率和截距)在输入和输出之间构建映射。研究人员要根据研究情境、任务复杂度和模型表现来选择隐藏层和每层上节点的数量，对于每一层的其他设定也可以做选择。

图 1 ANN图解

早期，ANN被集中应用于图像处理。一个电子图像就是二位的像素矩阵；像素相对于相邻的像素才有意义。图像的这种特征使得卷积神经网络(convolutional neural network, CNN)被开发出来。到2000年代中期，在训练技术逐步改进以及形成多个隐藏层的基础上，术语“深度学习”被首次使用(Goodfellow et al. 2016, 18)。后来发现CNN可以很好地处理自然语言(LeCun et al. 2015)，但CNN在语言顺序性上有限制，因为图像是二维的，而语言叙述的顺序在技术上往往是一维的，而且在一维上更大范围的上下文可能更有助于理解。

递归神经网络(recurrent neural networks, RNN)在ANN中添加时间感知循环，能够更好地理解语言依赖性和上下文，适用于翻译、词嵌入和句子分类(Aggarwal 2018)。由于其循环特性，RNN往往具有良好的短期“记忆”，即根据周围的词语进行分析，但随着上下文的距离越来越远，长期记忆就会变差。长短期记忆(long short-term memory, LSTM)是对RNN循环机制的改进，允许提高对额外上下文的认识(Hochreiter and Schmidhuber 1997)，提高模型的“注意力”(“attention”)。后来，一个开创性研究(Vaswani et al. 2017)删除了RNN中的循环机制，并表明“注意力机制”足以让模型表现优良。这种基于注意力机制的模型被称为转换器模型(transformer)，近年来主导了NLP的发展。谷歌的BERT模型就是一例，现在被广泛适用。

与传统机器学习相比，深度学习有三方面的优势：(1)可以学习复杂关系；(2)训练过程可以自动化；(3)可以迁移学习，可以使用预先训练过的模型，微调也只需要相对少量的数据。

2.2 文本表示

有两种方法可以将文本表示为NLP的输入。BOW通常用于简单的转换、文本比较和传统的机器学习模型，而词嵌入通常用于深度学习模型。

2.2.1 词袋法(Bag-of-Words, BOW)

在这种方法下，文档由一个向量表示，向量的每个分量对应于语料库中的一个唯一特征词，1表示存在，0表示不存在，这种编码方式称为独热编码。

当研究人员对特定关键词感兴趣或需要比较两个文档的语言时，这种方法较为适用。这种方法的问题在于，简单机械编码方式可能会过度简化语言的丰富性，并且无法表示单词语义之间的关系。

2.2.2 词嵌入(Word Embedding)

这种将每个词映射到一个特征向量(feature vector, 不是线性代数中的eigenvector)，该特征向量由抽象特征的权重组成，具有相似含义的单词具有相似的向量表示。

单词嵌入方法有三个好处：(1)它相比之下更能反映单词之间的语义关系；(2)它将输入的维度从数千个相互独立的单词减少到数百个特征，从而提高了机器学习的效率；(3)它使特征向量的线性运算变得有意义(例如，对于[“国王”-“男人”+“女人”]的向量操作将产生一个接近于“女王”的特征向量)。

目前已有三代词嵌入模型。第一代由Bengio et al. (2001)提出，使用基于统计相关性而非上下文的概率方法提出了词嵌入的想法。第二代词嵌入技术使用浅神经网络(少于三个隐藏层的人工神经网络)和无监督学习来发现训练数据中的词关系，例如谷歌开发的Word2Vec和斯坦福大学开发的GloVe。虽然这两者仍然被广泛使用，但它们不能反映当前文档的上下文是一个明显的弱点。第三代词嵌入技术解决了这个缺点，这是深度学习语言模型提供的一种扩展类型的嵌入，如ELMo和BERT。

NLP的最新进展主要在深度学习中，这要求研究人员跟上这一领域的最新发展。

三、NLP在会计研究中的应用

在作者所调查的207份文献中：

l 37.2% 测量了披露情绪；

l 25.6% 衡量信息披露的可读性；

l 18.8% 将包含关键词的单词、句子或文章作为文本信息量的代表；

l 10.1% 比较信息披露的相似性或差异性；

l 6.8% 识别前瞻性信息；

l 2.4% 检测披露主题。

图 2 采用文本分析的文献：分析

3.1 情感分析 (Sentiment Analysis)

3.1.1 字典法 (Dictionary Method)

字典法是一种非常直接的方法，在会计研究中大量被使用(在本文所覆盖的所有会计研究论文中，97.4%使用了该方法)。字典是一个包含了词语和词语连接规则的列表。研究人员使用一个提前设定的字典对整个文件进行分析，将正向词汇出现的词频与负面词汇出现的词频之差和全文字数之比作为文章情感的度量。在这种度量方式中，研究者可以看出哪个词对于情感度量分数的贡献更多。

这种方法简单直接，但局限性也很大：

不考虑上下文，而词语在上下文中的含义可能会变化。

例如，“public good”一词中的“good”就不是“好”的意思。此外，在更长的上下文中，词语的意思可能会发生微妙的改变，这更不容易被注意到。

字典法潜在假设所有的情感词，不论正面还是负面，都是相同权重。

例如，“bad”和“terrible”在字典法中是同样的权重，但事实上，单就这两个单词看，“terrible”所表达的负面情绪自然比“bad”要强。Bochkay et al. (2020) 制作了一个兼具情感方向和情感程度的词库。

研究者必须决定否定词和程度词如何处理。例如“无法确认”“更糟糕”。
情感词库可能没办法很好适用于所有待研究的文本。

3.1.2 机器学习方法

与字典方法相比，机器学习可以解释语言的特殊性，如否定词、强化词和基于词性或上下文的不同含义。

在情感分析中应用机器学习方法，是使用标记的训练数据(例如，分类为积极、消极或中性的句子)来发现输入文本特征和输出情感标签之间的关系，然后使用训练过的模型来分析其他文本的情感。这是一种监督学习。Heitmann et al. (2020) 对216篇出版物进行了meta分析，发现传统机器学习进行情感分析的准确性远超字典法。深度学习方法进一步优于传统机器学习方法。不过，目前还只有少数会计研究使用传统的机器学习或深度学习模型进行情感分析，且直到最近才开始使用转换器。研究人员需要为监督学习而对数据进行标记，传统机器学习模型通常必须从头开始训练，而迁移学习允许使用相比于传统机器学习更少的训练数据来微调预训练的深度学习模型。

举例有几种类型的机器学习模型被用于情感分析。传统的机器学习模型包括NB (F. Li 2010b; Azimi and Agrawal 2021)、SVM (Howard and Ruder 2018)和RF (Frankel et al. 2021)。在深度学习模型中，CNN、LSTM和转换器(例如BERT)都可以执行包括情感分析在内的各种文本分类任务(Zhang et al. 2015; Wang et al. 2016; Colón-Ruiz and Segura-Bedmar 2020)。针对金融文本的转换器模型有FinBERT，在BERT的架构下使用金融文本训练模型。

3.2 可读性(Readability)

可读性是指读者在理解文本时所承受的认知负担。这受到许多因素的影响，包括词的复杂性、词的熟悉度、语法、思想之间的内在联系和读者的知识(Martinc et al. 2021)等。

3.2.1 传统方法

研究人员倾向于关注文本的词汇和句法特征，如复杂单词的数量、句子的长度或整个文档的长度，以简化可读性的测量。

会计研究中常用三种方法：

l 文本长度(F. Li 2008; Lawrence 2013)或文件大小(Loughran and McDonald 2014; Y. Li and Zhang 2015)

这是衡量可读性的最简单的方法，而且逻辑上也很直观——文本越长，负担越重，可读性越低。这种方法的问题在于，更长的文本可能有助于更好地解释，短文本可能反而让人无法理解复杂问题，而且文本长可能是由于信息量大所导致(比如说这篇文献阅读笔记很长，主要是因为信息量大)，这种方法难以将可读性与信息量分开。

l 迷雾指数(Gunning Fog Index, FOG; F. Li 2008; Guay et al. 2016)

这是基于每个句子的单词数和文本中复杂单词(即多音节单词)的百分比构建的。逻辑上也很直观——更长的句子和更复杂的单词会增加读者的认知负荷。问题在于：一是过于简单化(Crossley et al. 2017)；二是在特定领域中，一些复杂的单词并不一定会造成负担，例如财务报表中的“company” “industry”等单词的音节大于平均音节而具有高度易读性(这和2.1.1 简单转换是一样的问题)。

l 写作错误(例如被动语态、重复)的存在(Bonsall et al. 2017)。

Bonsall et al. (2017)提出了BOG指数，综合考虑了文档中的平均句子长度、单词复杂性(例如，重词、缩写和专业术语)、单词熟悉度和写作错误等。作者证明，BOG优于常用的衡量方法。然而，如果需要使用在研究中使用BOG，需要有商用的Microsoft Word插件。

3.2.2 机器学习方法

一些研究使用监督机器学习来解决传统方法的缺点。研究人员使用带有可读性分数标记的训练数据来训练模型，然后用训练的模型来分析文本。

例如，Petersen and Ostendorf (2009), Vajjala and Meurers (2012)以及Madrazo Azpiazu and Pera (2020) 使用传统的机器学习模型将文本转换为一组可读性特征的集合，包括传统特征(如FOG)、衡量语篇连贯和衔接的话语特征、一个词的常用程度等。

该方法的一个主要缺点是可能无法推广到不同的背景(例如，维基百科文本、美国SEC文件、财报会议)和不同的受众(例如，高中生与博士生，经验丰富与经验匮乏的投资者)。Martin et al. (2021) 提出了一种基于深度学习的无监督方法，并证明他们这种方法生成的可读性指标在分析不同的语料时比传统的可读性指标有更一致的表现。

3.3 披露相似度 (Disclosure Similarity)

余弦相似度是衡量披露相似度的最常见方法之一(Schütze et al. 2008)。计算余弦相似度的传统方法是用词袋法表征每个文档，接近1的值表示高度相似，而接近0的值表示低相似。

基于BOW的计算方式十分直观，在精确匹配中表现出色，例如剽窃检测和对文档的逐年修改(比如上市公司年报)；问题在于，该方法将所有单词视为相互独立，而不考虑单词之间的语义关系，这样，当这一方法面对两个形式上不同但表意相同的句子时会显得乏力。基于BOW的计算有两种加权方式。一是使用原始单词计数，即词频(term frequency weighting, tf)，二是使用词频-逆向文件频率(term frequency–inverse document frequency, tf-idf)，它降低了在文本库中普遍存在的单词的权重，从而结合了整个文本库的信息(Salton和Buckley 1988)。有多项会计研究使用基于BOW的余弦相似性来检验公司披露的相似性或差异性(S. V. Brown and Tucker 2011; Peterson et al. 2015; S. V. Brown and Knechel 2016; S. V. Brown et al. 2018)。

将余弦相似度与词嵌入相结合可以捕获语义相似度。一些研究使用Word2Vec和Doc2Vec(扩展的Word2Vec)作为余弦相似度模型的输入。

基于BOW的余弦相似度方法适用于研究人员对精确比较的需求，而词嵌入的余弦相似度方法可以捕获语义相似度。要根据研究实际来进行选择。

3.4 前瞻性陈述 (Forward-looking Statements)

前瞻性陈述是强制性披露的一部分，属美国证券交易委员会(SEC)的规定，和中国资本市场的规定有异同。

研究人员常常需要根据句子在时间维度上的指向(过去、现在、未来)对句子进行分类。

3.4.1 字典法

既然是分类，用标志词来进行分类是最自然不过的想法，字典法于是再次派上用场。和前面[3.1.1节](#3.1.1字典法_(Dictionary)的做法相似，研究人员也通过先前构建一个包含未来指向的词语的字典，对文本进行分析。

这种方式仍然是简单而有局限性的——尤其是在准确性上有很大牺牲。这种方式会导致很高的I类错误概率(S. V. Brown et al. 2021)，也就是假阳性，把本不属前瞻性陈述的句子标记为前瞻性陈述。

3.4.2 机器学习方法

前瞻性陈述分类可以通过各种监督机器学习模型来完成。S. V. Brown et al. (2021) 通过提供人工注释的训练数据来微调预训练的CNN模型，其算法在88.2%的时间里正确地识别出一个句子是否是前瞻性的，而使用Bozanic et al. (2018) 的最佳可用词典的字典方法的准确率为73.4%。

3.5 主题探索

对于关注某个话题的文本而言，一些词语会在文本中频繁出现，例如，“广告”这一主题的文本会频繁使用“顾客”“满意度”“市场营销”等词汇。主题发现是将单词分组到主题中来总结文档。

最常见的主题模型是LDA，它最初用于BOW文本表示方法下的单个单词计数。Campbell et al. (2014) 首次在会计中使用LDA，以衡量公司风险披露的数量。A. Huang et al. (2018)、Dyer et al. (2017)、N. C. Brown et al. (2020)均使用了LDA进行研究探索。6.2节会进一步介绍这一方面的最新进展。

四、构建基于文本的测量的效度

会计研究人员通常使用文本分析来创建一个度量，将不能直接观察到的概念或特征可操作化。于是，说明文本分析所创造的度量的效度就至关重要。

4.1 由字典法构建的度量的效度

大多数情况下，研究人员必须建立自己的词典，或者根据自己的情况修改词典。在这种情况下，研究人员应该首先验证他们所使用词典的有效性。最好的情况是已经有现有词典可供使用，而不必自己建立词典。

Carrizosa and Ryan (2017) 在其研究中需要使用单词和上下文来识别贷款合同是否包含一种特定契约。他们在建立词典和识别后，将识别结果与另一个随机选择子样本的人工识别结果进行比较，并调整字典，直到达到所需的准确性。这种做法值得借鉴。文章建议研究人员通过其他人来检查其测量的内容有效性。这里的“其他人”可以是研究助理，也可以是实验的对象。比如，Bonsall et al. (2017) 通过MTurk员工对致股东的信件的可读性进行评级，Muslu et al. (2015) 要求MBA学生在50个随机选择的MD&A披露中识别前瞻性句子。

4.2 由监督机器学习方法构建的度量的效度

监督式机器学习有一个内置的验证机制。带注释的训练数据集通常分为训练、验证和测试样本。

l 训练样本(training sample)用于拟合模型并确定代表数据关系的权重。

l 验证样本(validation sample)是用于评估拟合模型预测样本外观测值的能力的保留样本。

l 测试样本(testing sample)是在所有训练完成后评估模型性能的另一个保留样本。

研究人员调整模型的超参数，迭代使用训练样本和验证样本，直到模型达到预期表现，此时模型为最终模型。然后进一步对测试样本中的未见数据使用最终模型，并将其测量结果与通过人工判断形成的结果进行比较，据此评估内容效度。

有几个表现指标可用于量化这一比较。首先是一般的训练-验证-测试(train-valid-test validation)。

l 精准率(precision)是真阳性(true positive，模型将正实例判定为正类，也就是说“正确判断了这件事是正确的”；其他三个概念定义类似)的数量除以模型识别为阳性的项目数量(例如，在模型识别的所有含前瞻性信息的句子中，有多少被正确识别)。

l 召回率(recall)是样本中被正确识别的阳性项目的百分比(例如，在文档中所有前瞻性句子中，有多少被模型识别为这样的)。它等于1−Type II error。

l F-Score是精准率和召回率的加权平均。许多研究使用F1-Score，这是精准率和召回率的调和平均(harmonic mean)，越接近1，则模型在两方面的综合表现越好。

l 准确率(accuracy)是正确分类的样本数(真阳性、真阴性)在总样本中的比重。上面三个指标都忽视了真阴性的存在，准确率弥补了这一缺失。在情感分析中，准确率是最常用的指标(Heitmann et al. 2020)。需要注意的是，准确率考虑了真阴性，但对所有观察结果赋相同权重。如果研究人员对真阳性感兴趣，但样本主要由“阴性样本”组成，那么准确率可能不合适。

在训练-验证-测试之外，K折交叉验证(K-fold cross validation)也通常用于传统的机器学习。交叉验证是把样本数据进行不同的切分，形成不同的训练集和测试集。在K折交叉验证中，训练数据被随机分成K等份，然后进行K次实验，每次保留一部分用于样本外测试，剩余的K−1部分用于训练，最终评估结果是K次实验的平均值。这种方法对于小样本特别有用，因为所有的训练观察值都参与模型学习，且可以显示模型是否对训练样本的随机性敏感。

需要注意的是，监督式机器学习依赖于样本标注，所以标注的质量对于所产生的度量的内容有效性非常重要。否则，垃圾输入将导致垃圾输出(Geiger et al. 2021)。对样本进行标记的人可以是研究人员自己，可以是研究助理，也可以是其他人(例如通过在线平台等方式招募第三方注释者)。文章建议至少使用两名人工标注员，以便评估注释的一致性。一条经验法则是，对于二元分类，两个标注员之间的一致性要达到80%。标注员的判断分歧可以让研究人员理解算法难以区分的情况，毕竟，如果某个样本对人类而言判断困难，那么对机器来说可能也很困难。这样，研究人员可以调整模型训练目标或针对这种挑战性案例提供更多的训练观察。

人工标注样本可能很昂贵；同时，人工标注样本虽然精确、详细，适合研究人员的设置，但比较主观的，其他人很难复制，可能导致样本小，从而导致训练无效(Frankel et al. 2021)。“间接注释”的方法可能很有效，同时也可能会带来文本信息以外的其他信息，使内容更加丰富。例如，一些研究使用从金融数据中收集的变量来标记训练数据中的输出变量(Siano and Wysocki 2021; Frankel et al. 2021)。

4.3 由无监督机器学习方法构建的度量的效度

无监督机器学习通常用于发现未标记数据中的隐藏模式，输出的是数据分组或聚类，而非单一度量。效度代表着这些分组、聚类是否代表了研究者感兴趣的概念。由于无监督机器学习的输出是多维而非单一的，因此建构效度更具挑战性。

研究人员可以采用三步走的方式来建立效度：

l 表面效度(face validity)。研究人员可以检查与聚类相关的最常见的单词或短语，并检查它们是否具有语义一致性。

l 聚合效度(convergent validity)。研究人员可以选择某些聚类，并检查它们是否在包含预计会影响这些聚类的重要经济事件的时期发生变化，或者将聚类与捕获类似结构的变量关联起来。

l 区分效度(discriminant validity)。研究人员可以要求其他人员进行“单词入侵”(“word intrusion”)检查。也就是说，为检查人员提供每个聚类的单词列表(一个单词在给定聚类中的概率很低，但在不同聚类中的概率很高，而其余单词在给定聚类中的概率很高)，并要求他们识别低概率出现的单词。

研究人员还可以要求其他人员在一小部分随机选择的文档中识别聚类，然后将结果与无监督学习的输出进行比较。这种方式需要大量人力。

五、指引：如何在研究中使用文本分析方法

本节讨论文本数据采集和预处理，模型选择，以及实现机器学习方法的关键步骤。原文5.4节及附录部分推荐了编码和数据资源。

5.1 文本数据的获取和预处理

文本数据的获取研究人员通常要根据特定的网站和数据格式自己编写网络抓取代码，同时应确保原始数据的获取符合相关法律和限制。文本文档的格式多种多样，包括纯文本、HTML和PDF等；文档的标记、特殊符号、图像、表格可能都需要作为文本内容。

预处理这可能比正式进行文本分析花费更多的时间。文本预处理过程常常包括：

l 删除HTML标记和非文本字符；

l 将文本转换为更小的文本单元(例如，单个单词、单词组合或句子)；

l 删除最小长度标准以下的文档；

l 检查拼写错误；

l 确保特殊符号(例如撇号和连字符)正确编码；

l 如果分析需要以单个单词为单位，则需要删除停顿词(例如，“a” “the”和“in”)以免单词量过大，同时进行词干提取(stem)和词形还原(lemmatize) (例如“increases”→“increase”、“agreement”→“agree”)。

要注意的是，上面进行删除和变换操作有时反而会起到副作用，比如，如果研究人员对确定所用的时态或捕捉写作风格感兴趣，那么保留原始文本结构就很重要；有时这种处理是没必要的，例如使用词嵌入作为NLP输入、使用tf-idf加权、使用深度学习模型(如BERT，其可以处理子词(subword))。

5.2 选择合适的模型

选择模型需要考虑五个因素：

(1) 功能性(functionality)。模型是否能够实现预期要求。例如，如果需要考察披露信息中单词的精确相似度，那么BOW余弦相似度模型是最好的，机器学习模型就不适用了。

(2) 简单性(simplicity)。如果多个模型都能达到目的，则首选最简单的模型。只有当能实现更大收获时，才应该选择更复杂的模型。

(3) 研究人员对技术的熟悉程度(familiarity)。研究人员可能已经熟悉了各种传统的机器学习方法，在已经熟悉的情况下，针对研究实际进行改进和跟进最新进展耗费精力较小，相对也更容易开展工作。

对不熟悉传统机器学习模型的研究人员来说，深度学习是一个很好的起点，原因在于(i)它是围绕同一中心模型结构(ANN)的一组变化，因此更容易作为一个整体掌握，而传统的机器学习是许多不同的模型结构；(ii)深度学习通常比传统的机器学习在文本数据上表现得更好；(iii)由于模型结构有利于迁移学习，所有深度学习方法都存在预训练模型，这极大便利了研究人员。

(4) 模型的表现(model performance)。

(5) 计算成本(computing costs)。与传统的机器学习模型相比，训练深度学习模型需要更多的计算能力。不过，一般的会计研究人员要在预训练的深度学习模型和从头开始训练的传统机器学习模型之间做出选择，毕竟两者都需要很大的计算成本。

5.3 监督机器学习的实施

研究人员必须在刚开始时就决定是使用监督学习还是非监督学习，以及感兴趣的输出变量是连续的还是分类的。

5.3.1 对样本的标注

有两种主要的离散注释类型：分类(classification)和命名实体识别(named entity recognition, NER)。分类在技术上更加容易实现，虽然人工进行分类并没有那么容易。命名实体是文档中的一个或多个单词，它们代表了现实世界中的实体(例如人、地理位置或组织)；机器根据人的标注来识别出这些实体，并且尝试总结学习过程，以发现后续其他的命名实体。

对样本的标注可以由其他人来完成，但研究人员了解熟悉标注的情况是大有裨益的。

5.3.2 训练数据大小和样本分割

由于人工标注数据的成本很高，监督学习模型的一个关键是确定标注数据的最优数量。如果标注太多，所需成本高昂；如果标注数据太少，则实证结果的效力有限。简单的任务需要的训练样本量小(比如通过正则表达式进行关键词检索，可能只需要几百个样本就够了)，而复杂的任务所需要的训练样本量大(比如情感分析可能需要几千个实例来调试模型)。如果一个模型所需要的训练样本量多于5000个，那可能是因为任务太过复杂，需要简化，毕竟如果一个任务对人而言是有挑战性的，那对于机器而言也是有挑战性的(机器只不过是做了编码工作，代替了人类的输入输出过程而已)。

在为标注准备样本时，一个重要的因素是对于每一种类都有足够的样本量支撑(比如要进行情感分析，那么情感正面、负面、中性的样本都要有)。对于非平衡的数据要进行分层抽样，每层都要能够充分代表一个种类。

可以先从标注一小部分数据开始，找到一点感觉；下一步可以对每一层标注一小部分样本。将这两步标注的数据集中起来训练模型，然后评估模型的效度。继续标注、训练、评估，直到模型表现令人满意为止。

训练数据分为训练样本、验证样本和测试样本(见[4.2节])，占比一般为2:1:1，但这种比例下验证和测试样本可能过大，特别是在样本量大的情况下(Aggarwal 2018, 222)。样本量小的情况下，可能直接省去测试样本。此外，一些研究人员最后还会使用所有样本来对模型进行一次训练，以最大化使用数据，而另一些研究人员则倾向于仅使用训练样本来调试模型。

六、未来的机遇

6.1 深度学习激发新的研究可能

深度学习提供了无限可能。一方面，无监督深度学习可能会学习到研究人员从未见过或者想到过的模式，发现研究人员从未了解过的概念，突破研究人员的局限；另一方面，监督式深度学习可以采用相对较小的手工标注样本，学习复制人类做事的方式，并将其扩展到更大的文本样本，省时省力。

l 研究人员常常使用企业的运营分部(operating segment)和地区分部(geographic segment)来表示业务复杂性和地区复杂性，但不是所有公司都以相同的方式和“颗粒度”报告它们的分部。文本分析可以提供另一种量化公司业务或地区多样性的方法，比如使用NER技术识别，并进一步标记为细分类型(如将位置进一步标记为配送中心、卫星办公室、商店、竞争对手位置等)。

l 统计监管文件中与“竞争”相关的单词经常被用作感知竞争水平的代理变量(F. Li et al. 2013)。使用NER等技术对所研究公司提到的同行业公司进行分析，可以获得更精确的结果，并可以进一步标记为细分类型(该竞争属于劳动力、产品、供应商市场的竞争还是其他)。同样地，对于企业正遭受的风险，也可以标记为细分类型。

l 深度学习还可以帮助提取数据。例如使用XBRL数据训练模型，从公司的披露信息中提取特定信息；在财务报告中提取风险因素、从管理层讨论与分析(MD&A)中提取关于流动性相关的因素。

6.2 公司信息披露的主题分析

强制性和自愿性公司信息披露在会计研究中一直备受关注，披露的主题分析能够提供新的观点。目前，LDA是最流行的主题分析模型，但有三个缺点：(1) 使用BOW作为输入，导致词汇量大，计算成本高；(2)模型产生的主题通常无法对研究有帮助，并且由于模型是无监督的，因此不能保证发现特定的主题。(3) LDA产生的主题可能难以被解释或应用于标注。

为了克服(1)的问题，Dieng et al. (2020)开发了嵌入式主题模型(ETM)，使用词嵌入作为LDA的输入。词嵌入(如Word2Vec；也可以用Doc2Vec和Topic2Vec)不仅降低了高维问题，而且还表示了词的语义。结构主题模型允许包含作为一种“固定效应”的协变量，以便主题可以与非文本信息关联起来(Roberts et al. 2013)。

对于(2)(3)的问题，可以预先分组成感兴趣主题的单词来对初始主题进行引导 (Jagarlamudi et al. 2012)，但这样仍然不能保证预先分组的感兴趣的主题能够保留在最终模型中。此外，研究者还可以约束主题模型，只发现与研究者提供的标签集相对应的主题，这种方法被称为标签LDA(Labeled LDA; Ramage et al. 2009)。如果主题发现的目标是预测结果变量，那么可以应用监督LDA(supervised LDA, sLDA; Blei and McAuliffe 2007)，在这个模型中，每个主题的权重由机器根据训练数据确定。也有研究将LDA与信息论中的KL散度(Kullback-Leibler (KL) divergence)结合在一起来标记主题(Lowry et al. 2020)。

七、结语

文章在一个统一的框架内讨论了可用的NLP方法，并讨论了这些技术在会计研究中的可能应用场景。

文本分析在会计研究应用的比例正在持续增长。在研究时，要花时间去了解这些前沿技术以及它们可以实现的功能，跟上研究最新进展。前沿的NLP方法(如深度学习和主题建模)可能会推动会计研究的前沿发展。

通过分析文本数据，可以识别披露中的情绪、语气、前瞻性信息等，从而更全面地评估企业的风险和机遇。深度学习等新技术可以帮助研究者分析文本数据中的复杂语义关系，例如识别披露主题，从而回答之前无法回答的问题。机器学习等模型可以自动处理大量文本数据，如果能够很好地调试模型，模型将能够节省研究者大量的人力成本和时间，而且可能取得更加精确、有用的结果。

应用文本分析技术需要在文本输入、模型调试等方面细致认真。在文本方面，要确保文本数据的准确性和一致性，并进行必要的预处理；在模型方面，要根据研究目标和数据特点选择合适的文本分析模型，并且要建立效度，对输出结果做合理解释。

一般而言，文本分析是用来构建新的代理变量而非直接用于假设验证，所以一般不会有“黑箱”问题；文本分析与计量经济学方法结合起来时，能够提供较强的置信度。另外需要注意，对于我们自身的研究而言，在初次接触、应用文本分析的时候，复杂技术可能占用我们过多的注意力。我们仍然应该专注研究问题，而非沉迷于技术本身，除非是做方法论研究。

关于机器学习，参看：1.机器学习之KNN分类算法介绍: Stata和R同步实现（附数据和代码），2.机器学习对经济学研究的影响研究进展综述，3.回顾与展望经济学研究中的机器学习，4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险！6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了！7.前沿: 机器学习在金融和能源经济领域的应用分类总结，8.机器学习方法出现在AER, JPE, QJE等顶刊上了！9.机器学习第一书, 数据挖掘, 推理和预测，10.从线性回归到机器学习, 一张图帮你文献综述，11.11种与机器学习相关的多元变量分析方法汇总，12.机器学习和大数据计量经济学, 你必须阅读一下这篇，13.机器学习与Econometrics的书籍推荐, 值得拥有的经典，14.机器学习在微观计量的应用最新趋势: 大数据和因果推断，15.R语言函数最全总结, 机器学习从这里出发，16.机器学习在微观计量的应用最新趋势: 回归模型，17.机器学习对计量经济学的影响, AEA年会独家报道，18.回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现），19.关于机器学习的领悟与反思，
20.机器学习，可异于数理统计，21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣！24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文！25.更精确的因果效应识别: 基于机器学习的视角，26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法，27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法！28.机器学习和经济学, 技术革命正在改变经济社会和学术研究，29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”，30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了！31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容！32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子？33.机器学习已经用于微观数据调查和构建指标了, 比较前沿！34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法！35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么？

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

计量经济圈

凡是搞计量经济的，都关注这个号了。