以下文章来源于Political理论志,作者白景。
编者荐语:
本文是由荣获2023年素有诺奖风向标之称的斯隆研究奖得主柯峥领衔的最新力作。本文重点介绍了作者所创的一种新主题建模方法:Topic-Score,并在文献综述中将之于最新流行的主题建模方法和神经网络建模进行比较和说明,说明该方法在上述两个领域的创新与进步。
摘要:
文本分析是数据科学中一个有趣的研究领域,具有多种应用,例如人工智能、生物医学研究和工程。本文回顾了流行的文本分析方法,从主题建模到最近的神经语言模型。我们特别回顾了主题建模的统计方法Topic-SCORE,并讨论了如何使用它来分析统计学家多属性数据集 (MADStat),这是我们收集和清理的统计出版物的数据集。将Topic-SCORE 和其他方法应用于 MADStat 会得出有趣的发现。例如,我们确定了11个统计领域的代表性主题。对于每种期刊,主题权重随时间的演变都可以可视化,这些结果主要用于分析统计研究的趋势。特别是,我们提出了一种新的统计模型来对11个主题的引用影响进行名,并且还构建了一个跨主题引用图来说明不同主题的研究结果如何相互传播。最后MADStat的结果从文本分析的角度提供了1975年至2015 年间统计研究的数据驱动图景。
作者简介:
Zheng Tracy Ke(柯峥),哈佛大学统计系。
Pengsheng Ji,佐治亚大学统计系。
Jiashun Jin,卡内基梅隆大学统计系。
Wanshan Li,卡内基梅隆大学统计系。
编译来源:
Ke, Z. T., Ji, P., Jin, J., & Li, W. (2024). Recent Advances in Text Analysis. Annual Review of Statistics and Its Application, 11(Volume 11, 2024), 347–372. https://doi.org/10.1146/annurev-statistics-040522-022138
从左至右依次为本文作者:Zheng Tracy Ke、Pengsheng Ji、Jiashun Jin和Wanshan Li
一、引言
文本分析是数据科学、计算机科学和语言学的跨学科研究领域,旨在利用计算机处理大量自然语言数据并提取信息或特征。文本分析和自然语言处理(natural language processing,NLP)方面的研究对于开发自动驾驶汽车、聊天机器人(例如,ChatGPT,GPT代表生成式预训练语言大模型)以及医疗保健和生物医学工程中的人工智能特别有用。在过去的几十年里,已经提出了许多用于文本分析的方法。主要有两种方法特别受欢迎:
第一,主题建模(Topic modeling)。这种方法具有很强的统计色彩。给定大量文本文档,这种方法假设所有这些文档只讨论几个主题(例如,金融、政治、体育)。每个文档讨论不同权重的主题,并且给定正在讨论的特定主题,文档中的单词是从特定于该主题的分布中生成的。
第二,神经网络建模(Neural network modeling)。这种快速发展的方法通过深度神经网络(deep neural networks)对文本文档的生成进行建模,并使用海量文本语料库(例如英语维基百科)和领域知识来训练模型。训练后的模型将用于不同的下游任务(downstream tasks)。
神经网络方法已被证明在许多NLP任务(例如,文本分类和机器翻译)中是有效的,并且已经获得了巨大的普及,尤其是在Google和Meta等技术巨头中。但是,这种方法在内部很复杂,训练成本高昂,而且需要大量资源。这些因素极大地限制了神经网络方法的使用,主题建模方法提供了一种有价值的替代方案,并具有以下优点:
第一,透明度和可解释性。许多用户更喜欢以下方法:不是黑匣子,而是一种更透明的分步算法;易于理解和调整(因此用户可以根据需要进行修改)以及提供易于解释的结果(例如,提取的特征)。
第二,分析可及性。主题建模方法相对简单,允许精细的理论分析。特别是,其中一些方法享有统计最优性。相比之下,神经网络方法更难分析,通常没有理论保证。
Topic-SCORE是一种特别有趣的主题建模方法。它快速而有效,并且具有良好的理论特性。这些特征使得Topic-SCORE在分析统计学家多属性数据集(MADStat)数据集时特别有吸引力。
本文的一个目标是回顾流行的主题建模方法,从 1990 年代的基础主题模型(rudimentary topic models)到最近的多元主题模型,重点关注 TopicSCORE 和相关问题。此外,我们还回顾了神经网络方法。大型神经语言建模是一个快速发展的领域,每周都会有新的研究出现,因此很难进行全面的审查。由于本文的重点是建模方法和 MADStat 数据集,因此我们对神经网络方法的回顾相对简短。
本文的另一个目标是使用文本分析技术分析MADStat数据集。MADStat是一个关于统计出版物的大规模、高质量的数据集。我们花费了大量的时间和精力来收集和清理数据集。它包括1975年至2015年在统计学及相关领域36种代表性期刊上发表的83,331篇研究论文的BibTeX(标题、作者、摘要、关键词、参考文献)和引文信息。该数据集包含每篇论文的详细引文、BibTeX 和作者信息。它可用于研究仅具有期刊级别数据或不包含作者信息的其他数据资源所无法解决的研究问题。例如,使用MADStat,人们可以很容易地找到我们数据范围内被引用次数最多的 30 篇论文,而使用Google Scholar则不清楚如何做到这一点。
获取大规模、高质量的数据集(如MADStat)是一项具有挑战性且耗时的任务。特别是许多公共数据(例如,Google Scholar)非常嘈杂,许多在线资源不仅不允许大量下载,研究者还必须仔细费神清洗数据集。本文通过人力和定制开发的计算机算法两者相结合的方式来做到这一点。补充附录 A 提供了关于数据收集和清理的更详细讨论。
主题模型是文本分析中最流行的模型之一。Deerwester(1990)提出了潜在语义索引(latent semantic indexing,LSI)作为一种临时方法来进行词嵌入。后来,Hofmann(1999)提出了LSI的概率模型,现在被称为主题模型。不时地,我们可以将单词-文档计数矩阵X规范化为词-文档频率矩阵D。主题建模的主要目标是使用单词-文档计数矩阵或词-文档频率矩阵估计主题矩阵A和主题权重矩阵W。
2.1.锚定词与主题模型的可识别性
如果一个词的出现几乎总是表明正在讨论某个特定主题,我们称其为该主题的锚定词(Anchor Words)。例如,考虑 Associated Press(Harman 1993)数据集。数据集的预处理版本包含2,246篇新闻文章,讨论三个主题:政治、金融和犯罪。在这个例子中,我们可以认为“gunshot”和“Nasdaq”分别是犯罪和金融主题的锚定词。
锚定词的概念具有广泛的实用性。首先,它可以用来解决主题模型的可识别性问题。在没有额外条件的情况下,Harman的主题模型是不可识别的。为了使模型可识别,我们可以假设rank(W) = K,并施加锚定词条件(这要求每个主题至少有一个锚定词)。锚定词条件最早由Arora(2012)在主题模型中提出,并且又从非负矩阵分解(NMF)的可分离性条件中得到改编。
其次,锚定词在方法论的发展中非常有用:许多主题建模方法关键地依赖于每个主题有一个或几个锚定词的假设。例如,第2.2节和2.3节描述了Topic-SCORE和锚定词搜索方法。
最后但同样重要的是,在实际应用中的一个挑战是主题数K和每个估计主题的含义都是未知的;我们可以用(估计的)锚定词来解决这个问题。例如,第5节包括我们对MADStat数据的分析,我们在这里使用估计的锚定词来确定 K,解释每个估计的主题,并分配适当的标签。
2.2.Topic-SCORE:一种估计主题矩阵A的谱方法
在Harman的主题模型中,我们可以看到D=AW+(D−AW)=信号+噪音。在这种低秩信号矩阵(low-rank signal matrix)加噪音情况下估计A,最好采用奇异值分解(singular value decomposition,SVD)方法,因为SVD在降维和降噪方面都有效。
Topic-SCORE是一种基于奇异值分解(SVD)的主题建模方法,主要依赖于两个思想:SCORE标准化和在谱域(spectral domain)中使用低维简单结构。详细来说,Ke & Wang(2022)指出文本数据的一个显著特征是词频的严重异质性:某个词在文档中出现的概率可能比另一个高出数百倍。这种异质性为传统的SVD方法带来了巨大挑战,因此必须结合适当的标准化方法。Ke & Wang(2022)提出了一种pre-SVD的方法。然而,尽管pre-SVD标准化可以在一定程度上减少严重异质性的影响,但仍然存在许多残留效应。为了克服这一挑战,Ke & Wang(2022)提出了一种post-SVD标准化方法。Ke & Wang(2022)认为,通过结合pre-SVD和post-SVD标准化,可以有效地缓解严重的词频异质性效应。post-SVD标准化受SCORE标准化的启发提出了用于分析具有严重异质性网络数据的SCORE标准化,因此得名Topic-SCORE。
Topic-SCORE的主要计算成本来自 SVD 步骤,该步骤可以相对较快地执行。出于这个原因,Topic-SCORE速度很快,可以轻松处理大型语料库。例如,在第 5 节中处理 MADStat语料库只需一分钟。Topic-SCORE在宽参数范围内理论上也是最优的。
2.3估计A的锚定词搜索法
Arora提出了一种锚定词搜索方法,该方法通过从词词共现矩阵(word-word cooccurrence matrix)中查找锚定词来估计主题矩阵A。Arora是最早利用锚定词条件进行主题建模并提供明确错误率(error rates)的人之一。而TopicSCORE在估计主题矩阵的后续步骤方面具有重要优势(在理论和计算方面)。特别是,Topic-SCORE提高了Arora的错误率。
Bing提出了一种不同的锚定词搜索方法,表明如果上述Harman的主题模型假设成立且无噪音(即D = AW),则该方法可以从索引集中完全恢复锚定词集。将想法扩展到真实情况(其中D = AW+噪音),他们获得了锚定词集的估计值,然后获得了估计A的过程。
2.4.估计A的其他方法:期望最大化算法和非负矩阵分解方法
期望最大化(Expectation–Maximization,EM)算法是一种众所周知的拟合潜变量模型的方法。已经注意到Harman的主题模型等效于潜变量模型,因此我们可以使用EM算法估计A。这种方法很有趣,但也面临一些挑战。首先,它没有明确使用锚定词条件,因此所考虑的模型实际上是不可识别的(参见第 2.1 节)。此外,EM算法的收敛性也不清晰,即使 EM 算法收敛,它收敛到的局部最小值也不一定是目标(A,W)(在温和的锚定词条件下唯一定义)。
另外,请注意,Harman的主题模型意味着 D = AW+噪音,其中(D,A,W)都是分元(entry-wise)负矩阵;因此,估计(A,W)问题可以重新定义为NMF(Nonnegative Matrix Factorization)问题。有许多NMF算法在图像处理,推荐系统(recommender systems)和生物信息学等应用中已被证明是成功的。然而在主题建模中直接使用它们面临着挑战。大多数NMF设计中的噪音是加性(additive)和同方差性(homoskedastic)的,但主题模型中的噪音矩阵是非加性和严重的异方差态,且词频异质性严重。因此,直接应用NMF算法通常会产生非最优错误率(nonoptimal error rates)。
2.5.估计主题权重矩阵W
在Harman的主题模型中,D = AW+噪声,主题矩阵A和主题权重矩阵W都是未知的。虽然大多数现有工作都集中在估计A上,但W也引起了人们的兴趣(例如,参见第5节)。为了估计W,一种自然的方法是首先获得A的估计值,然后将Harman的主题模型的A替换为其估计值,然后再通过拟合替换后的模型来估计W。
以上提出了一个问题:既然D=AW+噪声,我们是否可以先估计W,然后用W的估计值来估计A?有两个问题。首先,在某些设计中,估计A的最优收敛速度比估计W的最优收敛速度快(参见第 2.6 节)。因此,如果我们先估计W然后使用W的估计值估计A,那么我们可能会在估计W时达到最优收敛速度,但在估计A时可能不会。如果我们先估计 A,然后使用A的估计值再估计W,则我们在估计两者时都会有最优收敛速度。其次,许多估计A的方法都依赖于每个主题都有一些锚定词的假设(参见第 2.2 节和第 2.3 节)。如果我们将它们扩展到估计W,我们需要类似地假设每个主题都有一些纯文档。然而,在许多应用中,假设锚定词的存在会比假定纯文档的存在更合理(尤其是当文档很长时)。因此,尽管A和W的角色可能看起来彼此对称,但它们实际上并不对称。
2.6.估计(A,W)的最优收敛速度(optimal rates)
为简单起见,正如在许多关于主题建模的理论著作中所做的那样,我们假设文档具有相同的长度,且可能有一个长文档(long-document,LD)情况或一个短文档 (short-document。SD)情况。
在考虑估计参数A的收敛速度,且是SD的情况下,最优收敛速度尚不清楚。一些极大极小上界(minimax upper bounds)已被推导出来,但它们尚未与极大极小下界(minimax lower bound)匹配。SD情况的难点在于,在大多数文档中,大多数单词的计数为零,这给理论分析带来了挑战。
2.7.主题数K的估计
几乎所有的主题学习算法都假设K是先验已知的,但在实际应用中K很少已知。因此,如何估计K是一个根本问题。
为了估计K这种低秩矩阵加噪音情况,一种标准方法是使用碎石图(scree plot:):对于阈值t,我们估计K超过t的X的奇异值数量。Ke &Wang(2022)表明,在一些规律性条件下,该估计量是一致的。该方法不需要主题模型拟合,快速且易于使用,但如何选择数据驱动的t是一个悬而未决的问题。或者,可以使用贝叶斯信息准则(Bayesian information criterion,BIC) 或其他信息准则来选择 K。此外,可以使用交叉验证(Cross Validation,CV)方法,通过估计每个候选K和每个训练-验证拆分的主题模型。一个常用的验证损失是困惑度(perplexity)。它衡量经过训练的语言模型在测试集上的预测能力。为了便于理解,我们通常假设w是独立且同分布,因此该方法更适合主题模型的贝叶斯版本,我们也可以使用完整的贝叶斯方法,通过在K上施加先验,来最小化边缘似然(marginal likelihood)。在 BIC 和 CV 方法中,我们都需要多次拟合主题模型,因此计算成本很高。
模拟研究指出,这些方法不仅都不是很好,哪种方法最好取决于数据集,而且流行的困惑(perplexity)方法经常高估K。由于这些原因,在实际应用中,每当有一些内部信息可用时,我们都希望用它来帮助确定K。例如,在MADStat的研究中(见第5节),我们通过Topic-SCORE研究了不同K的估计锚定词,并利用我们对统计的了解,选择了结果最合理的K。在某些应用程序中,最好的 K 取决于用户的观点,甚至专家也可能有不同的意见。在这种情况下,我们可能需要考虑几个不同的 K。这种灵活性可能会有所帮助。
2.8.与主题模型相关的全局检验
全局检验问题与估计K的问题密切相关。其目标是检验假设 H0 : K = 1 ,对立假设 H1 : K > 1。全局检验是一个基本问题:如果没有方法能够可靠地区分 K = 1 和 K > 1,那么就无法估计K,或者在Harman的主题模型中估计矩阵(A, W)。
Cai提出了一个称为DELVE(debiased and length-assisted variability estimator)的检验统计量。他们表明,当K= 1时,尽管模型具有许多未知参数,该统计量收敛于N(0, 1),并且极限分布(limiting distribution)不依赖于未知参数。这一结果在实际中非常有用。例如,我们可以用它来计算一个近似的p值,并使用这个p值来衡量MADStat数据集中不同作者的研究多样性;Ji展示了在网络设计中全局检验的类似用法。Cai展示了该检验实现了急剧的相变(phase transition)的情形,若与早期的研究相比,这样的结果更加令人满意。
2.9.隐含狄利克雷分布主题模型及其估计
潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型由Blei提出,是最流行的主题模型之一,可以视为Hofmann主题模型的贝叶斯版本。与Hofmann主题模型相比,LDA模型对主题矩阵A不做任何结构假设。如果我们的目标是估计A,并且满足锚定词条件,那么第2.2节和2.3节中的所有方法仍然适用。特别是,与Blei的变分EM方法相比,Topic-SCORE方法不仅更快,而且提供了所需的理论保证。另一方面,LDA在主题权重矩阵W上添加了狄利克雷先验(Dirichlet prior)。这使我们能够学习主题权重矩阵的后验分布(posterior distribution),并可能提供额外的见解。回想一下,在第2.5节中,我们提出了一种回归方法来估计 W(没有对W添加任何先验)。这种回归方法对于LDA模型仍然很有用(例如,我们可以使用这种方法来估计LDA模型中的参数α,并将估计值插入变分EM算法中)。
2.10.m-Gram主题模型
Hofmann主题模型和 LDA 是所谓的词袋模型或unigram模型,因为它们只对单个单词的计数进行建模,而忽略了词序和词上下文。关于扩展这些模型以合并词序和词上下文,有几种想法。
一个想法是简单地扩大词汇量以包括短语。例如,我们可以在词汇表中包含所有可能的 m-gram(m-gram 是 m 个单词的序列)。不幸的是,即使对于较小的 m,这个词汇表的大小也太大,使得主题估计实际上不可行。为了解决这个问题,我们可能只包含精心挑选的 m-gram的一个子集。例如,我们可以排除低频短语或应用短语检索算法。一旦确定了词汇量,我们就将词汇表中的每个项目视为一个单词,并如上所述通过Hofmann主题模型进行建模,生成的模型在风味上仍然是Unigram模型。
另一个想法是二元主题模型(bigram topic model)。Wallach(2006)提出了一种用于估计参数的吉布斯期望最大化算法(Gibbs EM algorithm),并表明与unigram主题模型相比,该二元模型在两个真实世界数据集上具有更好的预测性能和更有意义的主题。
2.11.有监督主题模型(Supervised Topic Models)
在许多应用程序中,我们不仅观察文本文档,还观察与文档相关的一些响应变量。例如,许多在线客户评论包含数字评分,我们将评论视为文本文档,并将相应的评分视为回复。我们希望为文本和响应构建一个联合模型,以帮助预测未来的评级。
Ke et al.(2019)的模型是此类监督主题模型。作者研究了如何利用新闻文章来改进财务模型的问题。他们专注于道琼斯通讯社(dow jones newswire)的新闻文章。这些文章都标有公司的标识符(该研究排除了标有多个公司的文章)。他们使用Hofmann主题模型以及K= 2(因为只有两个主题)对新闻文章进行建模,其中两个主题分别是积极情绪和消极情绪。在这样一个简单的情况下,与其他估计新闻情绪并使用它来预测回报的方法相比,这种方法在真实数据性能上得到了显著提高。此外,McAuliffe & Blei (2007)讨论了其他具有类似风味的监督主题模型。
自然语言处理的深度神经网络(deep neural network,DNN)方法(DNN-NLP)最近变得非常流行,在各种NLP任务中都取得了成功,例如文本分类、问答和机器翻译等。在统计学中,“模型”是一个生成模型,其中包含一些我们需要估计的未知参数。在DNN-NLP中,研究人员对术语的使用略有不同:神经语言模型通常指的是一个配备估计参数的预训练神经网络。一个神经语言模型通常由三个部分组成:
1.神经网络架构。这是神经语言模型的核心。它指定了如何处理输入文本以生成所需的输出。编码器-解码器(encoder–decoder)结构是常用的:编码器是一种神经网络,它将输入文本映射到数值向量(也称为编码器状态),解码器将编码器状态转换为目标输出(例如,可变长度的标记序列)。许多神经网络模型的灵感来自文献中提出的新架构。
2.用于训练神经网络的NLP任务。神经语言模型通常针对一个特定任务(例如,机器翻译)或几个特定的 NLP 任务,例如,基于Transformer的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)输出文档嵌入,可用于各种下游任务。在任何一种情况下,预训练神经网络(即估计参数)都必须使用特定的NLP任务来定义目标函数。因此,如果使用不同的 NLP 任务进行预训练,则相同的架构可能会导致不同的神经语言模型。
3.训练中使用的文本语料库和领域知识。即使在训练中使用相同的架构和相同的 NLP 任务,生成的神经语言模型仍然会随着训练语料库的变化而变化。一种策略是选择训练语料库来获取特定领域的语言模型。例如,BERT具有BioBERT等变体,使用生物医学期刊进行训练。除了特定领域的语料库外,还可以使用其他知识,例如特定领域的词汇。
对 DNN-NLP 的研究有多个目标,包括但不限于根据句子中的前一个单词预测下一个单词,例如,GPT 家族。或者从文本中提取数字特征(例如,BERT家族),以及建模单词的(句法和语义)关系(例如,word2vec)。DNN-NLP 是一个快速发展的领域,很难全面回顾(特别是因为我们的重点是主题建模方法和 MADStat 数据集)。出于这些原因,我们选择了 DNN-NLP 中几个有趣的主题进行回顾,重点关注流行的 NLP 的 DNN 架构和 BERT,这是 Google,Inc.开发的强大特征提取工具。我们还讨论了词嵌入以及如何在我们自己的研究中将神经语言模型(例如,BERT)应用于文本语料库。
3.1.常用的神经网络架构
一些著名的 NLP 网络架构包括卷积神经网络 (convolutional neural networks,CNN)、递归神经网络 (recursive neural networks,RNN)和transformers。CNN 和RNN比较传统,近年来 transformer变得非常流行。
CNN 使用结构层(例如卷积层和池化层)来捕获输入中的空间模式,并广泛用于信号(语音、图像、视频)处理。在处理文本文档时,有时某些单词是否出现并不重要,重要的是它们是否出现在特定位置。因此,CNN对于NLP任务也很有用,如句子建模和情感分析。
RNN 对于具有可变长度的序列数据特别有用,使其适用于文本分析。长短期记忆神经网络(Long short-term memory networks,LSTM)是RNN最受欢迎的变体。在原版 RNN 中,信息可能会随着连续的迭代而被稀释,从而阻止模型记住遥远过去的重要信息。LSTM 添加神经元(称为门)来保留、遗忘或暴露特定信息,因此它们可以更好地捕获序列中两个相距很远的词之间的依赖关系。标准 LSTM 是单向的(即,文本是从左到右处理的)。最好是双向处理文本,因为单词可能取决于其后面的单词。双向 LSTM 将从左到右层和从右到左层的输出组合在一起。
transformers是一种基于注意力机制的架构。在传统的编码器-解码器中,编码器将输入序列映射到固定长度的向量,解码器只能访问此向量。注意力机制允许编码器将所有隐藏状态(而不仅仅是最终编码向量)传递给解码器,以及注释向量和注意力权重,以告诉解码器需要注意哪一部分信息。在处理长文档时,注意力机制被证明比RNNs更有效。Vaswani提出了一种称为transformer的特殊架构,该架构分别使用编码器和解码器内部的自注意力以及它们之间的交叉注意力。Transformer 已成为 NLP 中最受欢迎的架构。例如,transformer的编码器部分是 BERT 等模型的构建要素(见下文),而转换器的解码器部分是 GPT等模型的构建要素,用于文本生成。
3.2. BERT算法
BERT 是由Google AI Language开发的最先进的语言模型,它为每个句子提供数字表示。如上所述,神经语言模型由三个组件组成:架构、预训练任务和训练语料库。在架构方面,BERT使用具有双向自注意力功能的transformer编码器。在训练语料库方面,BERT使用了BooksCorpus(8亿字)和EnglishWikipedia(25亿字)。BERT 的主要创新在于它使用的预训练任务:BERT 使用两个任务进行预训练,即掩码语言建模(masked language modeling)和下一句预测(next sentence prediction)。在掩码语言建模中,输入序列的一些标记是随机屏蔽的,目标是从它们的左右上下文中预测这些被屏蔽的标记。在下一个句预测中,输入是语料库中的两个句子 A 和 B,目的是确定 B 是否是 A 的下一个句子。这些任务不需要手动标记文本。
BERT 已应用于不同的下游 NLP 任务,具有卓越的性能。已经创建了许多基于 BERT 的语言模型,例如架构的修改(例如,ALBERT 和 DistillBERT)和预训练任务(例如,RoBERTa 和 ELECTRA),适应其他语言(例如,XLM 和 ERNIE),以及包含特定于领域的语料库(例如,BioBERT 和 UmlsBERT)。
NLP的另一个主要目标是学习词之间的句法和语义关系。为了达到这个目的,一个标准的方法是词嵌入(即找到词的向量表示)。尽管词嵌入经常用于神经语言模型(通常作为第一层),其主要目的是理解或模仿自然语言中的各种句法和语义规律。一个经常被提及的例子是,向量(“king”) − 向量(“man”) + 向量(“woman”) ≈ 向量(“queen”)。Word2vec是一个流行的词嵌入模型。它是使用Google News语料库进行训练的,并且其性能是通过作者手动创建的语义-句法关系问题集进行测试的。
许多现代 DNN-NLP 工具(如 BERT)都归高科技公司所有。他们接受了大量数据和努力的培训,其中许多部分是不公开的。典型的 NLP 用户拥有自己的(特定领域)文本语料库,但该文本语料库不够大,无法重新训练 BERT(例如)。为了帮助这些用户应用现代 DNN-NLP 工具,有两种方法:迁移学习(transfer learning)和微调(fine-tuning)。在第一种方法中,用户将自己的文档输入到BERT(例如)并获取每个文档的嵌入向量。然后,可以将嵌入的向量用作下游分析的特征。在第二种方法中,用户可以更改预训练模型的参数。通过向神经网络添加额外的层,可以将预训练的神经语言模型的输出转换为下游任务(例如,文档分类)的目标输出。接下来,所有参数(预训练模型中的参数和添加层中的参数)一起更新(这可以通过从预训练模型的参数开始运行随机梯度下降来完成)。
MADStat包含来自47,311位作者的83,331篇论文的BibTeX(例如,作者,标题,摘要,期刊,年份,参考文献)和引用信息,时间跨度为41年(1975-2015年)。我们花费了大量的时间和精力收集和清理了数据,并已将其公开。在附录中,我们介绍了(a)数据收集和清理的详细信息,(b)36种期刊的列表及其缩写,以及(c)本文进行的文本分析的补充结果。在本节中,我们将讨论数据集中的一些基本发现,包括论文数量、网络中心性和期刊排名。
4.1.论文数量
论文数量为研究统计学家的生产力如何随着时间的推移而变化提供了宝贵的信息。图1a显示了两条曲线,分别是每年的论文数量和每年的活跃作者数量(如果作者在某一年至少发表一篇论文,则该作者在该年为活跃作者)。在这两条曲线中,我们注意到在2005-2006年附近急剧增加,可能是因为在2006-2008年之间推出了几本新期刊Annals of Applied Statistics、Bayesian Analysis和Electronic Journal of Statistics(EJS)。图1b显示了每年的论文数量,定义为每个活跃作者的平均论文数量。我们考虑标准统计和分数统计,其中,对于m作者的论文,每位作者分别被计算为发表了 1 篇和 1/m 篇论文。在标准数量中,1975年至2009年间的年度论文数量有所增加,从每位作者约1.2篇论文增加到每位作者约1.4篇论文,2009年后减少到2015年的每位作者约1.3篇论文。在分数统计中,每年的论文数量总是减少,从1975年的每位作者约0.85篇论文减少到2015年的每位作者约0.5篇论文。对此的解释是,多年来,每篇论文的平均作者数量一直在稳步增加。图1c显示了每篇论文的平均作者人数,曲线正在稳步增加。
4.2.网络中心性
网络中心性(Network centrality)指标(例如,对最具协作性的作者的衡量标准)提供有关统计研究中的领导力和趋势的信息。表1列出了合著次数最多、引用次数最多的前 10 位作者(任何给定作者的引用次数是引用该作者的任何其他作者)和引用次数最多的前 10 位作者。补充表2(见附录E)列出了被引用次数最多的10篇论文。请注意,这里的合著者、引用者和引用次数都是仅使用我们数据范围内的论文计算的,因此我们的排名可能存在一些偏误。例如,在附录表2中,如果我们改用Google Scholar在2022年12月31日的引用计数,那么Benjamini&Hochberg(1995)关于错误发现率的论文,Donoho&Johnstone(1994)关于小波理论(wavelets)的论文,以及Efron关于最小角回归(least angle regression)的论文将获得更好的排名,因为这些论文在我们的数据范围之外有许多论文的引用。尽管如此,我们的方法仍然很有价值。例如使用我们的数据,可以提供数据集中任何作者或任何论文的排名(例如,按引用次数),但如何使用 Google Scholar 做到这一点尚不清楚:我们需要为许多作者和论文之间的引用关系建立一个大型数据库,并花费大量时间清理这些引用数据。与Google Scholar相比,我们的引文数据质量更高,因此我们对网络中心性的结果提供了 Google Scholar无法提供的新视角。
4.3.引文模式与睡美人
识别具有代表性的引文模式是一个有趣的问题,因为它有助于区分短期引文效应和长期引文效应。通过对单篇论文的年度引用曲线进行仔细研究,我们确定了四种具有代表性的引用模式:睡美人、短暂、稳步增长和突然成名。睡美人是指在发表后几年内被引用率低,但在某个时间点(又称醒来)后经常被引用的论文。代表性的论文包括Tibshirani(1996)关于Lasso回归(最小绝对收缩和选择算子)的论文。短暂引用模式是指在发表后不久的几年内获得大量引用的论文,但随后它们的引用量急剧下降并在数年内保持低水平。稳步增长是指那些引用量多年来一直以适度的速度增长,在相对较长的时间段内被引用量较大的论文。具有代表性的论文是Dempster(1977)关于EM算法的论文。突如其来的成名是指论文在发表后不久就获得大量引用,并且引用次数多年来一直保持在高位。代表性的论文包括Liang和Zeger(1986)关于纵向数据的论文,Gelfand&Smith(1990)关于边际密度的论文(图2)。
4.4.期刊排名
期刊排名已被广泛用于任命学术职位、授予研究资助以及对大学和部门进行排名。一种常见的方法是影响因子(IF),但已知 IF存在一些问题 。但本文也通过改用Stigler模型进行期刊排名,在这36种期刊中,3种专注于概率的期刊与其他33种期刊之间的引用交流相对较少,因此我们排除了这3种概率期刊。对于每对期刊,我们使用 10 年的窗口计算它们之间的引用次数。例如,如果 2014 年是当前年份,则当且仅当 2014 年在期刊 i 上发表的论文引用了 2005 年至 2014 年间在J期刊上发表的论文时,我们才计算从期刊 i 到期刊 j 的一次引用。这导致了2014年的33×33期刊间引文矩阵。最后,我们取 2014 年和 2015 年两个矩阵之和,以提高结果的稳定性和可靠性。最后形成期刊排名的最终数据矩阵。结果如图 3 所示。
这两种方法都将 AoS、Biometrika、JASA 和 JRSSB 列为前四名。特别是,这两种方法都将 AoS 排在第一位,Biometrika 排在第三位;PageRank 将 JASA 排在第二位,Stigler 方法将 JRSSB 排在第二位。两种方法的排名相当一致。少数例外是CSDA、EJS、JMVA、JRSSA、JTSA和SMed。我们注意到,PageRank对每个引用的权重相等,而Stigler模型赋予排名较高的期刊的引用比排名较低的期刊的引用更大的权重。PageRank的结果与按引文编号排名的结果相当接近,但Stigler方法的结果可能有很大不同。仔细观察引用次数可以发现,SMed、CSDA、JMVA和EJS的引用中有很大一部分是自引,在排除这些自引之后,这些期刊的大部分引用都来自排名相对较低的期刊。这就解释了为什么这些期刊在PageRank中的排名相对较高,而在Stigler模型下的排名相对较低。此外,虽然 JTSA 和 JRSSA 都没有大量的引用,但它们的大部分引用来自排名靠前的期刊;因此,通过Stigler模型,这两本期刊的排名远高于PageRank。
5.1.锚定词与11个确定的主题
要应用 Topic-SCORE,我们需要确定主题的数量。这是一个难题(见第 2.7 节),我们通过结合碎石图、大量的手工工作和对统计的了解来解决它(见补充附录 H)。我们发现主题数K= 11是最合理的选择。
由于K= 11,因此 Topic-SCORE 确定了11个研究主题。为了解释和标记这些主题,我们引入了一个规则,为每个主题选择具有代表性的单词和论文。锚定词仅出现在一个主题中。例如,“lasso”和“prior”可能分别是“变量选择”和“贝叶斯”主题的锚定词。图 4 显示了 11 个已识别主题中每个主题中最常见的 20 个锚定词。根据这些词,我们建议为每个主题命名。为了检查建议的标签是否合理,并更深入地了解每个主题,我们还识别具有代表性的论文。对于每 1 ≤ k ≤ 11,我们抽出最大的前 300 篇论文。我们手动检查了这些论文的标题,并建议每个简短标签所涵盖的主要研究主题列表(见表2,第三列)。
我们的主题学习结果基于摘要相似性(即,同一主题所涵盖的研究领域的摘要具有相似的字数)。这种相似性并不一定意味着论文在知识内容上的相似性。此外,我们在这里的目标是使用统计方法来识别一些可解释的主题,并且数据集中的一些研究主题可能在这里没有得到很好的表示。
5.2.代表性作者的主题权重
如何估计作者的研究兴趣是一个有趣的问题。它有助于我们理解作者的研究概况,并可能对决策(例如,奖项、资金、促销)有所帮助,它还可以帮助作者规划未来的研究。图5显示了12位代表性作者。我们有一些有趣的发现:
James Berger在贝叶斯统计(Bayesian statistics)上的权重非常高,Raymond Carroll和范剑青(Jianqing Fan)在回归分析上的权重非常高,Michael Jordan和刘骏(Jun Liu)在机器学习上的权重非常高。这些结果是合理的:伯杰在贝叶斯统计和决策理论方面有很多著作;卡罗尔在半参数模型方面有很多作品;范剑青在非参数回归和高维变量选择方面有很多工作;乔丹在机器学习、非参数贝叶斯和贝叶斯计算方面有很多工作;刘骏在贝叶斯计算和MCMC方面有很多工作。
Peter Hall在统计推断、机器学习和回归分析方面具有很高的权重;林希宏(Xihong Lin)在临床试验、回归分析、生物统计学和医学统计学方面占有显著的权重;LarryWassermann 在统计推断、机器学习和贝叶斯统计方面具有显著的权重;Cun-Hui Zhang在统计推断、回归分析和数理统计方面的权重明显较高。
图5表明,Peter Bickel、David Donoho和Kathryn Roeder的研究兴趣相对多样化,涵盖了许多主题。这些都符合我们对这些作者的印象以及表2中11个主题的信息。
5.3.主题趋势
如何描述统计研究随时间的演变是一个有趣的问题。我们通过结合估计的主题权重以及每篇论文的时间和期刊信息来解决这个问题。
首先,我们研究了年平均主题权重如何随时间变化。对于每年,我们计算当年发表的所有论文的平均主题权重,并通过 3 年窗口内的加权移动平均值(权重:0.25、0.50 和 0.25)进行平滑(图 6)。我们观察到,数理统计、回归分析、生物统计和医学统计、贝叶斯统计和假设检验这五个主题的权重高于平均水平,表明它们引起了更多的关注。从1990年到2015年,生物统计学和医学统计学的权重增长相对较快,数理统计和假设检验的权重逐渐下降,回归分析和贝叶斯统计的权重相对持平。在剩下的六个主题中,机器学习增长迅速;从2014年开始,它的重量超过了总体平均水平,潜变量是权重稳步增加的另一个话题。
其次,我们选择几本期刊,并研究每本期刊的年平均主题权重的演变。在第4.4节中,我们通过Stigler模型和PageRank对33种期刊进行了排名,我们选择了平均排名最高的7种期刊:AoS、Biometrika、JASA、JRSSB、Biometrics、Journal ofMachine Learning Research和Statistica Sinica。对于每本期刊,我们获得年平均主题权重并如上所述平滑曲线。结果见附录图4。
图 7a 显示了部分结果,其中每个子面板对应一个主题,不同期刊对同一主题的这些曲线可以用来研究期刊对这个主题的友好性。
我们观察到,在某些时期,一些期刊显然支持某些主题。当这种情况发生时,我们说该杂志对这个话题很友好。图 7b 列出了 11 个主题中最友好的期刊。请注意,一个主题的简短标签可能并不适用于它所涵盖的所有研究主题,而表2包含更完整的信息(例如,时间序列包括纵向数据和生存分析,这就是为什么这个主题在《Biometrics》杂志中占有很高的权重)。在这七种期刊中,《Journal of Machine Learning Research》在机器学习方面的权重明显高于其他主题,《Biometrics》在生物统计学、医学统计学和临床试验方面的权重明显更高,而AoS在数理统计方面的权重明显更高。此外,AoS、Biometrika、JASA和JRSSB这四种期刊传统上被认为是统计方法和理论的领先期刊。在这四种期刊中,AoS对数理统计、统计推断、假设检验、回归分析和实验设计更友好;JASA 对机器学习、生物统计学和医学统计学、临床试验和时间序列更友好;JRSSB 对机器学习、贝叶斯统计和潜变量更友好;Biometrika 对贝叶斯统计和回归分析更友好(JASA 在临床试验、生物统计学和医学统计学方面发表的文章比 Biometrika 多,可能是因为 JASA 有应用和案例研究栏目)。
Topic-SCORE是一个灵活的想法,可以在许多方向上扩展。在本节中,我们通过提出Topic-Ranking-SCORE(TR-SCORE)作为对不同主题的引用影响进行排名的新方法,从而扩展了Topic-SCORE。由于TR-SCORE的直接动机是对MADStat的分析,因此我们在本节中的讨论重点放在MADStat上,但请记住,这个想法在其他应用中是有用的。
在第 4 节中,我们将讨论如何使用引文交换来对不同的期刊进行排名。我们可以将这个想法扩展到主题排名,但存在一个重大挑战:论文或期刊之间的引文交换定义明确且可直接观察,但研究主题之间的引文交换却不然。我们通过结合摘要和引文数据来解决这个问题:我们首先提出了一个联合建模文本摘要和引文的模型,包括一个衡量研究主题之间(未观察到的)引文交换的想法。然后,我们引入了TR-SCORE,并使用它来对不同的主题进行排序,并构建了一个知识图谱,使跨主题的引文交流可视化。
6.1.文摘和引文数据的Hofmann-Stigler模型
我们提出了Hofmann-Stigler模型来联合建模数据矩阵X和C:它结合了第2节的Hofmann主题模型和第4.4节的Stigler模型。我们假设所有的论文摘要都集中在Kdifferent的研究主题,受Stigler模型的启发,我们引入了与主题k相关的导出分数。直观地说,导出分数较高的主题意味着它具有更大的影响。当论文 i 被另一篇论文 j 引用时,我们有两种不同的方法来归因这个特定的引用次数:第一种是正统引文署名 (OCA)。我们只是将引文归因于论文 i。第二种则是主题权重引文归属(Topic weight citation attribution,TWCA)。
在第 4.4 节中,我们讨论了期刊排名,其中 OCA 是一个不错的选择。但对于主题排名而言,TWCA更为合适。
6.2.TR-SCORE
我们建议使用TR-SCORE进行主题排名。输入是 X、C 和主题数 K,输出是估计的导出分数向量。TR-SCORE有三个步骤:1.主题矩阵估计;2.主题权重估计;3.主题排名。
6.3.主题排名和交叉引用图
在第5节中,我们将 Topic-SCORE应用于一组 56,500 篇(预处理)摘要,并确定了 11 个具有代表性的统计学研究主题。我们现在在同一组摘要上使用TR-SCORE,并对所有11个主题进行排名。我们还构建了一个跨主题引文图(作为一种知识图谱),以可视化知识在各个领域的传播,这是现代知识发现领域的一个重要研究课题。该跨主题的引文图是一个具有 11 个节点的加权有向图,每个节点都是一个已发现的主题。
在图 8a 中,有一些有趣的观察结果。首先,实验设计与其他主题的引用交流相对较少,它收到的大部分引用都来自主题本身。其次,回归分析和数理统计是其他主题引用最多的两个主题,而生物统计学和医学统计以及统计推断是其他主题引用次数最多的两个主题。第三,贝叶斯统计、潜变量和机器学习都有相当多的传出和传入引用。最后,假设检验和统计推断形成一对紧密对子,大多数介于两者之间的引用是从统计推断到假设检验;临床试验与生物统计学和医学统计学组成了一对紧密的对子,它们之间的引文交流相对均衡。
然后,我们考虑主题排名。图8b显示了 TRSCORE 对 11 个主题的导出分数。数理统计是排名最高的主题。这是合理的,因为数理统计的重点是数学分析和概率,这可能会对统计学中的其他主题产生长期影响。回归分析和机器学习的排名也很高,这也是可以理解的,因为这两个主题涵盖了许多热门的研究主题(表2)。生物统计学、医学统计学和临床试验的排名相对较低;一个原因是,它们的影响中有很大一部分发生在我们数据范围之外的研究领域。
文本分析是数据科学中一个快速发展的研究领域。在本文中,我们调查了最新的文本分析方法,范围从主题建模到神经语言模型。对于主题建模,我们讨论了锚定词条件、几种不同的算法、最优率以及二元组和监督模型的扩展。特别是,我们专注于 TopicSCORE,这是一种快速算法,具有吸引人的理论特性。对于神经语言模型,我们简要介绍了其关键组件,回顾了流行的 BERT 和词嵌入模型,并讨论了如何应用它们来解决下游 NLP 任务。
我们还提供了一个关于统计学学术出版物的数据集,即MADStat。它是我们自己花了很多精力收集和清洗的。在本文中,我们使用Topic-SCORE算法分析了MADStat中论文的文本摘要。我们确定了 11 个具有代表性的主题,并可视化了统计研究的趋势和模式。我们还提出了Hofmann-Stigler模型,用于联合建模文本摘要和引文数据,以及TR-SCORE算法,用于对11个主题的引文影响进行排序。这些结果不仅是文本分析的应用,而且可以看作是学术统计界的数据驱动的综述。
如今,每天都会产生大量的文本数据。NLP的最新进展彻底改变了我们的日常生活,也为统计学提供了一个巨大的机会。一方面,NLP的统计方法通常是透明的、样本高效的、计算速度快的,并且在理论上易于处理,这使得它们成为许多普通NLP用户的合适选择(他们可能有一个中等规模的特定领域语料库,但无法访问科技巨头拥有的数据和资源)。另一方面,统计文本分析仍然相当不发达。即便是主题建模,也存在许多未解决的问题,比如如何估计主题的数量,在文档极短的情况下如何提高准确性。我们希望这篇综述文章能为对这一领域感兴趣的研究人员提供有用的信息。我们也希望我们收集并与公众分享的MADStat,可以作为一个良好的平台来检验现有方法,并激发文本分析的新研究。
编译 | 白景
审核 | 杨涛
终审 | 李晶晶
©Political理论志