ModelCube阅读列表 | 主题模型

文摘   科学   2024-07-31 07:05   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

1 主题模型的定义

随着文本数量的增加,单单仅靠人力已经无法全部阅读和研究所有的文本。由此机器学习领域的研究人员们开发出了一套旨在发现和标记大规模文档的主题信息的算法——主题模型(Topic Modeling)。主题建模是一种统计方法,它通过分析原文本中的词以发现蕴藏于其中的主题、主题间的联系以及主题随时间的演变,而且不需要事前对文档进行标记。人力所无法完成的文档标记,主题建模算法能够进行组织和归纳。

主题模型是NLP中的一种常用模型,其核心思想是将每篇文档看作多个主题的混合,每个主题由一组词构成。其自动分析每个文档,统计文档内的词语,根据统计的信息来判定包含哪些主题,以及每个主题所占的比例各为多少。该过程可以简单表示为:词 → 主题 → 文本,能够将高维的文本数据降维到低维的主题空间,帮助理解文档隐含的主题结构,有助于文档分类、聚类和信息检索。

2 常见名词解释

2.1 Latent Semantic Analysis(LSA)

潜在语义分析(LSA)是Scott Deerwester等人在1990年提出的一种基于线性代数的方法,通过SVD分解将文档-词矩阵降维。该方法和传统向量空间模型一样使用向量来表示词和文档,并通过向量间的关系来判断词及文档间的关系。不同的是,LSA 将词和文档映射到潜在语义空间,再比较其相似性,从而去除了原始向量空间中的一些噪音,提高了信息检索的精确度。

2.2 Probability Latent Semantic Analysis (PLSA)

概率潜在语义分析(PLSA)由Thomas Hofmann在其1999年的论文中首次提出,其基础是一个概率生成模型,它描述了文档和词汇如何共同生成。通过这个模型,每个文档被表示为一个潜在主题的概率分布,而每个潜在主题则被表示为词汇的概率分布,并使用最大似然估计来学习模型参数。

2.3 Latent Dirichlet Allocation(LDA)

潜在狄利克雷分布(LDA)在2003年的论文《Latent Dirichlet Allocation》中被提出,是一种基于概率图模型的文本主题分析方法。LDA是一个三层贝叶斯模型,其核心思想是将文本主题以概率分布的形式给出,通过分析抽取主题分布后,根据主题分布进行主题聚类或文本分类。LDA 在 PLSA 的基础上引入了先验知识,并为潜在主题的分布提供了一个狄利克雷先验。 通过对大量文档进行建模,LDA可以自动地发现主题并将文档与这些主题关联起来。

2.4  Term Frequency times Inverse Document Frequency(TF-IDF)

词频-逆文档频率矩阵(TF-IDF)是最常用且效果较好的文本表征方法。该矩阵中每行表示一个文档,每列表示一个词,元素表示权重,即该词对文章的重要程度。衡量词的重要性需要考虑两方面:

  • TF:一个词在文档中出现的次数,出现频率越高说明在文档中其重要性越大。所以TF越高,说明该词越重要。

  • IDF:词在整个语料库中出现的次数越多,对于某一篇文章而言就越不重要。所以用逆文档频率(IDF)来表示重要程度,即该词在语料库中出现次数越少,IDF值越高,代表该词越重要。在现实中,词在语料中的频率往往呈指数型,故对逆文档频率取对数使文档频率的差别就从乘数变成了加数级了。

  • 综合以上两个因素,用TF-IDF值即两者的乘积来衡量该词的重要性。

2.5 Maximum likelihood estimation(MLE)

最大似然估计(MLE)是用来估计一个概率模型参数的一种方法,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。

给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为  ,以及一个分布参数,可以从该分布中获得具有 值的采样 ,计算出似然函数:


获得似然函数之后,找到能最大化概率函数的参数 即可:


2.6 Bayes parameter estimation(BPE)

贝叶斯参数估计(BPE)用于估计未知参数的概率分布。基本思想是将先验知识与新的数据相结合,从而获得更精确的估计值。相比于传统的频率学派方法,其优势在于能够更好地应对样本量较小、模型更加复杂或参数更加多样化的情况。贝叶斯估计没有将参数估计问题转化为最优化问题,而是直接用参数的期望作为估计值。

首先,利用贝叶斯公式修正参数的先验分布,得到参数的后验分布:


然后,计算参数的后验期望作为参数估计值:


2.7 Variational Inference(VI)

变分推断(VI)是一种用于近似计算复杂模型后验分布的方法。它通过寻找最接近真实后验分布的简单分布来近似真实后验分布,从而避免了直接计算复杂后验分布所需的高计算成本。该过程将推断问题转换成为了优化ELBO问题的优化过程。

变分推断假设了一个参数化数族模型,这会导致结果有一点偏差和较低的方差值,但是计算速度更快,具有更好的收敛性和可扩展性,更适合数据规模较大的统计问题。EM算法由于函数形式不太复杂,某种程度上可以看作变分推断的特例。

2.8 Expectation-Maximum(EM)

Expectation-Maximum算法(EM)是一种迭代优化策略,为最大似然估计提供了一个参数优化框架。其基本思想是:首先根据已给出的观测数据,估计出模型参数的值;然后依据估计值估计缺失数据的值,再根据估计出的缺失数据加上已经观测到的数据重新再对参数值进行估计;然后反复迭代,直至最后收敛。

由于计算方法中每次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以被称为EM。其中E步计算联合分布的条件概率期望:


M步极大化 ,得到 :


3 主题模型方法总结

3.1 LDA

LDA是后续一系列主题模型研究的基础,其在PLSA的基础上引入狄利克雷先验分布,基于贝叶斯模型,利用先验分布对数据进行似然估计并最终得到后验分布的一种方式。其假设每篇文档由多个主题组成,每个主题由多个词组成。LDA包含三个层次:语料库级别,对应参数 ;文档级别,对应参数;单词级别变量

  • M为文档数,每篇文档有N个单词,一共涉及K个主题。
  • 每篇文档的主题为多项式分布,其参数服从狄利克雷分布,该分布的参数为 ;每个主题的词为多项式分布,其参数服从狄利克雷分布,该分布的参数为
  • 每篇文档的主题分布为向量 ,每个主题的词分布为向量
  • 在主体分布 下可以得到具体的主题 ,再由 可以确定对应单词,最终可以得到观测值

下图展示了一个示例结果,其中数据选自TREC AP语料库,每种颜色对应不同的主题。

Latent Dirichlet Allocation[1]. David M. Blei, Andrew Y. Ng, Michael I. Jordan. JMLR 2003.

3.2 Parameter Estimation

本文介绍了与离散概率分布常用的参数估计方法,这在文本建模中特别感兴趣。从最大似然估计、后验估计和贝叶斯估计开始,回顾了共轭分布和贝叶斯网络等中心概念。作为一个应用,详细解释了潜在狄利克雷分配(LDA)模型,并完整推导了基于Gibbs抽样的近似推理算法,包括狄利克雷超参数估计的讨论。最后,讨论了LDA模型的分析方法。

Parameter estimation for text analysis[2]. Gregor Heinrich. Technical report 2005.

3.3 Dynamic Topic Model(DTM)

LDA最大的问题是忽略了许多文档集合中存在的时间,动态主题模型(DTM)相比于LDA,引入了时间动态的概念,后一时刻的主题从前一时刻演化而来,可以很好的建模主题变化。DTM保留了LDA的生成过程,特别之处就在于主题分布和词语分布是随时间变化的,分布的参数是以前一个时间片的相应值为中心的分布中提取的。

下图的分层方式和参数的含义与LDA模型中相同,新引入变分参数——均值参数 和方差参数 。其中文档主题比例先验 也被作为动态考虑,但实际中往往只考虑 的变化,将 设定为常数即可;文档层面的参数   没有受到动态建模影响的,只需确保使用 时刻的 参数值。该过程中使用卡尔曼滤波对隐状态进行估计。

DTM进一步完善了LDA的细节和推导,也证明了LDA可以被认为是文本和其它离散数据的概率建模的基本构建块,并可用于开发更复杂和面向应用的模型如分层模型、将内容和关系数据(如社交网络)组合起来的模型,或包含以高斯域建模的多媒体特征的模型。

Dynamic Topic Models[3]. David M. Blei, John D. Lafferty. ICML 2006.

3.4 cDTM

本文中,我们开发了连续时间动态主题模型(cDTM)。cDTM是一种动态主题模型,它使用布朗运动来通过一系列文档的顺序收集来模拟潜在的主题,其中“主题”是我们预计在收集过程中发展的单词使用模式。我们推导了一种有效的变分近似推理算法,利用文本中观察值的稀疏性,这一特性使我们能够轻松处理许多时间点。与cDTM相比,原始的离散时间动态主题模型(dDTM)要求将时间离散化。此外,随着时间粒度的增加,dDTM的变分推理复杂性迅速增长,这一缺点限制了细粒度的离散化。我们在两个新闻语料库上展示了cDTM,报告了预测困惑度和一个新的时间戳预测任务。

Continuous Time Dynamic Topic Models[4]. Chong Wang, David Blei, David Heckerman. UAI (2008).

3.5 Evaluation of Topic Models

主题模型可以学习高度可解释、语义一致的主题,并且可以类似地用于主题词条。但有时学习到的主题只是一串没有传达太多有用信息的单词。我们提出了评分主题有用性的模型,包括一个基于词对点互信息(PMI)的模型。我们的PMI评分,通过使用来自外部数据源的词对共现统计数据计算得出,与人类评分有相对较好的一致性。我们还表明,识别不那么有用的主题可以提高基于主题的文档相似度度量的结果。

External Evaluation of Topic Models[5]. David Newman, Sarvnaz Karimi, Lawrence Cavedon. Australasian Doc. Comp. Symp. (2009).

3.6 Topic coherence

本文介绍了主题一致性评估这一新颖任务,即对由主题模型生成的词集进行一致性或可解释性的评分。我们将一系列主题评分模型应用于评估任务,利用了WordNet、维基百科和谷歌搜索引擎,以及现有的词汇相似性/相关性研究。与两个不同数据集上学习得到的一组主题的人类评分相比,我们展示了基于维基百科数据点的简单共现度量,基于点互信息的方法能够达到或接近标注者之间一致性系数的水平,并且其他基于维基百科的词汇相关性方法也取得了强大的结果。谷歌产生了强大的,但不太一致的结果,而我们在WordNet上的结果最多是零散的。

Automatic Evaluation of Topic Coherence[6]. David Newman, Jey Han Lau, Karl Grieser, Timothy Baldwin. NAACL 2010.

3.7 Optimizing Semantic Coherence in Topic Models

潜在变量模型有望通过发现可解释的低维子空间来增加大型文档集合的价值。然而,为了让人们使用这些模型,他们必须信任它们。不幸的是,文本的典型维度降低方法,如隐含狄利克雷分配,通常会产生显然对人类领域专家有缺陷的低维子空间(主题)。本文的贡献三个方面:(1)对主题可能存在的缺陷进行分析;(2)一种自动评估指标,用于识别这些主题,而不依赖于人类标注者或训练数据之外的参考集合;(3)基于此指标的新型统计主题模型,它显著提高了国家卫生研究院(NIH)的一个大型文档集合中的主题质量。

Optimizing Semantic Coherence in Topic Models[7]. David Mimno, Hanna Wallach, Edmund Talley, Miriam Leenders, Andrew McCallum. EMNLP 2011.

3.8 DADT

作者归属问题是确定匿名文本作者的问题。基于我们早期的发现,潜在狄利克雷分配(LDA)主题模型可以用来提高作者归属的精度,我们展示了在许多作者的情况下使用之前建议的作者-主题(AT)模型可以超越LDA。此外,我们定义了一个模型,该模型通过在两个不重叠的主题集上表示作者和文档来结合LDA和AT,并展示了在我们的模型在许多作者的数据集上超越了LDA、AT和支持向量机。

Authorship Attribution with Author-aware Topic Models[8]. Yanir Seroussi, Fabian Bohnert, Ingrid Zukerman. ACL 2012.

3.9 cFTM

提出了一个非参数贝叶斯上下文关注主题模型(cFTM)。cFTM为每个文档推断出一个稀疏的(“关注”)主题集,同时利用关于作者和文档发布地点的上下文信息。层次贝塔过程与伯努利过程相结合,用于推断与每位作者和每个地点相关联的关注主题集;同样的构造也用于推断与给定文档相关联的、相对于推断的可能属于相关作者和地点的主题而言不寻常的主题(称为“随机效应”)。为了利用统计强度并推断作者和地点之间的潜在相互关系,使用狄利克雷过程对作者和地点进行聚类。cFTM自动推断出表示语料库所需的主题数、作者和地点簇的数量以及作者、地点和随机效应信息对给定文档中单词分配的概率重要性。提出了有效的MCMC推断。对于两个实际数据集展示了示例结果和解释,证明了良好的性能,并与其他最先进的方法进行了比较。

The Contextual Focused Topic Model[9]. Xu Chen, Mingyuan Zhou, Lawrence Carin. KDD 2012.

3.10 Biterm Topic Model(BTM)

LDA在处理短文本(比如直播间弹幕,微博文本等),会因为文本中的词过于稀疏,得到模型的效果不够好。2013年的论文《A Biterm Topic Model for Short Texts》提出了BTM模型,并说明在短文本上BTM的表现要比LDA好,即使是长文本BTM的效果也不比LDA弱。

BTM在LDA基础上,使用Biterm建模:首先抽取词对,对于短文本取一个文档中的任意两个词对 ,对于长文本在一定窗长内取词(一般30~60效果较好);然后通过Biterm对文档集合进行建模。其效果要比一个词建模要能更好的显示文章的隐藏主题。其他参数与方法与LDA类似。

A Biterm Topic Model for Short Texts[10]. Xiaohui Yan, Jiafeng Guo, Yanyan Lan, Xueqi Cheng. WWW 2013.

3.11 BPT

从科学文章中挖掘知识最近受到了越来越多的关注,因为互联网和数字数据库的发展使得巨大的存档变得可用。在一个科学文章集合(如数字图书馆)中,文档通过引用相互连接,一个文档在语料库中扮演两种不同的角色:文档本身和他引用的其他文档。在现有的主题模型中,很少有努力去区分这两种角色。我们相信这两种角色的主题分布是不同的,且以某种方式相关联。在本文中,我们提出了一个伯努利过程主题(BPT)模型,该模型考虑了语料库的两个层次:文档层次和引用层次。在BPT模型中,每个文档在其角色的隐主题空间中具有两种不同的表示。此外,引用网络的多层次层次结构通过涉及伯努利过程的生成过程来捕捉。BPT模型的分布参数通过变分逼近方法进行估计。提出了一种高效的计算算法,以克服矩阵求逆操作的困难。除了在文档建模和文档聚类任务上进行实验评估外,我们还将BPT模型应用于著名的语料库,以发现潜在主题、推荐重要引用、检测1991年至1998年计算机科学各个研究领域的研究趋势,以及研究各研究领域之间的相互作用。与最先进的方法的比较表明,性能非常令人鼓舞。

A Two-Level Topic Model Towards Knowledge Discovery from Citation Networks[11]. Zhen Guo, Mark Zhang, Shenghuo Zhu, Yun Chi, Yihong Gong, Z. M. Zhang. TKDE 2014.

3.12 Neural Topic Model(NTM)

NTM模型于2015年由论文《A Novel Neural Topic Model and Its Supervised Extension》提出,其将深度学习和主题模型结合起来。和传统概率主题模型不同,其无需指定任何的先验分布。这样不仅能解决模型计算的复杂性还能给隐层的变量提供合理的解释,同时可以方便的扩展到有标签的监督任务,有助于监督主题分布的形成。

模型使用了两个隐藏层n-gram topic和topic-documen来产生分布t,两个的乘积表示在文档中的可能性。n-gram 嵌入层目标是用word embedding表示每个n-gram,使用Word2Vec在谷歌新闻数据集上训练得到了3百万个单词和短语的300维的向量表示。n-gram-topic层代表了输入的主题表示。Topic-document 层将表示为向量的文档转化为主题分布。

A Novel Neural Topic Model and Its Supervised Extension[12]. Ziqiang Cao, Sujian Li, Yang Liu, Wenjie Li, Heng Ji. AAAI 2015.

3.13 Topical Word Embeddings(TWE)

词嵌入(Word Embedding)能捕捉单词的语义信息又能捕捉单词的相似性,因此广泛应用于各种NLP任务中。大多数词嵌入模型通常使用单个向量来表示每个单词,因此这些模型无法区分同音异义和一词多义的情况。

主题词嵌入(TWE)是一种多原型单词嵌入框架,允许每个词在不同的主题下有不同的嵌入向量。例如,“苹果”这个词在食物主题下表示一个水果,而在IT主题下代表一个IT公司。其采用潜在的主题模型为文本语料库中的每个词分配主题,并基于词和主题来学习,这样可以灵活地获得情景词嵌入,以此来衡量情景中单词相似性。

如图所示,TWE-1将每个主题视为一个伪词(pseudo word),分别学习主题向量和词向量;TWE-2将每个单词-主题对视为一个伪词,直接学习到主题词向量;TWE-3分别为每个词和每个主题保留不同的嵌入向量,通过连接相应的单词和主题向量来建立每个单词-主题对的向量。该模型在相似度任务和文本分类中均有不错表现。

Topical Word Embeddings[13]. Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. AAAI 2015.

3.14 Latent Feature Topic Model(LFTM)

LFTM模型使用在大型外部语料库上训练的潜在特征来补充小语料库上的多项式主题模型,把传统LDA的主题生成词的狄利克雷分布替换为狄利克雷分布和潜在特征的混合体。与基准模型相比,利用大语料库中的外部信息来帮助改进主题到词映射的方法,在主题连贯性和文档主题分配方面表现更好。模型具体实现如图所示。

  • 是新增的两个表示词和主题的潜在特征权重向量。 是通过外部预料预先训练得到的词向量,所以是固定的。
  • 表示一个词由潜在特征Topic2word模型生成的概率,与伯努利分布相关联。
  • 是一个由伯努利分布获得二元变量,用来判断词是否由Dirichlet分布产生或者是否是潜在特征的组成部分。

Improving Topic Models with Latent Feature Word Representations[14]. Dat Quoc Nguyen, Richard Billingsley, Lan Du, Mark Johnson. TACL 2015.

3.15 Gaussian-LDA

从大规模、无结构的语料库中学习得到的连续空间词嵌入已被证明在捕捉语言中的语义规律性方面是有效的。在本文中,我们用嵌入空间上的多变量高斯分布替换LDA中“主题”的参数化,这种分布是对不透明词类型进行分类分布。这促使模型将先验已知语义相关的词聚集到主题中。为了进行推断,我们引入了一种基于Cholesky分解的后验预测分布的协方差矩阵的快速收缩Gibbs采样算法。我们进一步推导出一个可扩展的算法,该算法从过时的后验预测分布中抽取样本,并通过Metropolis-Hastings步骤对其进行校正。使用从领域通用语料库(英文维基百科)学习得到的向量,我们在两个文档集合(20-newsgroups和NIPS)上报告了结果。从质量上讲,高斯LDA推断出的主题与标准LDA相比是不同的(但仍然非常合理)。从数量上讲,我们的技术在处理保留文档中的OOV(未知词)方面优于现有模型。

Gaussian LDA for Topic Models with Word Embeddings[15]. Rajarshi Das, Manzil Zaheer, Chris Dyer. ACL 2015.

3.16 GMTM

我们提出了一种针对短文本的无监督主题模型,该模型在词的分布式表示上执行软聚类。我们使用高斯混合模型(GMMs)来建模由词的密集分布式表示表示的低维语义向量空间,其组件捕捉隐主题的概念。尽管传统的主题建模方案,如概率潜在语义分析(pLSA)和潜在狄利克雷分配(LDA),需要将短消息聚合以避免短文档中的数据稀疏性,但我们的框架可以处理大量的原始短文本(数十亿个词)。与使用词共现统计的其他主题建模框架不同,我们的框架使用一个向量空间模型,该模型克服了稀疏词共现模式的问题。我们通过主观和客观评估证明了我们的框架在短文本上优于LDA。我们还展示了我们的框架在基于Twitter数据的英语、西班牙语、法语、葡萄牙语和俄语学习主题和分类短文本方面的实用性。

Unsupervised Topic Modeling for Short Texts Using Distributed Representations of Words[16]. Vivek Kumar, Rangarajan Sridhar. NAACL 2015.

3.17 Topic2Vec

潜在狄利克雷分配(LDA)在自然语言处理和机器学习领域中挖掘文档的主题结构扮演着重要的角色。然而,LDA产生的概率分布仅描述了语料库中出现的统计关系,而且在实践中,概率通常不是特征表示的最佳选择。最近,嵌入方法已经被提出来通过学习基本概念和表示来表示词和文档,例如Word2Vec和Doc2Vec。嵌入表示在许多任务中已经显示出比LDA风格的表示更有效果。在本文中,我们提出了Topic2Vec方法,它可以在与词相同的语义向量空间中学习主题表示,作为一种概率的替代方法。实验结果表明,Topic2Vec取得了有趣且有意义的结果。

Topic2Vec: Learning Distributed Representations of Topics[17]. Li-Qiang Niu, Xin-Yu Dai. IALP 2015.

3.18 TopicVec

词嵌入通过利用小上下文窗口中的局部词共现模式,将单词映射到低维的连续嵌入空间中。另一方面,主题建模通过利用同一文档中的全局词共现模式,将文档映射到低维的主题空间中。这两种模式是互补的。在本文中,我们提出了一种生成式主题嵌入模型,以结合这两种模式。在我们的模型中,主题由嵌入向量表示,并且在文档之间共享。每个单词的概率受其局部上下文和其主题的共同影响。变分推断方法生成了每个文档的主题嵌入以及主题混合比例。它们共同将文档表示在一个低维的连续空间中。在两个文档分类任务中,我们的方法比八个现有方法表现更好,使用的特征更少。此外,我们通过一个例子说明,即使仅基于一个文档,我们的方法也能生成连贯的主题。

Generative Topic Embedding: a Continuous Representation of Documents[18]. Shaohua Li, Tat-Seng Chua, Jun Zhu, Chunyan Miao. ACL 2016.

3.19 SLRTM

我们提出了句子级循环主题模型(SLRTM),这是一种新的主题模型,它假设一个句子中每个词的生成取决于该句子的主题以及其前面所有单词在整个句子中的历史。与传统主题模型主要忽略单词的序列顺序或它们的主题一致性不同,SLRTM通过使用基于循环神经网络(RNN)的框架,全面描述了这些内容。实验结果表明,SLRTM在各种任务上超过了几个强大的基线。此外,SLRTM可以自动生成给定主题的句子(即主题到句子),这是个性化短文本对话等现实世界应用的关键技术。

Sentence Level Recurrent Topic Model: Letting Topics Speak for Themselves[19]. Fei Tian, Bin Gao, Di He, Yan Liu. arXiv 2016.

3.20 HGTM

在本文中,我们介绍了一种新的主题模型,通过使用标签图来理解混乱的微博环境。在许多重要的应用中,推断Twitter上的主题变得至关重要但具有挑战性。微博的简短和非正式性质导致了大规模词汇表中的极端稀疏向量表示。这使得传统主题模型(例如,潜在狄利克雷分配[1]和潜在语义分析[2])无法学习高质量的主题结构。微博总是伴随着丰富的用户生成的标签。标签使得微博在内部半结构化并且彼此之间在语义上相关。由于标签在微博中被用作关键词来标记消息或形成对话,它们为连接语义相关的单词提供了额外的路径。在本文中,将微博视为半结构化文本,我们提出了一种新主题模型,称为标签图基于主题模型(HGTM),以发现微博的主题。通过利用标签图中的标签关系信息,HGTM即使单词在特定的微博中没有共现,也能够发现单词的语义关系。采用这种方法,HGTM成功缓解了稀疏性问题。我们的研究说明,用户贡献的标签可以作为主题建模的弱监督信息,标签之间的关系可以揭示单词之间的潜在语义关系。我们在微博(标签)聚类和标签分类问题上评估了HGTM的有效性。在两个现实世界的微博数据集上的实验表明,HGTM具有强大的处理微博中的稀疏性和噪声问题的能力。此外,HGTM可以发现比最先进的基线更具区分性和连贯性的主题。

Using Hashtag Graph-Based Topic Model to Connect Semantically-Related Words Without Co-Occurrence in Microblogs[20]. Yuan Wang, Jie Liu, Yalou Huang, Xia Feng. TKDE 2016.

3.21 TopicRNN

基于神经网络的模型在NLP领域得到了广泛的应用,但是不能捕获较长序列中词语的依赖关系。TopicRNN将深度学习中有效的序列模型RNN和文档分析领域中有效的主题表示相结合,既能通过RNN捕获局部关系,又能利用潜在主题捕获全局关系

该模型针对每篇文档,产生一个基于高斯分布的主题向量,针对文档中的每个词语基于当前词隐含状态的伯努利分布来决定当前词是否为停用词,然后过滤停用词。TopicRNN将主题模型得到的全局语义信息直接传到RNN softmax输出层,来获得上下文信息。该模型在词语预测和文本分类任务中均有很好表现。

TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency[21]. Adji B. Dieng, Chong Wang, Jianfeng Gao, John Paisley. ICLR 2017.

3.22 L-EnsNMF

非负矩阵分解(NMF)与SVD不同,其目标是将矩阵分解为两个矩阵。将NMF用于主题模型,主要是由文本和主题的概率相关度与词和主题的概率相关度,来获得对应文本对应词的特征词。NMF主要用于大规模文档的主题建模,然而所得到的主题往往只表示关于数据的一般性冗余信息,而不是对用户来说可能有意义的次要信息。在后续的一系列研究中也提出了一系列的改进方法。

L-EnsNMF(Local Ensemble NMF)提出了一种新颖的非负矩阵分解集成模型,用于发现高质量的局部主题。该模型利用集成模型的思想,通过给定一阶段得到的残差矩阵逐步执行NMF,并生成一系列主题集合。该方法创新之处在于利用了一个受到先进梯度提升模型启发的残差矩阵,并在给定矩阵上应用复杂的局部加权方案,以增强主题的局部性,从而向用户提供高质量、聚焦的感兴趣主题。

Local Topic Discovery via Boosted Ensemble of Nonnegative Matrix Factorization[22]. Sangho Suh, Jaegul Choo, Joonseok Lee, Chandan K Reddy. IJCAI 2017.

3.23 RATM-D

在文档中,一个句子的主题分布取决于之前句子的主题和它自己的内容,并且通常会受到之前句子主题的不同程度的影响。自然地,可以将文档视为句子的序列。大多数现有的贝叶斯文档建模工作没有考虑这些方面。为了填补这一空白,我们提出了一个用于文档嵌入的循环注意力主题模型(RATM)。RATM不仅利用了句子之间的序列顺序,还使用注意力机制来建模连续句子之间的关系。在RATM中,我们提出了一种循环注意力贝叶斯过程(RABP)来处理序列。基于RABP,RATM充分利用了文档中句子的序列信息。在两个语料库上的实验表明,我们的模型在文档建模和分类方面超过了最先进的方法。

Recurrent Attentional Topic Model[23]. Shuangyin Li, Yu Zhang, Rong Pan, Mingzhi Mao, Yang Yang. AAAI 2017.

3.24 RIBS-TM

在我们日常生活中,尤其是社交网络出现后,简短文本无处不在。在线媒体如Twitter、在线问答网站等等都有无数的简短文本。在各种应用领域,如内容推荐和文本特征提取,发现话题是非常有价值的。传统的主题模型如LDA被广泛应用于各种任务,但是在处理简短文本时,由于词汇量不足,这些模型可能会陷入困境。最近,一个名为BTM的流行模型通过使用词汇共现关系来解决稀疏问题,并已被证明是有效的。然而,BTM及其扩展模型都忽略了词汇之间的内在关系。我们认为,在同一个话题中,应该出现更多相关的词汇。基于这个想法,我们提出了一种名为RIBS-TM的模型,该模型利用RNN进行关系学习,并使用IDF过滤高频词汇。在两个真实世界的简短文本数据集上的实验结果显示,我们的模型具有很大的实用性。

Don't Forget the Quantifiable Relationship between Words: Using Recurrent Neural Network for Short Text Topic Discovery[24]. Heng-Yang Lu, Lu-Yao Xie, Ning Kang, Chong-Jun Wang, Jun-Yuan Xie. AAAI 2017.

3.25 CLM

一个文本语料库通常包含两种类型的上下文信息——全局上下文和局部上下文。全局上下文携带话题信息,这可以被话题模型利用来从文本语料库中发现话题结构,而局部上下文可以训练词嵌入来捕捉反映在文本语料库中的语义规律。这促使我们探索全局和局部上下文信息中的有用信息。在本文中,我们提出了一个基于矩阵分解技术的统一语言模型,该模型 1) 同时考虑互补的全局和局部上下文信息,2) 建模话题并协同学习词嵌入。我们通过实验证明,通过结合全局和局部上下文,这种协同模型不仅可以显著提高话题发现的表现,超过基线话题模型,而且比基线词嵌入模型学习更好的词嵌入。我们还提供了定性分析,解释了全局和局部上下文信息的协同如何导致更好的话题结构和词嵌入。

Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts[25]. Guangxu Xun, Yaliang Li, Jing Gao, Aidong Zhang. KDD 2017.

3.26 GPU-PDMM

许多应用需要对短文本进行语义理解,而推断具有辨别力和连贯性的潜在话题是在这些应用中关键且基础的任务。传统的主题模型主要依靠词汇共现来从文档集合中提取话题。然而,由于每个文档的长度,短文本在词汇共现方面要稀疏得多。最近的研究表明,Dirichlet Multinomial Mixture (DMM) 模型通过假设每个短文本只由一个主题生成,对于短文本的话题推断是有效的。然而,DMM有两个主要的局限性。首先,尽管由于短文本的长度,假设每个短文本只有一个话题似乎是合理的,但“短小”的定义是主观的,短文本的长度依赖于数据集。也就是说,单一主题的假设对于某些数据集可能过于强烈。为了解决这个局限性,我们提出将主题数量建模为泊松分布,允许每个短文本与一个小数量的 主题(例如,1到3个主题)相关联。这个模型被称为PDMM。其次,DMM(以及PDMM)在建模短文本时无法访问背景知识(例如,词汇之间的语义关系)。当一个人解释一段短文本时,理解不仅仅基于其内容词汇,还取决于它们的语义关系。最近在词嵌入方面的进步为我们有效学习词汇语义关系提供了一种方法。这种辅助词嵌入使我们能够解决第二个局限性。为此,我们提出在采样过程中使用广义Pólya urn (GPU) 模型,促进同一主题下语义相关的词汇。通过GPU模型,可以轻松利用从数百万外部文档中学习到的关于词汇语义关系的背景知识,以改善短文本的主题建模。通过直接将GPU模型扩展到PDMM模型,我们提出了两种更有效的针对短文本的主题模型,分别命名为GPU-DMM和GPU-PDMM。在两种语言的两个真实世界短文本集合上的广泛实验表明,PDMM在主题一致性方面优于现有最先进模型。学习到的主题表示在文本分类任务中导致了更好的准确度,作为一种间接评估。GPU-DMM和GPU-PDMM进一步提高了话题一致性和文本分类准确度。尽管GPU-PDMM在计算成本方面高于GPU-DMM,但它的话题一致性表现更佳。

Enhancing Topic Modeling for Short Texts with Auxiliary Word Embeddings[26]. Chenliang Li, Z. Ma. TOIS 2017.

3.27 DC-NMF

随着从各种来源可用的大量文本数据的不断增加,无监督聚类和主题建模的重要性已经被广泛认可。非负矩阵分解(NMF)已被证明是在未标记数据集中发现聚类和话题的成功方法。在本文中,我们提出了一种使用分治策略计算NMF的快速算法,称为DC-NMF。给定一个输入矩阵,其中列表示数据项,我们使用最近提出的一个有效算法来计算rank-2的NMF,构建数据项的二进制树结构,然后从树中收集信息以初始化rank-k的NMF,该NMF只需少数迭代就能达到所需的解决方案。我们还研究了在生长树时选择分隔节点的各种标准。我们通过将其与其他常用的最先进算法进行比较,证明了我们的算法在计算通用rank-k NMF的可扩展性以及在大规模文本数据集上进行聚类和主题建模的有效性。所提出方法的价值在于其高效且精确的初始化rank-k NMF的方法以及算法分治方法和rank-2 NMF的性质带来的可扩展性。总之,我们提供了有效的工具来分析大规模文本数据。

DC-NMF:nonnegative matrix factorization based on divide-and-conquer for fast clustering and topic modeling[27]. Rundong Du, Da Kuang, Barry Drake, Haesun Park. J. Global Optimization 2017.

3.28 NMF boosted

主题模型能够为我们提供大量文档集潜在的底层结构的洞察。文献中已经提出了各种方法,包括概率主题模型和基于矩阵分解的技术。然而,在这两种情况下,标准的实现都依赖于它们的初始化阶段中的随机元素,这可能会导致在同一数据集上使用相同参数值时生成不同的结果。这对应于之前在 KMeans 聚类背景下研究过的“不稳定性”概念。在许多主题建模的应用中,这个问题的不稳定性没有被考虑,主题模型被视为是确定的,即使如果改变了初始化过程,结果可能会有很大的不同。在本文中,我们使用一系列新的指标来评估稳定性,展示了流行主题建模方法固有的不稳定性。为了解决在主题建模的矩阵分解背景下这个问题,我们提出了使用集成学习策略。基于在标注文本语料库上进行的实验,我们展示了 K-Fold 集成策略,结合了集成和结构化初始化,可以显著减少不稳定性,同时产生更精确的主题模型。

Stability of topic modeling via matrix factorization[28]. Mark Belford, Brian Mac Namee, Derek Greene. Expert Syst. Appl..

3.29 COTM

用户评论作为一种大量的在线短文本,随着在线通信的发展而日益普遍。这些短文本的特点是与通常较长的正常文档共同出现。例如,可能会有一篇新闻文章后跟着多条用户评论,或者一篇博客文章后跟着多条读者评论。这种文本语料库中固有的共同出现结构对于高效学习话题很重要,但通常被传统的主题模型所忽视。为了捕捉这种结构,我们提出了一个适用于共同出现文档的主题模型,称为 COTM。在 COTM 中,我们假设存在两组主题:正式主题和非正式主题,其中正式主题可以出现在正常文档和短文本中,而非正式主题只能出现在短文本中。每个正常文档都有一个概率分布,作用于一组正式主题;每个短文本由两个主题组成,一个来自正式主题集合,其选择受对应正常文档的主题概率控制,另一个来自非正式主题集合。我们还为 COTM 开发了一个在线算法,以处理大规模语料库。在现实世界数据集上的大量实验表明,COTM 和其在线算法通过发现更突出、连贯且全面的主题,优于现有最先进的方法。

A topic model for co-occurring normal documents and short texts[29]. Yang Yang, Feifei Wang, Junni Zhang, Jin Xu, Philip S. Yu.  WWW 2018.

3.30 iDocNADE

我们解决了主题模型中的两个挑战:(1) 单词周围的上下文信息有助于确定它们的实际意义,例如,在不同上下文中“网络”的使用,如人工神经网络与生物神经网络。生成式主题模型推断主题-单词分布,但并未或只考虑了很少的上下文。在这里,我们将神经自动回归主题模型扩展到以语言建模的方式利用文档中单词周围的全部上下文信息。所提出的模型命名为 iDocNADE。(2) 由于短文本中单词的出现次数较少(即缺乏上下文)以及少数文档的语料库中数据稀疏,因此在这样的文本上应用主题模型具有挑战性。因此,我们提出了一种简单有效的方法,将外部知识融入神经自动回归主题模型中:我们使用嵌入作为分布先验。所提出的变体命名为 DocNADEe 和 iDocNADEe。我们提出了新的神经自动回归主题模型变体,这些变体在泛化能力、可解释性(主题一致性)和适用性(检索和分类)方面一致优于最先进的生成式主题模型,这些模型经过了来自不同领域的 7 个长文本和 8 个短文本数据集的测试。

Document Informed Neural Autoregressive Topic Models with Distributional Prior[30]. Pankaj Gupta, Yatin Chaudhary, Florian Buettner, Hinrich Schütze. IAAI 2019.


参考资料
[1]

Latent Dirichlet Allocation: http://modelcube.cn/paper/detail/2367031

[2]

Parameter estimation for text analysis: http://modelcube.cn/paper/detail/344

[3]

Dynamic Topic Models: http://modelcube.cn/paper/detail/2727615

[4]

Continuous Time Dynamic Topic Models: http://modelcube.cn/paper/detail/400112

[5]

External Evaluation of Topic Models: http://modelcube.cn/paper/detail/343

[6]

Automatic Evaluation of Topic Coherence: http://modelcube.cn/paper/detail/2465836

[7]

Optimizing Semantic Coherence in Topic Models: http://modelcube.cn/paper/detail/2459895

[8]

Authorship Attribution with Author-aware Topic Models: http://modelcube.cn/paper/detail/2440785

[9]

The Contextual Focused Topic Model: http://modelcube.cn/paper/detail/2700631

[10]

A Biterm Topic Model for Short Texts: http://modelcube.cn/paper/detail/2608809

[11]

A Two-Level Topic Model Towards Knowledge Discovery from Citation Networks: http://modelcube.cn/paper/detail/2700630

[12]

A Novel Neural Topic Model and Its Supervised Extension: http://modelcube.cn/paper/detail/2403793

[13]

Topical Word Embeddings: http://modelcube.cn/paper/detail/2403806

[14]

Improving Topic Models with Latent Feature Word Representations: http://modelcube.cn/paper/detail/2469434

[15]

Gaussian LDA for Topic Models with Word Embeddings: http://modelcube.cn/paper/detail/2439578

[16]

Unsupervised Topic Modeling for Short Texts Using Distributed Representations of Words: http://modelcube.cn/paper/detail/2475946

[17]

Topic2Vec: Learning Distributed Representations of Topics: http://modelcube.cn/paper/detail/687403

[18]

Generative Topic Embedding: a Continuous Representation of Documents: http://modelcube.cn/paper/detail/2439182

[19]

Sentence Level Recurrent Topic Model: Letting Topics Speak for Themselves: http://modelcube.cn/paper/detail/340

[20]

Using Hashtag Graph-Based Topic Model to Connect Semantically-Related Words Without Co-Occurrence in Microblogs: http://modelcube.cn/paper/detail/2727616

[21]

TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency: http://modelcube.cn/paper/detail/2518768

[22]

Local Topic Discovery via Boosted Ensemble of Nonnegative Matrix Factorization: http://modelcube.cn/paper/detail/2372841

[23]

Recurrent Attentional Topic Model: http://modelcube.cn/paper/detail/2727617

[24]

Don't Forget the Quantifiable Relationship between Words: Using Recurrent Neural Network for Short Text Topic Discovery: http://modelcube.cn/paper/detail/2727618

[25]

Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts: http://modelcube.cn/paper/detail/2727619

[26]

Enhancing Topic Modeling for Short Texts with Auxiliary Word Embeddings: http://modelcube.cn/paper/detail/2700629

[27]

DC-NMF:nonnegative matrix factorization based on divide-and-conquer for fast clustering and topic modeling: http://modelcube.cn/paper/detail/2700628

[28]

Stability of topic modeling via matrix factorization: http://modelcube.cn/paper/detail/871909

[29]

A topic model for co-occurring normal documents and short texts: http://modelcube.cn/paper/detail/2727620

[30]

Document Informed Neural Autoregressive Topic Models with Distributional Prior: http://modelcube.cn/paper/detail/2401134


阅读原文,了解更多信息:ModelCube一站式人工智能科研平台

http://modelcube.cn/paper/reading-list-detail/37

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章