读者福利
添加客服回复“LDA主题模型法”
获取15篇范文
一、 基本概念
LDA(Latent Dirichlet Allocations)主题模型又叫潜在狄利克雷分布模型,是一种非监督学习算法,包括文档-主题和主题-词语概率分布。该模型通过分析非结构化文本数据中的词语信息对一系列文档中的主题进行抽象和聚类,从而实现文本分类,也能够发掘语料库中英藏的主题模式,根据主题对文档进行标注并利用标注对文档进行组织、整理、归纳和检索。
二、 发展历史
1.LDA主题模型的诞生
从1969年出现的经典向量空间模型(VSM),到20世纪90年代出现的潜在语义分析(LSA)模型,再到21世纪初期出现的概率隐性语义分析(PLSA)模型,分析工具在一步步发展,同时需要分析的文本的规模也在不断增长。一直到2003年,Blei根据PLSA模型的缺陷,对该模型进行了贝叶斯改进,得到了LDA模型。
2.LDA主题模型的发展
发展阶段:
LDA主题模型的提出为解决文本内容的分类和深层次信息挖掘带来了新的思路,从而提高了文本内容分类有效性和文本内容相似性分析的速度以及效率。该模型在文献主题挖掘、网络舆情、新闻话题研究、文本情感分析以及生物医药等领域应用广泛。
三、 操作步骤
LDA模型求解算法主要有两种,即EM算法和Gibbs采样。
1.EM算法
由于LDA模型中含有隐变量(某篇文档中某个单词的所属主题Zi,j),LDA模型的似然函数不存在显示的表达式。因此,一般采用的最大化对数似然函数的概率模型求解算法LDA并不适用。EM算法,全称Expectation-Maximum算法,是一种计算含有隐变量的概率模型的最常用算法之一。EM算法并不直接计算对数似然函数的最值,而是计算对数似然函数对隐变量的期望,并通过最大化该期望来计算模型的参数。EM算法是一种迭代算法,在给定待求解模型参数的初始值后,不断迭代E-Step和M-Step两个步骤来寻找最佳的模型参数。
(1)E-Step:已知当前迭代的模型参数,计算出对数似然函数对隐变量的期望(或者只求解对数似然函数中包含期望的部分即可)。
(2)M-Step:求解E-Step中所得期望的最大值,得到新的模型参数。
2.Gibbs采样
Gibbs采样是一种求解高维概率模型的常用迭代算法。Gibbs采样的思路是,每次迭代中只选取概率向量的一个维度进行求解,即固定其他维度的变量值采样当前维度的值。不断迭代,直到收敛输出待估计的参数。LDA模型中,Gibbs采样的计算方法如下:
初始时随机给文本中的每个单词分配主题Zi,j,然后统计每个主题Zi,j下出现单词w的数量以及每个文档i下出现主题Zi,j中的词的数量,每一轮计算p(Zi,j|Z-i,j,i,w),即排除当前词的主题分配,根据其他所有词的主题分配估计当前词分配各个主题的概率。
当得到当前词属于所有主题的概率分布后,根据这个概率分布为该词采样一个新的主题Zi,j。然后用同样的方法不断更新下一个词的主题,直到发现每个文档下主题比例和每个主题下词的分布收敛,算法停止,输出待估计的模型参数,最终每个单词的主题Zi,j也同时得出。
四、 C刊范文
1.《基于LDA主题模型的上市公司违规识别——以中国A股上市银行为例》,张熠、徐阳、李维萍,《审计与经济研究》,2022-10-17。
2.《科创板注册制下的审核问询与IPO信息披露——基于LDA主题模型的文本分析》,俞红海、范思妤、吴良钰,马质斌,《管理科学学报》,2022-08-15。
3.《创业领域动态能力研究综述——基于LDA主题模型》,马鸿佳、肖彬、韩姝婷,《南开管理评论》,2022-07-01。
4.《基于改进LDA模型的铁路领域主题发现研究》,龙艺璇、安源、王东晋、翟夏普、伊惠芳,《数字图书馆论坛》,2022-02-25。
5.《职场辱虐管理如何影响第三方情绪和行为?——基于文本挖掘以及LDA主题模型的大数据分析》, 曹晨、张卫国、黄俊,《海南大学学报(人文社会科学版)》,2021-10-21。
6.《成渝地区双城经济圈科技创新合作现状分析——基于社会网络与LDA主题模型》,曹晨、罗强胜、黄俊、眭大亮、肖子涵,《软科学》,2021-09-29。
7.《基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例》,李磊、李梓阁,《吉首大学学报(社会科学版)》,2021-03-01。
8.《基于LDA主题模型与社会网络的专利技术融合趋势研究——以关节机器人为例》,罗恺、袁晓东,《情报杂志》,2020-12-24。
9.《基于LDA主题模型的高校科技查新服务新方法探索》,李美凝、张芹、张秀美,《图书馆杂志》,2020-10-15。
10. 《新中国70年西北地区扶贫开发模式的演进与创新——基于LDA主题模型的分析》,斯丽娟、尹苗,《兰州大学学报(社会科学版)》,2020-04-01。
11. 《基于LDA主题模型的微博标签生成研究》,熊回香、叶佳鑫,《情报科学》,2018-10-11。
12.《一种基于LDA主题模型的政策文本聚类方法研究》,张涛、马海群,《数据分析与知识发现》,2018-09-25。
13. 《基于LDA主题模型的学术谱系内知识传承研究——以谈家桢为核心的遗传学学术谱系为例》,刘俊婉、杨波、王菲菲、徐硕,《图书情报工作》,2018-05-20。
14. 《基于LDA主题模型的“内容-方法”共现分析研究——以情报学领域为例》,马秀峰、郭顺利、宋凯,《情报科学》,2018-04-04。
15.《基于LDA主题模型的文献关联分析及可视化研究》,王丽、邹丽雪、刘细文,《数据分析与知识发现》,2018-03-25。
作者:阿依慕(科研写作研究所编辑教研一室见习学术编辑)
读者福利
添加客服回复“LDA主题模型法”
获取15篇范文