文本分析 | 词云、文本情感、文本聚类分析、社会网络关系图、LDA主题分析

科技   教育   2024-08-13 11:47   北京  

关注SPSSAU

据分析 简单一点

论文问卷 快人一步


文本分析

SPSSAU出品 · 必属精品 · 建议收藏

↓↓↓↓↓↓↓↓

在信息爆炸的时代,文本数据无处不在,如何从这些海量的文字中提炼出有价值的信息呢?答案就是——文本分析。文本分析,简单来说,就是对文本数据进行深度的研究和分析。它能够从看似普通的文字中,提取出主题、情感等信息,为后续的决策和应用提供有力支持。SPSSAU的文本分析模块可以一站式得到全部的文本分析结果。

SPSSAU


一、文本分析软件工具


大学生必备的统计分析工具——SPSSAU在线数据分析软件,可以进行词云分析、文本情感分析、文本聚类分析、社会网络关系图绘制、LDA主题分析、新词发现、管理我的词库等文本分析。

1

如何进入文本分析?


SPSSAU当前提供3类方法进入文本分析:
1、SPSSAU搜索框进入

在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。

2、SPSSAU界面仪表盘进入
通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

3、输入网址
与此同时,可输入文本分析模块的网址链接:https://spssau.com/textanalysis.html 进入,当然如果此时没有登录SPSSAU,系统会提示首先登录账号。

2

如何上传文本数据?


进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:
  • 支持直接粘贴文本进行上传数据
  • 支持上传txt或excel格式数据
  • 上传文件最高限制为5M

用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现直接粘贴文本进行上传或者上传txt/excel/csv文件等。如下图所示:

  • 数据格式说明

如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本数据,将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。类似如下图所示:



3

如何进行分析?


上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的文本分析分析结果,比如词云分析情况等。类似如下图所示:


【提示】:当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。


  • 文本分析结果

SPSSAU文本分析结果包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等。接下来分别进行简单介绍。


二、词云分析


文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf


1

词云分析


直观展示文本数据的关键词信息,默认是展示前1000个高频关键词、词频、以及出现行数。词云图默认展示前100个高频词,用户可自主设置该数字,也可修改词云风格和下载该词云图。


2

自定义词云


自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。


3

词定位


词定位可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘城乡建设’这个关键词,研究者希望了解该关键词的具体出处信息等,可直接点击该词,然后查看具体信息。也可直接搜索想要查看的关键词,如下图所示:


4

tf-idf


tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。tf-idf指标及其对应词云图输出结果如



词云分析帮助手册


二、文本情感分析

SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析


1

按词情感分析


按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示。


情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。关于情感方向的判断标准具体规则如下表:


SPSSAU输出结果如下:


如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。


2

按行情感分析


按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。


SPSSAU输出结果如下:


文本情感分析帮助手册


三、文本聚类分析


SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类


1

按词聚类分析


按词聚类分析是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。

默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。

SPSSAU输出结果如下,图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分


2

按行聚类分析


不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。SPSSAU分析结果如下图所示:



文本聚类分析帮助手册

四、社会网络关系图


社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况。接下来将分别介绍‘共词矩阵’和‘社会网络关系图’


1

共词矩阵


下图中共10个关键词,第1行和第1列为关键词名称且完全对应。具体数据上,右下三角斜对角线为该词的词频。其它数字为‘共现’次数(每行‘共现’次数之和):



2

社会网络关系图


社会网络关系图将共词矩阵信息进行展示,包括是否有共词关系(共词次数>0则有共词关系,等于0则说明没有同时出现过),共词次数情况等默认情况下,系统会选中排名前20的关键词进行共词矩阵构建和社会网络关系图呈现,用户也可自由“选择分析词”。


在社会网络关系图时,可使用线条粗细展示共词次数,越粗则表示共词次数越高,当然也可选择颜色深浅或者固定线条大小。如下图所示:



还可通过单击表格中的关键词,查看该关键词与其余分析词之间的共词次数情况,比如选中‘建设’这个关键词后,其出来结果如下,明显地可以看到,建设与‘建设部’、‘城乡’和‘住房’这三个词之间的关系较为紧密。


社会网络关系图帮助手册

五、LDA主题分析


LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等。


SPSSAU中呈现LDA主题分析包括如下内容或功能:



SPSSAU输出LDA主题分析结果如下:



LDA主题分析帮助手册

六、新词发现&我的词库


1

新词发现


文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议。

新词发现时涉及到两个关键指标,分别是:信息熵和互信息信息熵的意义为衡量某词与其它词组合一起的容易度;互信息的意义为衡量文本组合的紧密程度。


新词发现帮助手册

2

我的词库


文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可。SPSSAU操作上为点击‘我的词库’,然后选择即可,如下图:


我的词库帮助手册

以上为本期SPSSAU文本分析模块的相关内容。



若要了解SPSSAU相关的更详细知识,可进入SPSSAU官网查看帮助手册or联系智能客服or人工客服为您解答。



以上就是今天的全部内容啦~

若您想看其他干货内容

请在评论区告诉SPSSAU







数据分析救命神器

让你的数据处理

非常简单!


点击下方  跳转至SPSSAU官方账号





SPSSAU

数据科学分析平台

www.spssau.com



SPSSAU
SPSSAU官网: https://spssau.com
 最新文章