Stata 中文文本分析|Stata 中的文档主题建模

教育   2024-10-29 12:49   安徽  

欢迎各位名师讲堂会员参加明晚 8 点的直播课:「Stata 中的文档主题建模


是不是感觉其他培训班的实证课程都非常的昂贵,对于 RStata 名师讲堂会员们,不用多花一分钱就可以参加我们下周的新系列课程 「Stata 中文文本分析」


之前给大家讲解过使用 R 语言进行文本数据分析的课程:

R 语言文本分析:https://rstata.duanshu.com/#/brief/course/bf37cf50eef04d38b43541cc52114c96

里面介绍了如何使用 R 语言进行文本分析,包括中文文本分词、词频统计、情感分析、共现分析、TF-IDF 分析、词云图和网络图的绘制、主题建模等内容。

尽管该课程是从 R 语言的安装开始讲解的,不过对于没有学习过 R 语言的小伙伴来说,学习这样的课程还是非常有难度的。因此我想是不是可以把这些操作在 Stata 中复现,这样大家就不必受“新学一门编程语言”的苦了。

Stata 文本分析的难点其实主要是难以进行中文文本分词,我试着用 C 语言编写了一些插件来解决,但是发现还是不太好用,难以跨系统使用。因此我最后采用的方案是在分词的时候调用一小段 R 代码,这些“模板代码”几乎不需要修改,即使不会 R 语言的小伙伴也能轻松使用。然后大部分文本分析操作还是使用 Stata 完成。这样就实现了在 Stata 中进行中文文本分词的功能。


另外一个技术难点是 Stata 难以绘制精美的词云图和网络图,我通过封装 highcharts.js 图表库编写了一些绘图命令解决了这个问题。

至于词频统计、TF-IDF 指标、主题建模之类的方法使用 Stata 原生代码即可实现。

本系列课程 7 月 22 日开讲,和之前的模式一样,差不多每周一次课,包含如下课时:

第一周:Stata 的安装、Sublime text 的配置及初识 Stata 文本分析

  1. Stata 的安装和 Sublime text 编辑器的配置;
  2. R 语言的安装和配置、rcall 命令的使用;
  3. 通过一个案例来初步认识 Stata 进行文本分析的基本方法。

第二周:Stata 的预备知识

  1. 介绍 Stata 中的基础概念和基础代码;
  2. 通过案例演示 Stata 中数据处理的基本方法。

第三周:Stata 中的字符串处理与正则表达式

  1. 介绍字符串的基础;
  2. 介绍字符串的一些操作函数;
  3. 正则表达式的使用;
  4. 中文正则表达式的使用;
  5. 文本数据的读取约定

第四周:使用 Stata 爬取上市公司的年报数据

  1. 如何进行网页分析;
  2. 如何处理 json 格式的数据;
  3. 如何进行网络数据爬取。

第五周:使用 Stata 进行词频统计、中文文本分词

  1. 如何把 pdf 文件批量转换成 txt 文件;
  2. 如何批量读取 txt 文件;
  3. 如何对中文文本进行分词。

第六周:Stata 中的词频统计、逆文档指数与 TF-IDF 分析

  1. 词频统计;
  2. 计算 tf、idf 以及 tf-idf 指标。

第七周:Stata 中的文本情感分析与情感词云图绘制

  1. 情感词典的使用;
  2. 比较不同情感词典的结果;
  3. 使用 Stata 绘制精美的词云图

第八周:词语间的相关性:n-grams 词干提取、相关性分析及词汇共现网络图的绘制

  1. 双词组分析;
  2. 双词组 tf-idf 指标的计算;
  3. 相关性分析;
  4. 词汇共现网络的绘制

第九周:使用 Stata 调用百度大脑自然语言处理接口进行文本情感倾向分析

  1. 百度大脑自然语言接口的介绍;
  2. 在 Stata 中调用文本情感倾向分析接口获取情感得分。

第十周:Stata 中的文档主题建模

  1. Stata 中文档主题建模的方法;
  2. 调用 R 语言实现文档主题建模。

第十一周:案例:使用 Stata 语言处理港股年报计算数字赋能指数(繁体文本的文本分析)

第十二周:案例:使用 Stata 从文本中提取地址

第十三周:案例:使用 Stata 对扫描文档进行 OCR 并提取表格数据

第十四周:案例:使用 Stata 调用百度文心千帆大模型进行文本分析与文本主要内容提取

第十五周:使用 Stata 提取一大堆文本文件中的词频并绘图展示:分词之外的方法

第 11~15 次课实际上是之前讲解过的一些案例,也准备收入这个系列课程中。

如何参加课程?

购买 RStata 名师讲堂会员即可参加全部课程啦(之前的和未来的都可以参加)!

价格:2800/年 或者 4800/长期

名师讲堂会员权益:

  1. 参加每个月 3~4 次的名师讲堂课程;
  2. 参加平台上的其他 R 语言和 Stata 的课程;
  3. 以会员折扣价购买我们分享的数据资料(10 元/份);
  4. 课程内外的提问解答服务(课程外的尽量帮忙解决)。

* 如果发票可添加小编微信 r_stata (RStata 李老师)开具。如需数据资料,购买后可添加小编微信免费领取数据折扣卡。

更多关于 RStata 会员的更多信息可添加微信号 r_stata 咨询:

课程主页(点击文末的阅读原文即可跳转):

https://rstata.duanshu.com/#/brief/course/b6a9efd94e5a48c2bba52dc9fdfd4291


RStata
一起学习 R 语言和 Stata 吧!
 最新文章