之前给大家分享过不少上市公司年报文本的处理结果,还给大家分享了上市公司年报的处理方法。Stata 处理年报文本的方法可以参考平台上的课程:
名师讲堂|Stata 中文文本分析:https://rstata.duanshu.com/#/brief/course/b6a9efd94e5a48c2bba52dc9fdfd4291
R 语言处理年报文本的方法可以参考平台上的课程:
R 语言文本分析:https://rstata.duanshu.com/#/brief/course/bf37cf50eef04d38b43541cc52114c96
今天再跟大家分享下全部上市公司年报的爬取结果。上市公司年报的时间范围为 2001~2023 年,为了方便大家使用,我提供了 PDF 和 TXT 两种版本。
数据概览
各年上市公司年报数量如下:
为了方便大家使用,各年的文件我进行了分开存放:
处理方法
这里简单介绍下 R 语言处理年报文本的方法,可以使用 pdftools 包提取 pdf 文本:
# pdf 文本提取
library(tidyverse)
library(pdftools)
# 单个文本的提取
pdftools::pdf_text("pdf/000006_2023_2023年年度报告.pdf") -> text
text %>%
paste0(collapse = "") %>%
str_remove_all("[\\s\\n\\t\\d[a-z].]") -> text
多个 pdf 文本可以使用类似下面的代码:
# 从文件名中提取股票代码和年份
fs::dir_ls("pdf") %>%
as.character() %>%
as_tibble() %>%
tidyr::extract(col = value, into = c("code", "year"),
regex = "/(.*)_(\\d{4})_", remove = F) %>%
mutate(year = as.numeric(year)) -> fl
fl %>%
filter(year == 2001) %>%
mutate(text = map_chr(value, function(x){
pdftools::pdf_text(x) %>%
paste0(collapse = "") %>%
str_remove_all("[\\s\\n\\t\\d[a-z].]")
})) -> textdf2001
由于 pdf 文件名称都是使用类似 000006_2023_2023年年度报告.pdf
的格式,所以可以很容易提取股票代码和年份。
更多关于上市公司年报文本处理的内容可以学习下面的课程:
使用 R 语言爬取全部上市公司的年报数据:https://rstata.duanshu.com/#/brief/course/6e8f8a1c6b2e4784974b1087fcbfc52c 名师讲堂|上市公司数字赋能指数计算(数字技术应用程度指标):https://rstata.duanshu.com/#/brief/course/cc1ce9aa0d12492e8bffe65feac54c63
文本分词、TF-IDF 分析
尽管在之前的文本分析课程中讲解过中文文本分析和 TD-IDF 分析等内容,处理这份数据对大家还是很困难的,因此我这边面向会员提供关于这份数据免费的词频统计和 TF-IDF 分析服务(不过处理结果会公开分享)。
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/505d26bd7c694c5eb9e86c7e2b6766e8