2001~2023 年上市公司年报 PDF & TXT 文件合集

教育   2024-11-05 13:31   安徽  

之前给大家分享过不少上市公司年报文本的处理结果,还给大家分享了上市公司年报的处理方法。Stata 处理年报文本的方法可以参考平台上的课程:

名师讲堂|Stata 中文文本分析:https://rstata.duanshu.com/#/brief/course/b6a9efd94e5a48c2bba52dc9fdfd4291

R 语言处理年报文本的方法可以参考平台上的课程:

R 语言文本分析:https://rstata.duanshu.com/#/brief/course/bf37cf50eef04d38b43541cc52114c96

今天再跟大家分享下全部上市公司年报的爬取结果。上市公司年报的时间范围为 2001~2023 年,为了方便大家使用,我提供了 PDF 和 TXT 两种版本。

数据概览

各年上市公司年报数量如下:

为了方便大家使用,各年的文件我进行了分开存放:

处理方法

这里简单介绍下 R 语言处理年报文本的方法,可以使用 pdftools 包提取 pdf 文本:

# pdf 文本提取
library(tidyverse)
library(pdftools)

# 单个文本的提取
pdftools::pdf_text("pdf/000006_2023_2023年年度报告.pdf") -> text 
text %>% 
  paste0(collapse = "") %>% 
  str_remove_all("[\\s\\n\\t\\d[a-z].]") -> text 

多个 pdf 文本可以使用类似下面的代码:

# 从文件名中提取股票代码和年份
fs::dir_ls("pdf") %>% 
  as.character() %>% 
  as_tibble() %>% 
  tidyr::extract(col = value, into = c("code""year"), 
                 regex = "/(.*)_(\\d{4})_", remove = F) %>% 
  mutate(year = as.numeric(year)) -> fl

fl %>% 
  filter(year == 2001) %>% 
  mutate(text = map_chr(value, function(x){
    pdftools::pdf_text(x) %>% 
      paste0(collapse = "") %>% 
      str_remove_all("[\\s\\n\\t\\d[a-z].]")
  })) -> textdf2001

由于 pdf 文件名称都是使用类似 000006_2023_2023年年度报告.pdf 的格式,所以可以很容易提取股票代码和年份。

更多关于上市公司年报文本处理的内容可以学习下面的课程:

  1. 使用 R 语言爬取全部上市公司的年报数据:https://rstata.duanshu.com/#/brief/course/6e8f8a1c6b2e4784974b1087fcbfc52c
  2. 名师讲堂|上市公司数字赋能指数计算(数字技术应用程度指标):https://rstata.duanshu.com/#/brief/course/cc1ce9aa0d12492e8bffe65feac54c63

文本分词、TF-IDF 分析

尽管在之前的文本分析课程中讲解过中文文本分析和 TD-IDF 分析等内容,处理这份数据对大家还是很困难的,因此我这边面向会员提供关于这份数据免费的词频统计和 TF-IDF 分析服务(不过处理结果会公开分享)。

获取数据

是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~

详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:

附件下载(点击文末的阅读原文即可跳转):

https://rstata.duanshu.com/#/brief/course/505d26bd7c694c5eb9e86c7e2b6766e8


RStata
一起学习 R 语言和 Stata 吧!
 最新文章