2001～2023 年上市公司年报 PDF & TXT 文件合集

教育 2024-11-05 13:31 安徽

之前给大家分享过不少上市公司年报文本的处理结果，还给大家分享了上市公司年报的处理方法。Stata 处理年报文本的方法可以参考平台上的课程：

名师讲堂｜Stata 中文文本分析：https://rstata.duanshu.com/#/brief/course/b6a9efd94e5a48c2bba52dc9fdfd4291

R 语言处理年报文本的方法可以参考平台上的课程：

R 语言文本分析：https://rstata.duanshu.com/#/brief/course/bf37cf50eef04d38b43541cc52114c96

今天再跟大家分享下全部上市公司年报的爬取结果。上市公司年报的时间范围为 2001~2023 年，为了方便大家使用，我提供了 PDF 和 TXT 两种版本。

数据概览

各年上市公司年报数量如下：

为了方便大家使用，各年的文件我进行了分开存放：

处理方法

这里简单介绍下 R 语言处理年报文本的方法，可以使用 pdftools 包提取 pdf 文本：

# pdf 文本提取
library(tidyverse)
library(pdftools)

# 单个文本的提取
pdftools::pdf_text("pdf/000006_2023_2023年年度报告.pdf") -> text 
text %>% 
  paste0(collapse = "") %>% 
  str_remove_all("[\\s\\n\\t\\d[a-z].]") -> text

多个 pdf 文本可以使用类似下面的代码：

# 从文件名中提取股票代码和年份
fs::dir_ls("pdf") %>% 
  as.character() %>% 
  as_tibble() %>% 
  tidyr::extract(col = value, into = c("code", "year"), 
                 regex = "/(.*)_(\\d{4})_", remove = F) %>% 
  mutate(year = as.numeric(year)) -> fl

fl %>% 
  filter(year == 2001) %>% 
  mutate(text = map_chr(value, function(x){
    pdftools::pdf_text(x) %>% 
      paste0(collapse = "") %>% 
      str_remove_all("[\\s\\n\\t\\d[a-z].]")
  })) -> textdf2001

由于 pdf 文件名称都是使用类似 000006_2023_2023年年度报告.pdf 的格式，所以可以很容易提取股票代码和年份。

更多关于上市公司年报文本处理的内容可以学习下面的课程：

使用 R 语言爬取全部上市公司的年报数据：https://rstata.duanshu.com/#/brief/course/6e8f8a1c6b2e4784974b1087fcbfc52c
名师讲堂｜上市公司数字赋能指数计算（数字技术应用程度指标）：https://rstata.duanshu.com/#/brief/course/cc1ce9aa0d12492e8bffe65feac54c63

文本分词、TF-IDF 分析

尽管在之前的文本分析课程中讲解过中文文本分析和 TD-IDF 分析等内容，处理这份数据对大家还是很困难的，因此我这边面向会员提供关于这份数据免费的词频统计和 TF-IDF 分析服务（不过处理结果会公开分享）。

获取数据

是不是感觉很硬核！欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料（10元/份）详情可阅读这篇推文：数据处理、图表绘制、效率分析与计量经济学如何学习～

详情可点击阅读原文进入 RStata 学院了解（从首页的会员卡专区即可查看和购买会员卡）。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询：

附件下载（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/505d26bd7c694c5eb9e86c7e2b6766e8

http://mp.weixin.qq.com/s?__biz=Mzg5ODE0MDgyNQ==&mid=2247519697&idx=1&sn=87d2fa821137b05a07d519a75664294e

RStata

一起学习 R 语言和 Stata 吧！

RStata 平台课程与数据资料列表

1901~2023 年各省市区县月度降水量面板数据

使用 Stata 绘制江苏省区县地图+湖泊河流分布

使用 Stata 绘制地图课程汇总

2000～2022 年各城市多中心程度和人口集聚程度面板数据（Landscan 来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

2000～2023 年上市公司注册地址与办公地址（含经纬度、搬迁距离及其所处的省市区县）

2000~2022 年各省市区县、乡镇人口密度与人口数量面板数据（landscan来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

2000~2023 年各省市区县 PM2.5 浓度（CHAP来源）数据的基尼系数、泰尔指数及阿特金森指数面板数据

使用 R 语言测算中国各城市多中心度与集聚程度

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

名师讲堂｜使用 Stata 测算 Yitzhaki 指数和 Kakwani 指数——基于 CFPS 数据

名师讲堂｜使用 Stata 测算数实融合水平

名师讲堂｜使用 Stata 计算地方政府竞争衡量指标：矩阵运算的应用

名师讲堂｜使用 Stata 处理专利数据的分类号

名师讲堂｜使用 Stata 计算企业技术相似度：交叉数据集、矩阵运算和 Mata 方法

名师讲堂｜使用 R 语言计算各城市空间形态的紧凑度

1999～2022 年上市公司子公司与所属省市区县边界的距离

2001～2023 年上市公司年报 PDF & TXT 文件合集

名师讲堂｜使用 Stata 计算 Shapley-Shubik 权力指数：以上市公司前 10 大股东份额数据为例

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

名师讲堂｜使用 Stata 测算数实融合水平

2007～2016 年税调数据与专利数据匹配结果

2007～2016年税调公司专利技术空间相似度、企业层面的知识宽度计算结果、新技术空间专利申请及IPC号新增数面板数据

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

2001~2021 年各省市区县不同作物种植制度的耕地面积

ggplot2 系列课程｜ggplot2 中的图层：单一图层、集合图层与统计变换

使用 Stata 绘制长三角 41 省市地图

CHAP-O3年度：2000～2023 年各省市区县年度 O3 浓度面板数据

使用 R 语言处理 Merra2 数据获取各省市区县的比湿、降水量、风速和气压数据

Stata 中文文本分析｜Stata 中的文档主题建模

工具变量！2002-07-04~2024-07-19 中国各省市区县平均云量日度面板数据

工商注册信息匹配服务

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

金融许可证持有机构列表、经纬度及省市区县分布数据（截止 2024 年 8 月 19 日）

使用 Stata 绘制广东省市级双变量填充地图

1985~2023 年各省市区县不同土地覆盖类型的土地面积

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

ggplot2 系列课程｜ggplot2 中的图层：单一图层、集合图层与统计变换

1949～2023 年工商企业注册信息数据（含经纬度及其所属的省市区县）

名师讲堂｜使用 Stata 测算数实融合水平（二）

物质流分析与生命周期工程专题课

环境投入产出专题｜单区域、区域间、Python、环境足迹计算、结构分解分析 ......

效率与生产率分析、DEA 编程指南、二阶段回归与结构模型

空间计量经济学模型与实操专题！Stata 和 MATLAB 版本的两个专题课程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉