1985 ~ 2021 年裁判文书数据

教育 2024-11-27 16:43 安徽

今天给大家分享一份裁判文书数据。时间范围为 1985～2021 年（按照裁判年份）。由于数据非常巨大，所以提供的是按年月拆分的结果。

例如 2021 年 1 月的文件：

数据格式方面，提供的是供 Stata 读取的 dta 的格式。部分文件大小超过了 10GB，对于内存较小的电脑读取起来会很困难，不过 Stata 提供了一次读取部分观测值的方法，例如读取 2019 年 12 月文件（22.89GB）的前 10 万行：

use in 1/100000 using "裁判文书分年分月/2019/12.dta", clear

使用 Stata 处理这种超大文件就可以一部分一部分的处理（读取之后删除不需要的变量）。

不过读取最后一部分的时候需要知道该文件总共的行数，这时候可以借助 describe 命令：

describe using "裁判文书分年分月/2019/12.dta"

*> Contains data                                 数据处理：微信公众号
*>                                                 RStata
*>  Observations:     2,768,742                  24 Nov 2024 21:30
*>     Variables:            12                  
*> -----------------------------------------------------------------
*> Variable      Storage   Display    Value
*>     name         type    format    label      Variable label
*> -----------------------------------------------------------------
*> cpid            str15   %-9s                  
*> 标题            str600  %-9s                  
*> 审理法院        str198  %-9s                  
*> 案件类型        str27   %-9s                  
*> 案号            str1164 %-9s                  
*> 审理程序        str24   %-9s                  
*> 裁判日期        double  %td                   
*> 发布日期        double  %td                   
*> 文书内容        strL    %-9s                  
*> 当事人          str1536 %-9s                  
*> 案由            str369  %-9s                  
*> 法律依据        strL    %-9s                  
*> -----------------------------------------------------------------
*> Sorted by:

可以看到该文件一共是 2768742 行。

另外我在附件中也提供了一个 各年月文件总行数.dta 文件，从该文件中也可以看到每年每月文件的行数：

use "/Volumes/C16T/大数据/1985~2021年裁判文书数据/各年月文件总行数.dta"
*> (数据处理：微信公众号 RStata)

list in 1/10

*>     +---------------------+
*>     | year   month   nrow |
*>     |---------------------|
*>  1. | 1985   01         4 |
*>  2. | 1985   02         4 |
*>  3. | 1985   03         2 |
*>  4. | 1985   04         2 |
*>  5. | 1985   05         3 |
*>     |---------------------|
*>  6. | 1985   06         3 |
*>  7. | 1985   07         4 |
*>  8. | 1985   08         1 |
*>  9. | 1985   09         4 |
*> 10. | 1985   10         3 |
*>     +---------------------+

该数据一共包含如下变量：

cpid 标题审理法院案件类型案号审理程序裁判日期发布日期文书内容当事人案由法律依据

cpid 是我給每个观测值的编号，结构如下：

年份-月份-观测值编号

大家在处理该数据的时候尽可能保留该指标，后续会再分享一些裁判文书相关的匹配结构，都可以使用 cpid 变量和该数据匹配。

下图展示了每年观测值的数量：

各年各月观测值的数量：

获取数据

是不是感觉很硬核！欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料（10元/份）详情可阅读这篇推文：数据处理、图表绘制、效率分析与计量经济学如何学习～

详情可点击阅读原文进入 RStata 学院了解（从首页的会员卡专区即可查看和购买会员卡）。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询：

附件下载（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/09f362fb5ac74a86b14cca7917dc8283

http://mp.weixin.qq.com/s?__biz=Mzg5ODE0MDgyNQ==&mid=2247519928&idx=1&sn=7759a0b46f240a7a1cdf31b03a3ed5fe

RStata

一起学习 R 语言和 Stata 吧！

最新文章

1985 ~ 2021 年裁判文书数据

深入源码解决问题！Stata 绘制漏斗图时如何设置散点颜色

使用 R 语言绘制填充地图、栅格地图 + 等降水量线

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

1980-01-01~2024-08-01 中国各省市区县日度主导风向及平均风向角度计算结果

1990～2022 年各城市多中心程度和人口集聚程度面板数据（GlobPOP来源）

使用 R 语言下载和处理日度夜间灯光栅格数据

新增 2023 年！2000~2023 年各省市区县、乡镇人口密度与人口数量面板数据（landscan来源）

新增 2023 年！2000～2023 年各城市多中心程度和人口集聚程度面板数据（Landscan 来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

2000～2022 年各省市区县年度 PM2.5 浓度面板数据

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

RStata 平台课程与数据资料列表

1901~2023 年各省市区县月度降水量面板数据

使用 Stata 绘制江苏省区县地图+湖泊河流分布

使用 Stata 绘制地图课程汇总

2000～2022 年各城市多中心程度和人口集聚程度面板数据（Landscan 来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

2000～2023 年上市公司注册地址与办公地址（含经纬度、搬迁距离及其所处的省市区县）

2000~2022 年各省市区县、乡镇人口密度与人口数量面板数据（landscan来源）

名师讲堂｜使用 R 语言测算中国各城市多中心度与集聚程度

RStata 平台课程与数据资料列表

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

2000~2023 年各省市区县 PM2.5 浓度（CHAP来源）数据的基尼系数、泰尔指数及阿特金森指数面板数据

使用 R 语言测算中国各城市多中心度与集聚程度

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

名师讲堂｜使用 Stata 测算 Yitzhaki 指数和 Kakwani 指数——基于 CFPS 数据

名师讲堂｜使用 Stata 测算数实融合水平

名师讲堂｜使用 Stata 计算地方政府竞争衡量指标：矩阵运算的应用

名师讲堂｜使用 Stata 处理专利数据的分类号

名师讲堂｜使用 Stata 计算企业技术相似度：交叉数据集、矩阵运算和 Mata 方法

名师讲堂｜使用 R 语言计算各城市空间形态的紧凑度

1999～2022 年上市公司子公司与所属省市区县边界的距离

2001～2023 年上市公司年报 PDF & TXT 文件合集

名师讲堂｜使用 Stata 计算 Shapley-Shubik 权力指数：以上市公司前 10 大股东份额数据为例

欢迎购买 RStata 培训班学员学习 Stata、R 语言和计量经济学！学习过程中遇到的问题也可以随时提问！

名师讲堂｜使用 Stata 测算数实融合水平

2007～2016 年税调数据与专利数据匹配结果

2007～2016年税调公司专利技术空间相似度、企业层面的知识宽度计算结果、新技术空间专利申请及IPC号新增数面板数据

名师讲堂｜使用 Stata 计算专利技术空间相似度、企业层面的知识宽度、新技术空间专利申请及IPC号新增数

2001~2021 年各省市区县不同作物种植制度的耕地面积

ggplot2 系列课程｜ggplot2 中的图层：单一图层、集合图层与统计变换

使用 Stata 绘制长三角 41 省市地图

CHAP-O3年度：2000～2023 年各省市区县年度 O3 浓度面板数据

使用 R 语言处理 Merra2 数据获取各省市区县的比湿、降水量、风速和气压数据

Stata 中文文本分析｜Stata 中的文档主题建模

工具变量！2002-07-04~2024-07-19 中国各省市区县平均云量日度面板数据

工商注册信息匹配服务

RStata 平台课程与数据资料列表

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉