今天给大家分享一份裁判文书数据。时间范围为 1985~2021 年(按照裁判年份)。由于数据非常巨大,所以提供的是按年月拆分的结果。
例如 2021 年 1 月的文件:
数据格式方面,提供的是供 Stata 读取的 dta 的格式。部分文件大小超过了 10GB,对于内存较小的电脑读取起来会很困难,不过 Stata 提供了一次读取部分观测值的方法,例如读取 2019 年 12 月文件(22.89GB)的前 10 万行:
use in 1/100000 using "裁判文书分年分月/2019/12.dta", clear
使用 Stata 处理这种超大文件就可以一部分一部分的处理(读取之后删除不需要的变量)。
不过读取最后一部分的时候需要知道该文件总共的行数,这时候可以借助 describe 命令:
describe using "裁判文书分年分月/2019/12.dta"
*> Contains data 数据处理:微信公众号
*> RStata
*> Observations: 2,768,742 24 Nov 2024 21:30
*> Variables: 12
*> -----------------------------------------------------------------
*> Variable Storage Display Value
*> name type format label Variable label
*> -----------------------------------------------------------------
*> cpid str15 %-9s
*> 标题 str600 %-9s
*> 审理法院 str198 %-9s
*> 案件类型 str27 %-9s
*> 案号 str1164 %-9s
*> 审理程序 str24 %-9s
*> 裁判日期 double %td
*> 发布日期 double %td
*> 文书内容 strL %-9s
*> 当事人 str1536 %-9s
*> 案由 str369 %-9s
*> 法律依据 strL %-9s
*> -----------------------------------------------------------------
*> Sorted by:
可以看到该文件一共是 2768742 行。
另外我在附件中也提供了一个 各年月文件总行数.dta
文件,从该文件中也可以看到每年每月文件的行数:
use "/Volumes/C16T/大数据/1985~2021年裁判文书数据/各年月文件总行数.dta"
*> (数据处理:微信公众号 RStata)
list in 1/10
*> +---------------------+
*> | year month nrow |
*> |---------------------|
*> 1. | 1985 01 4 |
*> 2. | 1985 02 4 |
*> 3. | 1985 03 2 |
*> 4. | 1985 04 2 |
*> 5. | 1985 05 3 |
*> |---------------------|
*> 6. | 1985 06 3 |
*> 7. | 1985 07 4 |
*> 8. | 1985 08 1 |
*> 9. | 1985 09 4 |
*> 10. | 1985 10 3 |
*> +---------------------+
该数据一共包含如下变量:
cpid 标题 审理法院 案件类型 案号 审理程序 裁判日期 发布日期 文书内容 当事人 案由 法律依据
cpid 是我給每个观测值的编号,结构如下:
年份-月份-观测值编号
大家在处理该数据的时候尽可能保留该指标,后续会再分享一些裁判文书相关的匹配结构,都可以使用 cpid 变量和该数据匹配。
下图展示了每年观测值的数量:
各年各月观测值的数量:
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/09f362fb5ac74a86b14cca7917dc8283