前不久给大家更新了一份专利全库数据:
1985~2024 年专利申请与授权数据(版本 3,含申请人所处的省市区县):https://rstata.duanshu.com/#/course/2397451274c546d3a36e156ffc865988
最近有培训班的小伙伴提出需要将工企数据和更新版的专利数据进行匹配,所以今天给大家分享的就是工企专利数据匹配的结果。
匹配结果
工企和专利数据匹配结果的时间范围 1998~2014 年,各年匹配到的专利数量如下:
作为对比,上图还展示了寇宗来&刘学锐(2020) 在「经济研究」中提供的工企和专利数据匹配结果,其中蓝色柱子表示本数据中各年专利数量,橙色柱子表示寇宗来&刘学锐(2020)中各年专利数量。可以看出,寇宗来&刘学锐(2020) 匹配的结果中在个别年份有缺失,虽然我们有些年份匹配的专利数量比寇宗来&刘学锐(2020) 略少,这是由于我们用了精确匹配而非模糊匹配。
数据格式方面,我提供了供 Stata 读取的 dta 格式的数据。因为数据较大,我分年份存放了 1998~2014 年工企与专利数据匹配结果。以 2014 年为例,该数据是直接使用工企数据和专利数据匹配得到的,包含工企的变量和专利的变量,每条观测值是一条专利,预览如下:
为了便于大家使用,我还提供了历年工企各种类型专利申请与授权信息:
1998~2014年工企各种类型专利申请数量(仅包含有专利申请的企业).dta
1998~2014年工企各种类型专利授权数量(仅包含有专利授权的企业).dta
匹配方法
专利数据中有个申请人变量,每个专利可能有多个申请人,申请人之间使用冒号分隔,因此需要首先处理申请人变量,处理思路如下:
然后分别处理工企数据库里的企业名称和专利数据的申请人。具体处理方法是剔除企业名称中干扰匹配的一些字符(股份有限、集团有限、有限责任、有限公司、有限、责任、股份、公司、厂、" "、(集团)、(集团)、(、)、(、)、回族自治区、壮族自治区、维吾尔自治区、自治区、省、市、区、县)。很多文献会说自己采用了模糊匹配,实际上在模糊匹配课程(这里可以看到:https://rstata.duanshu.com/#/course/d4fb816566244662ab6359fa848f1f1e)我讲过模糊匹配的缺点(匹配之后需要人工逐一检查,个人研究中难以实现,如果不检查又会有大量匹配错误的结果)。所以这里我采用的是去除干扰词汇匹配,这也应该就是我们的匹配结果不如寇宗来&刘学悦(2020)的好的原因。
直接使用专利数据中的申请人和工企数据中的企业名称匹配即可得到匹配结果。
专利引用及被引用信息
由于专利引用及被引用信息也非常巨大,这里就不再加进来了,如果需要引用及被引用信息,可以使用 ipzlid 变量和之前分享的这个数据匹配:
1998~2024 的专利引用与被引用信息及次数统计:https://rstata.duanshu.com/#/brief/course/de4968acb01047b3801c200e9cf7ed41
注意事项
在计算工企专利申请数量时需要注意,专利数据里面有很多申请和授权同时存在的专利,在统计专利数量的时候应该先去除这种重复情况:
统计的时候可以先去除公开公告号里面的 A、B、U、S。其中 A 代表发明专利的申请公开,B 代表发明专利的授权公告,U 代表实用新型专利的授权公告,S 代表外观设计专利的授权公告。代码大致如下:
replace 公开公告号 = subinstr(公开公告号, "A", "", .)
replace 公开公告号 = subinstr(公开公告号, "B", "", .)
replace 公开公告号 = subinstr(公开公告号, "U", "", .)
replace 公开公告号 = subinstr(公开公告号, "S", "", .)
replace 专利类型 = "发明" if index(专利类型, "发明")
*- 使用 duplicates drop 去除重复的
duplicates drop 公开公告号, force
如果需要分类别统计数量,则要分类别 duplicates drop
。
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/6579ec0902604f67acad38aadb39ba30