上次给大家分享了 1998~2024 的专利引用和授权信息:
1985~2024 年专利申请与授权数据(版本 3,含申请人所处的省市区县):https://rstata.duanshu.com/#/brief/course/2397451274c546d3a36e156ffc865988
今天再给大家分享使用该数据和上市公司的匹配结果。
匹配结果
上市公司和专利数据匹配结果的时间范围 1985~2024 年(这里没有考虑上市公司上市和退市的问题,大家如果需要考虑的话,可以再处理),不过由于专利从申请到公开需要时间,所以近几年的专利数据并不全,需要谨慎使用:
提供的数据包含两份:
1985~2024年上市公司与专利数据匹配结果.dta 1985~2024年上市公司专利申请与授权量统计.dta
1985~2024年上市公司与专利数据匹配结果.dta
数据是直接使用上市公司数据和专利数据匹配得到的,包含上市公司的变量和专利的变量,每条观测值是一条专利,数据预览如下:
1985~2024年上市公司专利申请与授权量统计.dta
是对上面数据的汇总结果:
在统计数量时需要注意,专利数据里面有很多申请和授权同时存在的专利,在统计专利数量的时候应该先去除这种重复情况:
统计的时候可以先去除公开公告号里面的 A、B、U、S。其中 A 代表发明专利的申请公开,B 代表发明专利的授权公告,U 代表实用新型专利的授权公告,S 代表外观设计专利的授权公告。
replace 公开公告号 = subinstr(公开公告号, "A", "", .)
replace 公开公告号 = subinstr(公开公告号, "B", "", .)
replace 公开公告号 = subinstr(公开公告号, "U", "", .)
replace 公开公告号 = subinstr(公开公告号, "S", "", .)
replace 专利类型 = "发明" if index(专利类型, "发明")
*- 使用 duplicates drop 去除重复的
duplicates drop 股票代码 公开公告号, force
匹配方法
使用上市公司的名称、曾用名等和专利数据中的申请人进行匹配。
专利数据中有个申请人变量,每个专利可能有多个申请人,申请人之间使用冒号分隔,因此需要首先处理申请人变量,处理思路如下:
然后分别处理上市公司数据公司列表和专利数据的申请人,具体处理方法是剔除公司名称中干扰匹配的一些字符(股份有限、集团有限、有限责任、有限公司、有限、责任、股份、公司、厂、" "、(集团)、(集团)、(、)、(、)、回族自治区、壮族自治区、维吾尔自治区、自治区、省、市、区、县)。很多文献会说自己采用了模糊匹配,实际上在模糊匹配课程(这里可以看到:https://rstata.duanshu.com/#/course/d4fb816566244662ab6359fa848f1f1e)我讲过模糊匹配的缺点(匹配之后需要人工逐一检查,个人研究中难以实现,如果不检查又会有大量匹配错误的结果)。所以这里我采用的是去除干扰词汇匹配(插图来自工企专利匹配的推文,这里实际上是和上市公司数据企业名称匹配。):
按照上述匹配方法,一共匹配到了 271.26 万条专利。由于每个专利对应的申请人有多个,所以同一个专利可能会匹配到多个公司,这是正常的。
专利引用及被引用信息
由于专利引用及被引用信息也非常巨大,这里就不再加进来了,如果需要引用及被引用信息,可以使用 ipzlid 变量和之前分享的这个数据匹配:
1998~2024 的专利引用与被引用信息及次数统计:https://rstata.duanshu.com/#/brief/course/de4968acb01047b3801c200e9cf7ed41
注意事项
该数据中存在重复专利,有两种原因:
多个公司共同申请同一个专利; 专利的申请和授权公告同时存在数据中。
统计的时候可以先去除公开公告号里面的 A、B、U、S。其中 A 代表发明专利的申请公开,B 代表发明专利的授权公告,U 代表实用新型专利的授权公告,S 代表外观设计专利的授权公告。代码大致如下:
replace 公开公告号 = subinstr(公开公告号, "A", "", .)
replace 公开公告号 = subinstr(公开公告号, "B", "", .)
replace 公开公告号 = subinstr(公开公告号, "U", "", .)
replace 公开公告号 = subinstr(公开公告号, "S", "", .)
replace 专利类型 = "发明" if index(专利类型, "发明")
*- 使用 duplicates drop 去除重复的
duplicates drop 公开公告号, force
如果需要分类别统计数量,则要分类别 duplicates drop。
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/04100321f88b411f90429be934934bff