前不久给大家分享了 1985~2024 年绿色专利申请与授权信息:
1985~2024 年绿色专利申请与授权数据(国家知识产权局标准):https://rstata.duanshu.com/#/course/9cfa513db3a54891bef466caac9e6a62
最近有培训班的小伙伴提出需要将上市公司和绿色专利数据进行匹配,但是数据量比较大,希望我能帮忙处理一下。今天分享给大家的就是该数据和上市公司的匹配结果。
匹配结果
上市公司和绿色专利数据匹配结果的时间范围为 1985~2024 年(这里没有考虑上市公司上市和退市的问题,大家如果需要考虑的话,可以再处理),不过由于专利从申请到公开需要时间,所以近几年的专利数据并不全,需要谨慎使用:
提供的数据包含两份:
1985~2024年上市公司绿色专利申请与授权量统计(国家知识产权局标准).dta 1985~2024年上市公司与绿色专利数据匹配结果(国家知识产权局标准).dta
1985~2024年上市公司与绿色专利数据匹配结果(国家知识产权局标准).dta
数据是直接使用上市公司数据和绿色专利数据匹配得到的,包含上市公司的变量和绿色专利的变量,每条观测值是一条绿色专利,数据预览如下:
1985~2024年上市公司绿色专利申请与授权量统计(国家知识产权局标准).dta
是对上面数据的汇总结果:
匹配方法
使用上市公司的名称、曾用名等和绿色专利数据中的申请人进行匹配。
绿色专利数据中有个申请人变量,每个绿色专利可能有多个申请人,申请人之间使用冒号分隔,因此需要首先处理申请人变量,处理思路如下:
然后分别处理上市公司数据公司列表和绿色专利数据的申请人,具体处理方法是剔除公司名称中干扰匹配的一些字符(股份有限、集团有限、有限责任、有限公司、有限、责任、股份、公司、厂、" "、(集团)、(集团)、(、)、(、)、回族自治区、壮族自治区、维吾尔自治区、自治区、省、市、区、县)。很多文献会说自己采用了模糊匹配,实际上在模糊匹配课程(这里可以看到:https://rstata.duanshu.com/#/course/d4fb816566244662ab6359fa848f1f1e)我讲过模糊匹配的缺点(匹配之后需要人工逐一检查,个人研究中难以实现,如果不检查又会有大量匹配错误的结果)。所以这里我采用的是去除干扰词汇匹配(插图来自工企专利匹配的推文,这里实际上是绿色专利申请人变量和上市公司数据企业名称匹配。):
按照上述匹配方法,一共匹配到了 37.48 万条绿色专利。由于每个绿色专利对应的申请人有多个,所以同一个绿色专利可能会匹配到多个公司,这是正常的。
专利引用及被引用信息
由于专利引用及被引用信息也非常巨大,这里就不再加进来了,如果需要引用及被引用信息,可以使用 ipzlid 变量和之前分享的这个数据匹配:
1998~2024 的专利引用与被引用信息及次数统计:https://rstata.duanshu.com/#/brief/course/de4968acb01047b3801c200e9cf7ed41
注意事项
该数据中存在重复专利,有两种原因:
多个公司共同申请同一个绿色专利; 专利的申请和授权公告同时存在数据中。
统计的时候可以先去除公开公告号里面的 A、B、U、S。其中 A 代表发明专利的申请公开,B 代表发明专利的授权公告,U 代表实用新型专利的授权公告,S 代表外观设计专利的授权公告。代码大致如下:
replace 公开公告号 = subinstr(公开公告号, "A", "", .)
replace 公开公告号 = subinstr(公开公告号, "B", "", .)
replace 公开公告号 = subinstr(公开公告号, "U", "", .)
replace 公开公告号 = subinstr(公开公告号, "S", "", .)
replace 专利类型 = "发明" if index(专利类型, "发明")
*- 使用 duplicates drop 去除重复的
duplicates drop 公开公告号, force
如果需要分类别统计数量,则要分类别 duplicates drop。
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/dbab3251f6fa4aeb90ae020f5c35563e