更新!1985~2024 年专利申请与授权数据

教育   2025-01-19 12:40   福建  



最近给大家分享的 1985~2024 年的专利数据里面有部分 2013 年的专利放到了 2012 年里面,然后它们的 ipzlid 开头四位是 2012,考虑到大家经常会使用 ipzlid 的前四位作为年份,这样以来就会产生误导,所以还是决定更正下。


不过专利数据非常大,大家如果再次下载会过于麻烦,所以我给大家准备了一份 “ipzlid转换对照表.dta”(会员可以联系李老师获取)。最近我也会把平台上的专利数据更换到新的,然后里面的 ipzlid 变量也会变成 newipzlid,主要变化如下:


1. 2012 年中的 2013 年部分数据删除,然后把这部分数据 append 到 2013 年下面,所以提供的转换表就是这一部分观测值的 ipzlid 和 newipzlid 的转换表。

2. 其他年份的都是直接把 ipzlid 重命名为 newipzlid,不影响。


总的来说,也就是除了转换表提供的 8 万条专利需要进行编号转换,其他的都不影响。大家如果不想再次下载的话,直接把自己的 2012 年中 2013 年的数据转移到 2013 年里面,然后再把 合并后的 2013 年的数据使用 ipzlid 变量和这个转换表匹配即可,其他年份的 rename 成 newipzlid 即可。


目前平台上相关的数据还在逐步更新,耐心等待即可。



最近有培训班的小伙伴分享了一份更新更全的专利数据,让我帮忙处理下。该数据的时间范围为 1985~2024 年,不过从分年数量上来看,比较全的还是 22 年及之前的,23 年接近全,之后年份的都不太全(这个是因为专利从申请到公开需要时间,所以并不能及时获取最新的专利数据)。

数据中一共包含了超过 4800 万条专利的申请和授权数据,为了方便大家读取,我把数据拆分成了逐年的,例如 2014 年:

包含如下基本信息:

newipzlid、年份、申请日、标题、摘要、申请人、公开公告号、公开公告日、申请号、专利类型、公开国别、首项权利要求、独立权利要求、文献页数、IPC主分类、IPC、洛迦诺分类号、当前权利人、申请人类型、申请人国家_地区、申请人地址、当前专利权人地址、工商注册地址、工商公司类型、工商成立日期、工商统一社会信用代码、工商注册号、工商上市代码、工商企业状态、发明人、引证次数、被引证次数、自引次数、他引次数、被自引次数、被他引次数、家族引证次数、家族被引证次数、优先权信息、优先权号、优先权日、授权公告号、授权公告日、省、省代码、市、市代码、县、县代码

其中 newipzlid 是我给每条专利的编号。平台上其他包含 newipzlid 变量的数据可以直接和这个数据使用该变量匹配。省、省代码、市、市代码、县、县代码是我根据原始数据中的省市区县信息和 21 年的行政区划代码匹配得到的。

newipzlid 的生成方法大致如下:

forval y = 1985/2024 { 
 di "`y'" 
 qui {
  use "`y'patent.dta"clear 
  cap drop newipzlid 
  gen newipzlid = string(`y' * 10^strlen("`=_N'") + _n, "%12.0f")
  order newipzlid 
  compress 
  foreach i of varlist _all {
   cap format `i' %10s 
  }
  save "`y'patent.dta"replace
 }
}

数据格式方面,提供的是供 Stata 读取的 dta 的格式。部分文件大小超过了 10GB,对于内存较小的电脑读取起来会很困难,不过 Stata 提供了一次读取部分观测值的方法,例如读取 2020 年文件(55.54GB)的前 10 万行:

use in 1/100000 using "2020.dta"clear 

使用 Stata 处理这种超大文件就可以一部分一部分的处理(读取之后删除不需要的变量)。

不过读取最后一部分的时候需要知道该文件总共的行数,这时候可以借助 describe 命令:

describe using "2020.dta"

例如统计每一年文件的观测值数量可以使用下面的循环:

clear 
mat a = J(40, 2, .)
local j = 1
forval y = 1985/2024 {
 desc using "/Volumes/C16T/IP专利数据分年/`y'.dta"
 mat a[`j', 2] = r(N)
 mat a[`j', 1] = `y'
 local j = `j' + 1 
}
mat list a 
svmat a 
ren a1 year 
ren a2 n 

各省市区县专利申请与授权数量统计数据之前给大家分享过:

1985~2024 年各省市区县专利申请与授权数量统计:https://rstata.duanshu.com/#/brief/course/7300c81235b74b8bb911f04997ab7295

例如下图展示了 1985~2024 年各省市发明专利申请数量变化(使用样条法绘制):

2021 年各省份申请并最终被授权的发明专利数量:

2020 年各城市实用新型专利申请数量:

2019 年各区县外观设计专利申请数量:

专利数据匹配与提取服务

由于专利数据非常巨大,难以匹配和使用,因此特推出专利数据匹配服务,费用大致如下:

  1. 该服务仅面向 RStata 会员;
  2. 每 10 万个公司名称匹配收费 300 元,低于 10 万个公司名称也是 300 元(300 元起步);
  3. 专利知识宽度计算:每 10 万个公司名称收费 100 元,低于 10 万个公司名称也是 100 元(100 元起步);
  4. 绿色专利筛选:每 10 万个公司名称收费 100 元,低于 10 万个公司名称也是 100 元(100 元起步);
  5. 注意这里的数量是指匹配使用的数量,而非匹配成功的数量;

另外该份专利数据实际上还包含很多变量,完整的数据大小超过 2TB,所以这里我仅仅选择了部分变量进行分享,如果需要其他变量的,可以联系李老师获取完整变量列表及帮忙提取所需变量,费用也是 300 元/次。

虽然不限制数量,不过变量数量过多也会导致数据变得非常大而难以处理,所以还是仅仅选择自己需要的变量就好。

与其他数据匹配

之前给大家分享过工企、上市公司、税调等数据与专利数据的匹配结果,这些未来都会逐一更新,大家就不必付费定制了~

获取数据

是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~

详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:

附件下载(点击文末的阅读原文即可跳转):

https://rstata.duanshu.com/#/brief/course/2397451274c546d3a36e156ffc865988


RStata
一起学习 R 语言和 Stata 吧!
 最新文章