之前给大家分享过一份爬取自中国政府采购网的政府采购数据:
2000~2024年3月政府采购合同公告数据:https://rstata.duanshu.com/#/course/90ab1a1c9bbd4640bb62ec4eebf61ce5
最近有小伙伴想把这份数据和上市公司数据匹配起来,由于两份数据都非常巨大,所以我就直接帮大家匹配好了。
匹配结果
上市公司与政府采购数据匹配结果的时间范围为 2013~2024 年,经过匹配之后一共得到了 41403 条匹配结果:
包含的变量如下:
供应商联系方式、年份、合同名称、详情链接、签订时间、发布时间、采购人、供应商、合同编号、项目编号、采购人地址、采购人联系方式、供应商地址、合同金额num_万元、主要标的名称、规格型号或服务要求、主要标的数量、主要标的单价、合同金额、履约期限和地点等简要信息、采购方式、所属地域、所属行业、代理机构、合同签订日期、合同公告日期、股票代码
下图展示了历年上市公司与政府采购数据匹配情况:
这里需要注意,匹配使用的政府采购数据是截至 2024 年 3 月 29 日的,所以 2024 年的数据还不够全。
匹配方法
结合上市公司数据与政府采购数据库的变量,使用上市公司的名称
、曾用名
等和采购合同数据中的供应商
名称进行匹配。
首先需要分别处理上市公司数据公司列表和采购合同数据中的供应商名称。具体处理方法是剔除公司名称中干扰匹配的一些字符(股份有限、集团有限、有限责任、有限公司、有限、责任、股份、公司、厂、" "、(集团)、(集团)、(、)、(、)、回族自治区、壮族自治区、维吾尔自治区、自治区、省、市、区、县)。很多文献会说自己采用了模糊匹配,实际上在模糊匹配课程中,我讲过模糊匹配的缺点(匹配之后需要人工逐一检查,个人研究中难以实现,如果不检查又会有大量匹配错误的结果)。所以这里我采用的是去除干扰词汇匹配(插图来自工企专利匹配的推文,这里实际上是和上市公司数据企业名称匹配。):
Stata 中的中文模糊匹配——以 2014 年工企数据和境外投资名录数据匹配为例:https://rstata.duanshu.com/#/course/d4fb816566244662ab6359fa848f1f1e
获取数据
是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~
详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。
更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:
附件下载(点击文末的阅读原文即可跳转):
https://rstata.duanshu.com/#/brief/course/eeb80de262b441da94bd4894e8c993e4