CGSS:中国综合社会调查数据清洗

文摘   教育   2024-10-05 22:00   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。 


作者:李珊珊 (中国药科大学)
邮箱:cpulss@163.com

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. CGSS 数据库介绍

  • 2. 数据清洗

  • 3. 相关推文



1. CGSS 数据库介绍

前不久,中国调查与数据中心公众号发布了最新的 2021 年 CGSS 调查数据。据笔者所知,CGSS 和 CFPS 是国内少有的公布疫情相关信息的数据库。在本文中,笔者将以 2021 年 CGSS 为例进行数据清洗,试图帮助大家了解 2021 年 CGSS 的数据质量和疫情期间某些变量的分布。

CGSS,全称是 中国综合社会调查 (Chinese General Social Survey),始于 2003 年,是我国最早的全国性、综合性、连续性的学术调查项目。CGSS 通过年度调查数据对中国社会全面、系统地描述和分析,揭示中国社会变迁,包括经济、政治、社会、文化等各个方面,制度、结构、行为、态度等各个层次发展方向和趋势;揭示社会成员、社会群体的相对地位、角色和观念的变化,描述和分析中国社会阶层和社会各群体的实际状况。

与其他数据库十分相似,CGSS 并非中国独有,其与美国的 GSS (General Social Survey) 相对应。2004 年,CGSS 项目组还联合日本综合社会调查 (JGSS) 项目组、韩国综合社会调查(KGSS)项目组、中国台湾社会变迁调查 (TSCS) 项目组发起东亚社会调查 (East Asian Social Survey,EASS) 计划。

大致检索知网,目前使用 CGSS 数据的相关文献的关注点围绕在社会态度 (包括幸福感、社会信任),以及 (收入) 机会不平等。例如:

  • 刘军强, 熊谋林, 苏阳. 经济增长时期的国民幸福感——基于CGSS数据的追踪研究[J]. 中国社会科学, 2012, 204(12):82-102+207-208. -PDF-
  • 何晓斌, 董寅茜. 工作权威、工作自主性与主观阶层认同形成——基于创业者劳动过程的实证研究[J]. 社会学研究,2021, 36(05):180-202+230. -PDF-
  • 李涛, 周君雅, 金星晔等. 社会资本的决定因素:基于主观经济地位视角的分析[J]. 经济研究, 2021, 56(01):191-205. -PDF-
  • 李莹, 吕光明. 中国机会不平等的生成源泉与作用渠道研究[J]. 中国工业经济, 2019, 378(09):60-78. -PDF-
  • 万广华, 张彤进. 机会不平等与中国居民主观幸福感[J]. 世界经济, 2021, 44(05):203-228. -PDF-
  • 左翔, 李明. 环境污染与居民政治态度[J]. 经济学(季刊), 2016, 15(04):1409-1438. -PDF-

2. 数据清洗

按照相关要求,我们无权共享 CGSS 数据。不过,CGSS 数据都已在 中国学术调查数据资料库 (China National Survey Data Archive,CNSDA) 上发布,注册下载十分简单,因此不再阐述。

我们以最新的 2021 年 CGSS 数据为例,并选取几项常用变量进行清洗清洗演示。但需要提醒的是,由于疫情影响,相比于前几期,2021 年 CGSS 样本量大幅降低。

2021 年 CGSS 数据在全国范围内共完成有效样本 8148 份;发布的数据版本里包含 700 个变量;2021 年 CGSS 的核心模块和主题模块内容询问所有的调查对象,附加的东亚社会调查 (EASS) 的健康模块、国际社会调查项目 (ISSP) 的健康模块、国际社会调查项目 (ISSP) 的环境模块各随机抽取三分之一的调查对象回答。

use CGSS2021.dta,clear  //导入数据
* 家庭规模
g size_family= A1+1
* 性别
recode A2 (1=1) (2=0),gen(gender)
* 年龄
g age=2021-A3_1
* 民族
recode A4 (1=1) (else=0),gen(nation)
* 教育程度
recode A7a (14=.),gen(edu)
* 个人收入
recode A8a (9999996 9999997 9999998 9999999=.), gen(income)
* 家庭收入
recode A62 (9999996 9999997 9999998 9999999=.), gen(income_famliy)
* 自评健康
recode A15 (98 99=.),gen(health)
* 户口
recode A18 (1=1) (6/7=.) (else=0),gen(hukou)
* 婚姻
recode A69 (1 2 6 7=0) (3/5=1),gen(married)
* 随机使用两种幸福量表
recode A36 (98 99=.),gen(happiness)
recode D1 (1/2=5) (3=4) (4=3) (5=2) (6/7=1) (else=.)
replace happiness=D1 if mi(happiness)
* 公平感
recode A35 (98 99=.),gen(fair)

上述是常用的控制变量,整体清洗比较简单。另外,CGSS 数据还询问了父母的相关职业,大家如果感兴趣,可根据回答自行重新编码。2022 年,贾瑞雪老师就曾利用 CGSS 数据库的父母职业背景问题,最后研究发表在经济学顶刊 Journal of Development Economics 上。

2021 年 CGSS 数据还询问了受访者不少有关新冠疫情影响的问题,笔者选取了几项问题,向大家展示出来,具体如下。

. tab happiness
RECODE of |
A36 (A36. |
总的来 |
说,您 |
觉得您 |
的生活 |
是否幸 |
福?) | Freq. Percent Cum.
------------+--------------------------------
1 | 129 1.59 1.59
2 | 326 4.01 5.60
3 | 1,071 13.17 18.77
4 | 4,480 55.10 73.87
5 | 2,125 26.13 100.00
------------+--------------------------------
Total | 8,131 100.00

. tab A35
A35. |
总的来说,您认为 |
当今的社会公不公 |
平?| Freq. Percent Cum.
----------------- ------+-----------------------------
完全不公平 | 346 4.25 4.25
比较不公平 | 1,131 13.88 18.13
说不上公平但也不能说不公平 | 1,735 21.29 39.42
比较公平 | 4,233 51.95 91.37
完全公平 | 645 7.92 99.29
不知道 | 47 0.58 99.86
拒绝回答 | 11 0.14 100.00
------------------------+-----------------------------
Total | 8,148 100.00

. tab V1
V1.目前 |
,您有 |
没有接 |
种新冠 |
疫苗?| Freq. Percent Cum.
------------+----------------------------
接种了 | 5,982 73.42 73.42
没接种 | 2,155 26.45 99.86
不愿回答 | 11 0.14 100.00
-----------+----------------------------
Total | 8,148 100.00

. tab D31
D31.您目前的就业状况与新冠 |
疫情之前相比,下列哪项描述 |
| Freq. Percent Cum.
-------------------------------------+-------------------------
我在疫情前没有工作,现在也没工作 | 3,108 38.14 38.14
我疫情前后的工作没有变化 | 4,252 52.18 90.33
我因为疫情失去了工作,现在有了一份新的 | 135 1.66 91.99
我因为疫情失去了工作,现在也没找到新的 | 99 1.22 93.20
我在疫情前没有工作,现在有了工作 | 110 1.35 94.55
我换工作或离职的原因与疫情无关 | 314 3.85 98.40
无法选择 | 116 1.42 99.83
拒绝回答 | 14 0.17 100.00
-------------------------------------+-------------------------
Total | 8,148 100.00

. tab D32
D32.您家 |
目前的收 |
入与新冠 |
疫情之前 |
相比有什 |
么变化?| Freq. Percent Cum.
------------+--------------------------
增长了很多 | 77 0.95 0.95
增长了一点 | 532 6.53 7.47
和疫情前一样 | 4,992 61.27 68.74
下降了一点 | 1,546 18.97 87.71
下降了很多 | 850 10.43 98.15
无法选择 | 135 1.66 99.80
拒绝回答 | 16 0.20 100.00
------------+--------------------------
Total | 8,148 100.00

. tab D33
D33.与新 |
冠疫情 |
之前相 |
比,您 |
目前与 |
家人或 |
朋友见 |
面的频 |
率有 | Freq. Percent Cum.
------------+--------------------------
少很多 | 1,595 19.58 19.58
少一点 | 2,490 30.56 50.14
基本一样 | 3,677 45.13 95.26
多一点 | 266 3.26 98.53
多很多 | 79 0.97 99.50
无法选择 | 33 0.41 99.90
拒绝回答 | 8 0.10 100.00
-----------+--------------------------
Total | 8,148 100.00

. tab E41_SQ001
E41.您认 |
为自己 |
感染新 |
冠的可 |
能性有 |
多大:|
   | Freq. Percent Cum.
-----------+--------------------------
1 极有可能 | 85 3.13 3.13
2 | 87 3.20 6.33
3 | 160 5.89 12.22
4 | 289 10.64 22.86
5 | 309 11.37 34.23
6 | 724 26.65 60.88
7 极不可能 | 1,063 39.12 100.00
-----------+--------------------------
Total | 2,717 100.00

. tab E38
E38.您有 |
多担心感 |
染上新冠 |
?| Freq. Percent Cum.
------------+--------------------------
非常担心 | 599 22.05 22.05
有些担心 | 730 26.87 48.91
不太担心 | 810 29.81 78.73
一点也不担心 | 578 21.27 100.00
------------+--------------------------
Total | 2,717 100.00

具体来看,疫情期间,国民幸福感仍比较高,不幸福的人群仅占比 5.6%;认为社会不公平的人群占比 18% 左右;近 30% 人群的工资因疫情出现下降。对于其他指标的描述,笔者不再详细阐述。进一步,笔者将“感染新冠的担心程度”和“接种疫苗”联系起来,做了一个简单的回归分析。

* 是否接种疫苗
recode V1 (2=0) (99=.),gen(vaccine)
* 感染的担心程度
recode E38 (1=4) (2=3) (3=2) (4=1),gen(worry_infection)
* 直接按照连续变量回归
. reg vaccine worry_infection gender age edu health hukou married income, r


Linear regression Number of obs = 2,436
F(8, 2427) = 37.93
Prob > F = 0.0000
R-squared = 0.1172
Root MSE = .41716
---------------------------------------------------------------------------------
| Robust
vaccine | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------------+----------------------------------------------------------------
worry_infection | .0304406 .0081609 3.73 0.000 .0144375 .0464437
gender | -.0072514 .0172919 -0.42 0.675 -.0411599 .0266571
age | -.0063479 .0006743 -9.41 0.000 -.0076703 -.0050256
edu | .0059331 .0034769 1.71 0.088 -.0008848 .012751
health | .0393772 .0088618 4.44 0.000 .0219998 .0567547
hukou | .0745892 .0203274 3.67 0.000 .0347284 .11445
married | .096852 .0198568 4.88 0.000 .0579139 .1357901
income | -2.24e-08 3.50e-08 -0.64 0.521 -9.10e-08 4.61e-08
_cons | .7100831 .0745277 9.53 0.000 .5639386 .8562276
---------------------------------------------------------------------------------

由上述结果可知,控制个人特征的情况下,越担心感染的个体,接种疫苗的可能性越高。当然,需要提醒的是,上述的回归结果,笔者仅仅是为了趣味性,不能作为严格意义上的计量考察,现实意义仍需要慎重对待。

上述 CGSS 数据清洗和实证分析尚存诸多不足,如发现明显错误,欢迎通过邮件与我沟通。

3. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 调查, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:数据分享
    • Stata:CHFS中国家庭金融调查数据库清洗和处理-D121
    • 清洗CFPS:两步搞定中国家庭追踪调查数据清洗
    • Stata数据处理:清洗CFPS数据库
  • 专题:数据处理
    • CHARLS-中国健康与养老调查数据库清洗(二)
    • CHARLS-中国健康与养老调查数据库清洗(一)
    • Stata数据处理:清洗中国城市建设统计年鉴

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章