charls变量太复杂,NA太多!
对于使用charls数据库发文章的各位医学生们,最大的问题便是对各种变量的提取捉摸不清(So difficulty!)
另外因为CHARLS是一个追踪访问数据,因此会每一个新的wave增加新的受访者,也可能某个wave中之前受访者会缺席等等不确定因素。这就导致我们按照nhanes的逻辑处理数据会有点困难且不正确。
👇举个例子,我们做2013wave慢病数量的这个变量时,我们需要考虑如下因素:
需要2011年就患有慢病的原受访者+2013年新受访者。
2011年原受访者没有哮喘等疾病,但是在2011-2013期间患了。
诸如此类变量,清洗过于麻烦,如对问卷理解不到位,将造成大量缺失。
harmonised数据--解决之道!
对于这类怎么办呢?我们可以直接使用CHARLS官方发布的harmonised数据。他对wave 1 2 3 4进行了full join,并且对一些常规变量进行处理,极其方便使用。下面是他的一些常规变量。
具体代码如下
1. 运行charlsMAX包
library(charlsMAX)
2. 载入数据
design <- c(
# 一开始加入一个2015的原始数据确定人数
"householdID_Demographic_Background_2015",
"r3lgrip_H_CHARLS_D_Data",#左手握力
"r3rgrip_H_CHARLS_D_Data",#右手握力
"r3mbmi_H_CHARLS_D_Data",#bmi
"r3agey_H_CHARLS_D_Data",#年龄
"ragender_H_CHARLS_D_Data",#性别
"raeduc_c_H_CHARLS_D_Data",#教育程度
"r3mstath_H_CHARLS_D_Data",#婚姻状态
"h3rural_H_CHARLS_D_Data",#居住地
"r3smokev_H_CHARLS_D_Data",#是否吸烟
"r3drinkev_H_CHARLS_D_Data",#是否喝酒
# chronic 14种
"r3hibpe_H_CHARLS_D_Data", "r3diabe_H_CHARLS_D_Data", "r3cancre_H_CHARLS_D_Data", "r3lunge_H_CHARLS_D_Data", "r3hearte_H_CHARLS_D_Data", "r3stroke_H_CHARLS_D_Data", "r3psyche_H_CHARLS_D_Data", "r3arthre_H_CHARLS_D_Data", "r3dyslipe_H_CHARLS_D_Data", "r3livere_H_CHARLS_D_Data", "r3kidneye_H_CHARLS_D_Data", "r3digeste_H_CHARLS_D_Data", "r3asthmae_H_CHARLS_D_Data", "r3memrye_H_CHARLS_D_Data",
# functional limit ALD IADL
"r3adlab_c_H_CHARLS_D_Data", "r3iadlza_H_CHARLS_D_Data",
# mental # 2015 年月日周几 减7 复制绘图
"r3orient_H_CHARLS_D_Data", "r3ser7_H_CHARLS_D_Data","r3draw_H_CHARLS_D_Data",
# mental # 2018
"r4orient_H_CHARLS_D_Data", "r4ser7_H_CHARLS_D_Data","r4draw_H_CHARLS_D_Data",
# immediate+delayed 2015
"r3tr20_H_CHARLS_D_Data",
# immediate+delayed 2018
"r4tr20_H_CHARLS_D_Data"
)
3. 读取数据
column_names <- get_descriptions(design)
# 获取原始数据
df <- fetch_CHARLS_data(design, merge_method ="left",column_names)
4. 对数据进行常规处理,即可获得如下处理好的data
通过这种方式,一方面可以提升数据分析速度,另一方面发现NA数据量大幅下降,增加数据结果可信性。
另外,他们的harmonised数据也是方便与HRS等数据进行多国之间的比较。
多数据库联合+环境联合
5. 一键生成Kaplan-Meier曲线、森林图-小白学习周期进一步缩短!
增加了codebook查询功能,目前支持CHARLS, CHNS, CLHLS, ELSA, MHAS, SHARE数据库。 增加了数据预览功能,根据code预览对应原始数据(速度极快),便于大家理解数据的构成与内容,支持目前的7个数据库。
深夜答疑,24h并肩作战
charlsMAX R包如何购买?
购买多国健康数据库精析与挖掘课程即送charlsMAX R包,并配有常规学习代码、文章实操复现等视频学习内容(永久观看)
另有服务:社群答疑(永久)、1v1选题 审稿 投稿推荐 返修指导服务(2年)
价格:3999,学生3799(包含税,可开发票)
福利来咯!
转发此条至朋友圈+配文字“医豌豆,科研精,公共数据库助你行”(维持3小时以上),即可免费获取“配有charlsMAX相关code、变量查询的网站”,并可加入公共数据库交流社群一起学习。
课程咨询微信
豌豆老师
小宇老师
课程购买链接
行稳致远 进而有为
期待你的
分享
点赞
在看