更快提取charls常用变量,NA值降至更低

文摘   2024-10-20 17:00   美国  

charls变量太复杂,NA太多!

对于使用charls数据库发文章的各位医学生们,最大的问题便是对各种变量的提取捉摸不清(So difficulty!)

另外因为CHARLS是一个追踪访问数据,因此会每一个新的wave增加新的受访者,也可能某个wave中之前受访者会缺席等等不确定因素。这就导致我们按照nhanes的逻辑处理数据会有点困难且不正确。

👇举个例子,我们做2013wave慢病数量的这个变量时,我们需要考虑如下因素:

  1. 需要2011年就患有慢病的原受访者+2013年新受访者。

  2. 2011年原受访者没有哮喘等疾病,但是在2011-2013期间患了。

诸如此类变量,清洗过于麻烦,如对问卷理解不到位,将造成大量缺失。

harmonised数据--解决之道!

对于这类怎么办呢?我们可以直接使用CHARLS官方发布的harmonised数据。他对wave 1 2 3 4进行了full join,并且对一些常规变量进行处理,极其方便使用。下面是他的一些常规变量。

具体代码如下

1. 运行charlsMAX包

library(charlsMAX)

2. 载入数据

design <- c(# 一开始加入一个2015的原始数据确定人数"householdID_Demographic_Background_2015","r3lgrip_H_CHARLS_D_Data",#左手握力"r3rgrip_H_CHARLS_D_Data",#右手握力"r3mbmi_H_CHARLS_D_Data",#bmi"r3agey_H_CHARLS_D_Data",#年龄"ragender_H_CHARLS_D_Data",#性别"raeduc_c_H_CHARLS_D_Data",#教育程度"r3mstath_H_CHARLS_D_Data",#婚姻状态"h3rural_H_CHARLS_D_Data",#居住地"r3smokev_H_CHARLS_D_Data",#是否吸烟"r3drinkev_H_CHARLS_D_Data",#是否喝酒# chronic  14种  "r3hibpe_H_CHARLS_D_Data", "r3diabe_H_CHARLS_D_Data", "r3cancre_H_CHARLS_D_Data", "r3lunge_H_CHARLS_D_Data", "r3hearte_H_CHARLS_D_Data", "r3stroke_H_CHARLS_D_Data", "r3psyche_H_CHARLS_D_Data", "r3arthre_H_CHARLS_D_Data", "r3dyslipe_H_CHARLS_D_Data", "r3livere_H_CHARLS_D_Data", "r3kidneye_H_CHARLS_D_Data", "r3digeste_H_CHARLS_D_Data", "r3asthmae_H_CHARLS_D_Data", "r3memrye_H_CHARLS_D_Data",# functional limit  ALD   IADL"r3adlab_c_H_CHARLS_D_Data", "r3iadlza_H_CHARLS_D_Data",# mental # 2015   年月日周几  减7  复制绘图  "r3orient_H_CHARLS_D_Data", "r3ser7_H_CHARLS_D_Data","r3draw_H_CHARLS_D_Data",# mental # 2018"r4orient_H_CHARLS_D_Data", "r4ser7_H_CHARLS_D_Data","r4draw_H_CHARLS_D_Data",# immediate+delayed 2015 "r3tr20_H_CHARLS_D_Data",# immediate+delayed 2018"r4tr20_H_CHARLS_D_Data")

3. 读取数据

column_names <- get_descriptions(design)# 获取原始数据df <- fetch_CHARLS_data(design, merge_method ="left",column_names)

4. 对数据进行常规处理,即可获得如下处理好的data

通过这种方式,一方面可以提升数据分析速度另一方面发现NA数据量大幅下降,增加数据结果可信性。

另外,他们的harmonised数据也是方便与HRS等数据进行多国之间的比较

多数据库联合+环境联合

    本工作室特开发全网首发charlsMAX 包,专为方便CHARLS、CLHLS、CHNS、HRS、ELSA、SHARE、MHAS七大数据库清洗变量、数据分析打造;此外,R包中内置环境数据,可将多数据库与环境数据联合,缩短数据计算时间,高效分析,发文更快、更高水准。
功能介绍如下:
1R包直接调取变量数据-简简单单、干干净净。
2. 一款帮你写好代码的R包---直接复制运行,轻松计算二次变量!

3.  半小时学会生成基线表
4. 加更轨迹分析、筛选并构建最佳模型、可视化样样齐全!

5. 一键生成Kaplan-Meier曲线森林图-小白学习周期进一步缩短!

6. 配备了完备的数据检索网站,再也不用查手册啦:配备charlsMAX相关code、变量的查询网站轻松知道所需变量的wave/year、description、Code、Source等信息,具体功能介绍如下图。

此次更新如下:
  • 增加了codebook查询功能,目前支持CHARLS, CHNS, CLHLS, ELSA, MHAS, SHARE数据库。
  • 增加了数据预览功能,根据code预览对应原始数据(速度极快),便于大家理解数据的构成与内容,支持目前的7个数据库。



深夜答疑,24h并肩作战

charlsMAX R包如何购买?

  • 购买多国健康数据库精析与挖掘课程即送charlsMAX  R包,并配有常规学习代码、文章实操复现等视频学习内容(永久观看)

  • 另有服务:社群答疑(永久)、1v1选题 审稿 投稿推荐 返修指导服务(2年)

  • 价格:3999,学生3799(包含税,可开发票)


福利来咯!

    转发此条至朋友圈+配文字“医豌豆,科研精,公共数据库助你行”(维持3小时以上),即可免费获取“配有charlsMAX相关code、变量查询的网站”,并可加入公共数据库交流社群一起学习。


课程咨询微信

豌豆老师

小宇老师




课程购买链接


注:以上内容来源于小红书”阿狸爱科研“博主的分享。

-END-

行稳致远 进而有为


期待你的

分享

点赞

在看

豌豆医学科研
擅长医学公共数据库挖掘及教学:NHANES、charls、KLoSA、HRS等
 最新文章