CHARLS年龄没有那么多缺失值!

文摘   2024-10-30 11:25   美国  

charls直接计算年龄太多NA,为什么!

现在想用CHARLS数据库研究,遇到第一个问题可能是直接计算年龄(访问年份-问卷给的出生年),可能会遇到大量的缺失值。这种方法存在的问题如下:

1. 没有理清CHARLS 问卷的跳转思路。对于已采集了出生年份的受访者,本轮访问只会记录更新情况上一轮没采集到的少部分受访者,本轮记录其出生年份;

2. CHARLS大部分受访者为上了年纪的老人,他们会忘记自己的公历出生年,记忆年份为农历(或者生肖),而科研中的出生年份为公历,需要进行转换(stata没有农历转公历程序,项目组论坛有发布官方编写的农历转公历的程序(https://github.com/charls-data/lunar2solar)。

3.农历存在闰月的情况,想要精准获得出生年月,需要农历转公历

如何解决NA问题!

1. wave1-4(2011-2018):使用charls的Harmonized数据(只包括2011-2018),里面的年龄是科学计算好的(处理了农历转换、闰月等问题)。

2. wave 5(2020)参照下图的逻辑,用数据给的z开头的变量+问卷的出生年份变量即可计算全部19395个受访者无缺失的年龄。

3. 自己想尝试计算某个特定wave的年龄:可参照下图的官方项目组的代码(考虑了农历转换等问题)【年龄清理代码:harmonized charls dofiles官网https://charls.charlsdata.com/documents/1141/download/en.html】

4. 利用charlsMAX R包获取年龄变量:如下图,只需如下一行代码,即可提取出age变量:

多数据库联合+环境联合

    本工作室特开发全网首发charlsMAX 包,专为方便CHARLS、CLHLS、CHNS、HRS、ELSA、SHARE、MHAS七大数据库清洗变量、数据分析打造;此外,R包中内置环境数据,可将多数据库与环境数据联合,缩短数据计算时间,高效分析,发文更快、更高水准。
功能介绍如下:
1R包直接调取变量数据-简简单单、干干净净。
2. 一款帮你写好代码的R包---直接复制运行,轻松计算二次变量!

3.  半小时学会生成基线表
4. 加更轨迹分析、筛选并构建最佳模型、可视化样样齐全!

5. 一键生成Kaplan-Meier曲线森林图-小白学习周期进一步缩短!

6. 配备了完备的数据检索网站,再也不用查手册啦:配备charlsMAX相关code、变量的查询网站轻松知道所需变量的wave/year、description、Code、Source等信息,具体功能介绍如下图。

此次更新如下:
  • 增加了codebook查询功能,目前支持CHARLS, CHNS, CLHLS, ELSA, MHAS, SHARE数据库。
  • 增加了数据预览功能,根据code预览对应原始数据(速度极快),便于大家理解数据的构成与内容,支持目前的7个数据库。



深夜答疑,24h并肩作战

charlsMAX R包如何购买?

  • 购买多国健康数据库精析与挖掘课程即送charlsMAX  R包,并配有常规学习代码、文章实操复现等视频学习内容(永久观看)

  • 另有服务:社群答疑(永久)、1v1选题 审稿 投稿推荐 返修指导服务(2年)

  • 价格:3999,学生3799(包含税,可开发票)


福利来咯!

    转发此条至朋友圈+配文字“医豌豆,科研精,公共数据库助你行”(维持3小时以上),即可免费获取“配有charlsMAX相关code、变量查询的网站”,并可加入公共数据库交流社群一起学习。


课程咨询微信

豌豆老师

小宇老师




课程购买链接


注:以上内容来源于小红书”阿狸爱科研“博主的分享。

-END-

行稳致远 进而有为


期待你的

分享

点赞

在看




豌豆医学科研
擅长医学公共数据库挖掘及教学:NHANES、charls、KLoSA、HRS等
 最新文章