研究结合了多种来源的数据,以确保研究的全面性和准确性:
糖尿病数据:
发病率数据:从美国疾病控制与预防中心(CDC)的“美国糖尿病监测系统”收集。基于居民自我报告的诊断信息,采用贝叶斯多层建模估计县级发病率。 死亡率数据:来自CDC的“广域流行病学研究数据在线系统(WONDER)”。死亡数据根据国际疾病分类(ICD-10:E10-E14)定义。 排除地区:由于数据限制,研究未包含阿拉斯加、夏威夷、关岛、波多黎各和美属维尔京群岛的数据。 污染物数据:
PM2.5及其成分(如硫酸盐、硝酸盐、元素碳、有机碳、氨离子)的年度浓度数据来自NASA的“社会经济数据应用中心(SEDAC)”。 数据分辨率:在城市地区分辨率为50米,非城市地区为1公里。城市和非城市数据被整合为县级平均值。 气候数据:
气温数据来自欧洲中期天气预报中心(ECMWF)的ERA5-Land气候数据集。 分析采用了每日气温均值计算夏季(6月-8月)和冬季(12月-2月)的县级平均气温及其标准差。 社会经济和行为数据:
包括贫困率、老年人比例(65岁及以上)、健康保险覆盖率、人均GDP、肥胖率和身体活动不足率。 数据来源于美国人口普查局、经济分析局(BEA)和CDC的BRFSS(行为风险因素监测系统)数据集。
使用两路固定效应模型(TWFE)结合分位数G计算法(QGC)分析多成分暴露与糖尿病之间的因果关系。 通过差分法消除时空混杂因素,并通过边际结构模型估计成分混合物的边际 效应。 进行灵敏度分析以验证模型的稳健性。 为了验证结果的稳健性,研究进行了多种灵敏度测试:
- 非线性效应:使用自然三次样条函数测试成分的非线性效应。
- 分位数分布:将成分的分位数从四分位扩展为五分位和十分位,以验证分布精度对结果的影响。
- 混杂检验:计算PM2.5成分与混杂变量(如温度、GDP变化率)的相关性。如果绝对值小于0.2,则认为混杂控制较好。
- E值计算:评估未测量混杂变量的影响,较高的E值表明结果较不受混杂变量的影响。
温度:在夏季或冬季气温低于平均水平时,PM2.5成分的混合效应更显著。 社会经济因素:在健康保险覆盖率较高的地区,硝酸盐的贡献更显著。