统计超100万条新浪微博后,他们发了JAMA子刊文章,发现全国人失眠的一个幕后黑手

健康   2024-12-18 07:49   浙江  

2024年底直播预告

2024年“临床试验设计与数据分析"直播课12.22 举行,欢迎参加!

2024年11月20日,中国学者在医学顶刊JAMA子刊《JAMA Network Open》(医学一区top,IF=10.5)发表了一篇题为Outdoor Artificial Light at Night and Insomnia-Related Social Media Posts的研究论文,结合基于卫星的户外夜间人造光(ALAN)观测和来自社交媒体的每日城市级失眠数据,通过各种统计方法和机器学习进行了一项全国性研究,以评估中国人群中ALAN暴露与失眠之间的关系。
研究结果表明,增加ALAN的暴露与失眠发病率的上升之间存在显著关联。

如果你需要全文,请公众号后台回复关键词“pdf”更多关于临床试验设计与数据分析服务,请联系郑老师团队,助教微信:aq566665

与自然光相比,夜间人造光(ALAN)会发出更多的短波长蓝光,从而抑制人体内褪黑素的分泌,影响睡眠。然而ALAN暴露与失眠之间的关联却尚未明确。
  • ALAN暴露(单位:毫瓦特/平方厘米/球面度[nW/cm 2/sr])使用卫星获得的夜间光线图像以500 m的空间分辨率进行测量。
  • 城市居民的失眠发病率通过社交媒体上与失眠相关的帖子数量来衡量的。

图1 与失眠相关的微博,其IP地址与内容一起显示在用户主页上
社交媒体数据的收集,自然不会很容易,本文研究者考虑的十分全面。
①首先,收集社交媒体数据的传统方法仅限于具有地理标记的帖子,大量缺乏独立地理标记的帖子被忽略。
为了解决这个问题,研究者使用了微博在2022年4月发布的每个社交媒体帖子的互联网协议定位功能,并设计了一个基于Scrapy框架的两阶段爬虫方法
图2 微博帖子提取过程中的“两阶段爬虫”方法流程图
  • 在第一阶段,根据与失眠相关的关键词收集具有互联网协议位置的社交媒体帖子。只有包含指定关键词的社交媒体帖子被纳入研究。
  • 在第二阶段,通过用户名收集社交媒体用户的位置等公开的个人信息。由于一些含有失眠相关关键词的帖子,如新闻、广告等,可能不能真实反映人们的失眠情况,我们选择了极限梯度提升(XGBoost)来完成微博数据的文本分类任务。

②其次,为了解决人口规模和年龄结构对ALAN与失眠之间关联的影响,我们使用失眠发生率来评估居民的失眠发生率,其定义为每10 000用户中与失眠相关的社交媒体帖子的数量。
③为了使数据具有可比性,用户群使用了每个城市15至39岁的人口,因为这个年龄组占社交媒体用户总数的96%。
最后,经过纳排,研究团队通过新浪微博,收集了2022年5月至2023年4月期间,来自中国336个城市15~39岁的群体发布的1,147,583个失眠相关社交媒体帖子。

夜间户外人造光暴露会增加失眠风险

研究结果表明,ALAN暴露量每增加5 nW/cm 2/sr,失眠发生率增加0.377%。

表1 ALAN暴露与失眠之间的关系
值得一提的是,研究团队发现与大城市相比,中等城市和小城市的ALAN暴露对失眠的估计影响更大。
此外,ALAN暴露对失眠的影响在不同的时间段和季节存在差异,在极端温度或空气质量差时,ALAN暴露对失眠的影响加剧

图3 亚组分析结果

在深入研究后,研究团队发现ALAN暴露与失眠之间的暴露-反应曲线呈上升趋势,低暴露时上升较快,高暴露时趋于平稳。

  • 这意味着在ALAN低暴露水平时,每增加一定量的暴露,失眠发生率显著增加;但当暴露达到一定高水平后,暴露对失眠发生率的影响减弱。

图4 夜间人造光与失眠发生率关系的暴露-反应曲线
综上所述,研究结果证实,在中国,高水平的夜间人造光(ALAN)暴露已成为影响人群睡眠的重要危险因素。
虽然该项研究强调了夜间光污染可能会对人体健康产生危害,但研究团队认为,在城市化进展的早期,如果能精心规划人工照明布局,不仅不会影响睡眠,还会对人体健康有潜在益处。

统计学方法

1. 主要统计方法:该研究是一项采用时间序列设计的多城市研究,主要使用多变量调整线性回归评估夜间人造光(ALAN)暴露与中国人群失眠之间的关联。

2. 暴露-反应曲线的估计:为了评估ALAN暴露与失眠发生率之间的暴露-反应曲线,研究者进行了平滑项拟合。

具体而言,在多变量调整模型中,ALAN暴露被拟合为平滑项,使用具有3个节点的样条(spline)函数来实现。

3. 亚组分析:为了检查潜在的影响变化,研究者进行了亚组分析,分别按以下因素进行分层:

  • 城市类别:大城市(人口>500万)、中等城市(人口≥300万且≤500万)、小城市(人口<300万);

  • 时间因素:周末、假日、季节(春、夏、秋、冬);

  • 环境因素:温度和空气质量指数。

4. 敏感性分析:为了确保效果估计的稳健性,研究者进行了一系列敏感性分析,包括:

  • 调整变量:调整人均国内生产总值指数或社交媒体受欢迎程度;

  • 机器学习回归使用机器学习回归方法进行模型拟合,包括随机森林、决策树和XGBoost等算法;

  • 假阳性关联检查:对可能与失眠无关的单词(如烹饪和跳舞)进行相同的处理,以检查假阳性关联的可能性;

  • 社交媒体流行度控制:微博的流行度由微博平台上讨论的话题的流行度得分来定义,在协变量中调整为十大热门话题的平均指数,以控制社交媒体发布量和公共事件的影响力。
5.统计学显著性设定为P<0.05(双尾),所有分析均使用Python统计软件版本3.8.2(Python Software Foundation)和R统计软件版本4.3.1(R Project for Statistical Computing)进行。

公众号后台回复关键词“pdf”,即可获取原文!更多关于临床试验设计与数据分析服务,请联系郑老师团队,助教微信:aq566665

关于郑老师团队及公众号 

全国较大的线上医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是统计助理!


我们提供以下临床试验全流程服务:

①随机对照研究方案设计指导
②撰写统计分析计划
③规范靠谱的数据分析
④论文写作指导与统计修回

详情链接:
临床试验项目设计与数据分析,我们是可靠的合作伙伴

联系陈老师咨询(微信号sas555777)


医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章