GBD数据库分析高分技巧——分层聚类

健康   2024-09-13 07:48   浙江  
GBD数据库本身就是一个可用于研究全球疾病负担的数据库,数据全面、分析简单,无论是统计小白还是科研医生都能用这个数据库进行探索。但要想在众多文章中脱颖而出,不妨添加一些“套路”。
今天就用一篇一区top文章为大家讲清楚,如何用层次聚类对GBD数据库进行聚类分析。
单来说,聚类分析就像是把一堆不同的水果(如苹果、香蕉、橙子)根据它们的特征(如颜色、大小、形状)分成几类。

聚类分析的本质,就是对变量进行分类,研究者依据自身对变量和理论的了解,将具有相同性质的变量分为一类。如果你也想在挖掘GBD数据库时尝试这个分析套路,欢迎联系郑老师的统计团队!专业的统计师指导,不管是聚类分析还是预测模型,都可以带你尝试!如果你对GBD数据库挖掘感兴趣,扫描下方二维码来聊聊吧!

微信号aq566665

统计服务|专业指导


接下来我们将以一篇GBD聚类文章为例,为大家解读如何用聚类分析对不同地区的数据进行分类

2024年3月12日,英国伦敦国王学院的作者在《Science of The Total Environment》(医学一区top,IF=8.2)中发表的题为:“Effect of ambient ozone pollution on disease burden globally: A systematic analysis for the global burden of disease study 2019”的研究论文,旨在探究GBD环境臭氧污染对于全球疾病负担的影响。

如果需要本文的PDF,仅需后台回复原文,即可自动获取。

本文有两大亮点第一点为在数据分析时使用了分层聚类分析的方法;第二点为文章方向为臭氧对所有疾病的疾病负担。

接下来本文将从这两点进行简单介绍。

何为分层聚类分析?

当我们在网上搜“聚类分析”时,跳出来的第一句话就是“聚类分析是一种无监督学习的方法,旨在将数据集中的样本划分为具有相似特征的不同组”。
问题来了,什么是监督式学习?和监督式学习有什么区别?
简单来讲,有监督学习就像老师教孩子识别苹果和香蕉,给出明确的“这是苹果”、“那是香蕉”的指示,孩子学会了根据这些标签来分类。

而无监督学习则是一群孩子在沙滩上玩耍,没有大人告诉他们怎么玩,他们自己分群、堆沙堡或挖沙子,形成了自然的群体和活动模式。

如果公式的角度,我们可以从最简单的线性回归来理解
Y=aX+b
公式中的Y为响应变量向量,X为自变量向量,a为系数,b为截距。将所有数据都告知,得出最后的Y,这就是一个简单的有监督式学习的公式。
而无监督式学习呢,就是没有Y这个响应变量,只有自变量X。而是通过自变量X之间的一些数据特性进行聚类,降维,关联规则学习。
我们今天要说的层次聚类(Hierarchical Clustering)就是聚类分析中的一种。层次聚类目的是把每个数据点作为一个独立的簇开始,然后逐步合并最相似的簇,直到所有的数据点被合并到一个簇中或达到了预定的簇。
举个例子,在200个水果中有苹果,葡萄,龙眼,橙子,西瓜找出类似的。那聚类会更具形状,大小,颜色来把这些水果分组。如果目标是分成3组,那可能开始时200个水果会按各自的大小,颜色聚集到同一个簇中,最终可能以葡萄和龙眼组,苹果和橙子组,西瓜组分成3个大组。

文章内容

接下来将对文章内容进行简单介绍。

暴露于环境臭氧污染会造成健康损失甚至死亡,两者都是世界范围内疾病负担的主要危险因素。因此本文的研究团队基于GBD 2019的数据,综合合评价臭氧污染相关疾病负担。

初步分析表明,2019年,臭氧污染导致全球365,222人死亡,6,210,145人死亡,占全球死亡人数的0.65%,占全球DALYs的0.24%。
研究团队发现,疾病负担随着年龄的增长而持续增加,其中男性为高危人群,中低社会人口指数(SDI)区域为高危区。
由于臭氧污染的疾病负担在GBD区域和各国之间差别很大,因此研究团队使用聚类分析评价全球疾病负担研究(GBD)地区相关疾病负担的变化规律。
结果发现,2019年,与1990年相比,死亡人数和残疾病例数分别增长了76.11%和56.37%。
最后,使用率年龄-时期-队列(APC)模型和贝叶斯年龄-时期-队列(BAPC)模型预测未来25年的疾病负担。结果显示,从2020年到2044年,男女死亡病例数和残疾调整生命年病例数仍将增加。
综上所述,如今环境臭氧污染已经威胁到全球公众的健康。应考虑全球具体情况,制定更积极有效的战略措施。
总之,将分层聚类方法应用于GBD数据库的分析中,不仅可以细化数据的分层结构,丰富研究成果的多样性,增强数据可视化的效果,从而使研究报告更加具有创新性和说服力。

关于郑老师团队及公众号 


全国最大的线上医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是统计助理!


我们提供以下科研与统计服务:

研究者发起的临床试验项目

医院回顾性数据分析与预测模型

③利用医学数据库快速挖掘SCI论文结果

预测模型、医学数据库1对1 R语言指导

⑤超过12门的科研统计培训直播课

联系助教小董咨询(微信号aq566665)



医学论文与统计分析
本号为高校统计学老师所设,介绍最新医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章