还在用简单套路分析GBD？用上分层聚类，为你的IF添砖加瓦

文摘 2024-09-12 17:48 浙江

引言

想要0实验发高分文章，GBD数据库绝对是不二选择！通过先前分享的GBD文章，大家对分析套路都有一定的了解，今天带来的是GBD数据库的新套路——如何利用层次聚类对GBD数据库进行聚类分析。

GBD数据库本身就是一个可用于研究全球疾病负担的数据库，数据全面、分析简单，无论是统计小白还是科研医生都能用这个数据库进行探索。但要想在众多文章中脱颖而出，不妨添加一些“套路”。

今天就用一篇一区top文章为大家讲清楚，如何用层次聚类对GBD数据库进行聚类分析。

简单来说，聚类分析就像是把一堆不同的水果（如苹果、香蕉、橙子）根据它们的特征（如颜色、大小、形状）分成几类。

聚类分析的本质，就是对变量进行分类，研究者依据自身对变量和理论的了解，将具有相同性质的变量分为一类。如果你也想在挖掘GBD数据库时尝试这个分析套路，欢迎联系郑老师的统计团队！专业的统计师指导，不管是聚类分析还是预测模型，都可以带你尝试！如果你对GBD数据库挖掘感兴趣，扫描下方二维码来聊聊吧！

微信号｜aq566665

统计服务｜专业指导

接下来我们将以一篇GBD聚类文章为例，为大家解读如何用聚类分析对不同地区的数据进行分类。

2024年3月12日，英国伦敦国王学院的作者在《Science of The Total Environment》（医学一区top，IF=8.2）中发表的题为:“Effect of ambient ozone pollution on disease burden globally: A systematic analysis for the global burden of disease study 2019”的研究论文，旨在探究GBD环境臭氧污染对于全球疾病负担的影响。

如果需要本文的PDF，仅需后台回复原文，即可自动获取。

本文有两大亮点：第一点为在数据分析时使用了分层聚类分析的方法；第二点为文章方向为臭氧对所有疾病的疾病负担。

接下来本文将从这两点进行简单介绍。

何为分层聚类分析？

当我们在网上搜“聚类分析”时，跳出来的第一句话就是“聚类分析是一种无监督学习的方法，旨在将数据集中的样本划分为具有相似特征的不同组”。

问题来了，什么是无监督式学习？和监督式学习有什么区别？

简单来讲，有监督学习就像老师教孩子识别苹果和香蕉，给出明确的“这是苹果”、“那是香蕉”的指示，孩子学会了根据这些标签来分类。

而无监督学习则是一群孩子在沙滩上玩耍，没有大人告诉他们怎么玩，他们自己分群、堆沙堡或挖沙子，形成了自然的群体和活动模式。

如果公式的角度，我们可以从最简单的线性回归来理解：

Y=aX+b

公式中的Y为响应变量向量，X为自变量向量，a为系数，b为截距。将所有数据都告知，得出最后的Y，这就是一个简单的有监督式学习的公式。

而无监督式学习呢，就是没有Y这个响应变量，只有自变量X。而是通过自变量X之间的一些数据特性进行聚类，降维，关联规则学习。

我们今天要说的层次聚类（Hierarchical Clustering）就是聚类分析中的一种。层次聚类目的是把每个数据点作为一个独立的簇开始，然后逐步合并最相似的簇，直到所有的数据点被合并到一个簇中或达到了预定的簇。

举个例子，在200个水果中有苹果，葡萄，龙眼，橙子，西瓜找出类似的。那聚类会更具形状，大小，颜色来把这些水果分组。如果目标是分成3组，那可能开始时200个水果会按各自的大小，颜色聚集到同一个簇中，最终可能以葡萄和龙眼组，苹果和橙子组，西瓜组分成3个大组。

文章内容

接下来将对文章内容进行简单介绍。

暴露于环境臭氧污染会造成健康损失甚至死亡，两者都是世界范围内疾病负担的主要危险因素。因此本文的研究团队基于GBD 2019的数据，综合综合评价臭氧污染相关疾病负担。

初步分析表明，2019年，臭氧污染导致全球365,222人死亡，6,210,145人死亡，占全球死亡人数的0.65%，占全球DALYs的0.24%。

研究团队发现，疾病负担随着年龄的增长而持续增加，其中男性为高危人群，中低社会人口指数(SDI)区域为高危区。

由于臭氧污染的疾病负担在GBD区域和各国之间差别很大，因此研究团队使用聚类分析评价全球疾病负担研究(GBD)地区相关疾病负担的变化规律。

结果发现，2019年，与1990年相比，死亡人数和残疾病例数分别增长了76.11%和56.37%。

最后，使用率年龄-时期-队列(APC)模型和贝叶斯年龄-时期-队列(BAPC)模型预测未来25年的疾病负担。结果显示，从2020年到2044年，男女死亡病例数和残疾调整生命年病例数仍将增加。

综上所述，如今环境臭氧污染已经威胁到全球公众的健康。应考虑全球具体情况，制定更积极有效的战略措施。

总之，将分层聚类方法应用于GBD数据库的分析中，不仅可以细化数据的分层结构，丰富研究成果的多样性，增强数据可视化的效果，从而使研究报告更加具有创新性和说服力。

关于郑老师团队及公众号

全国最大的线上医学统计公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是统计助理！

我们提供以下科研与统计服务：

联系助教小董咨询（微信号aq566665）

http://mp.weixin.qq.com/s?__biz=MzkwMjQxODM3NQ==&mid=2247503589&idx=1&sn=25d6e1de9fe8b65dcf034c133d67621e

公共数据库与孟德尔随机化

我们专门介绍公共数据库与孟德尔随机化，每周文献周报，呈现精品文献阅读

最新文章

主刊重磅！GBD 2021数据库再登柳叶刀，拿下IF=98.4

同个指标，两篇二区！NHANES膳食指标CDAI了解一下| NHANES数据库周报（10.19~10.25）

IF=29.5！中国学者用GBD 2021数据库水灵灵拿一区| GBD数据库周报（10.19~10.25）

就在明天！新一期“30天学会SPSS”课程又开课啦！全程免费，助教答疑，欢迎报名！

赞！上海交大用中介孟德尔随机化发文二区（IF=4.8）| 孟德尔随机化周报（10.20-10.26）

挑战半天搞定一篇NHANES！10分钟教你解决数据清洗大难题！

又是eGFR！中国学者用Charls数据库探索发文二区(IF=5.0)| CHARLS等七大老年公共数据库周报（10.20）

速看，NHANES更新最新一波饮食数据，涵盖疫情期间数据！手慢则无

发文新趋势？一周三篇综合指标均发文一区| NHANES数据库周报（10.12~10.18）

挑战半天搞定一篇NHANES！零代码数据下载与整合

NHANES仅2篇的新膳食指标DI-GM，中国学者探究其与抑郁的关联发文SCI

高分秘籍？清华学者仅分析GBD 2019拿二区| GBD数据库周报（10.12~10.18）

太顶了！双样本孟德尔随机化＋蛋白质组学探究痔疮药物靶点，拿下一区top（IF=23.0）

新课程预告！欢迎报名，临床预测模型中应用机器学习的课程，可预开发票

太强了！GBD 2021数据库再登Lancet子刊，拿下IF 38.7

So easy！Charls＋孟德尔随机化强强联手发二区| 孟德尔随机化周报（10.13-10.19）

新数据更新，NHANES数据库该如何选题？

NHANES新指标！心血管健康指标LC9发一区| NHANES数据库周报（10.06~10.11）

跟着大佬别掉队！上海交大用GBD 2021数据库综合分析病毒性疾病，拿下SCI一区

就在本周日！NHANES数据库直播课程重磅来袭，让你一天搞定R语言实操！

IF=7.0！中南大学学者联合NHANES＋UKB数据库发文一区top

超70%二区以上，北大学者用GBD 2019发高分| GBD数据库周报（10.5~10.11）

Charls还能这么挖？中国学者探究空气污染物与心血管病关联，发一区top（IF=7.0）

本周日！一天搞定NHANES医学数据库挖掘R语言实操，欢迎报名

双样本MR热度不减，二区表现依旧抢眼！| 孟德尔随机化周报（10.6-10.12）

还在苦苦敲代码？教你一键完成NHANES加权数据亚组森林图，小白也能快速搞定！

IF=10.5！仅整合NHANES数据分析拿下JAMA子刊

本周末！2024年NHANES医学数据库挖掘直播课来啦，发文后退款，欢迎报名

NHANES数据库再发力，二区以上期刊发文占比持续上升！

一周发文破百，48篇二区以上！| NHANES数据库周报（9.29~10.05）

不开发，仅外部验证！NHANES数据库+预测模型发JAMA子刊(IF=10.5)

开课啦！新一期SPSS公益免费课今天开课，欢迎报名，有问必答

BMI 宣布出局！中国学者用NHANES新指标BRI预测死亡风险，发JAMA子刊（IF=10.5）

发文后可退款！2024年NHANES医学数据库挖掘直播课即将开始，欢迎报名

保研、升职称的利器——Nhanes数据，这一波热度可要抓紧了！

想用NHANES新数据发文？快来参加郑老师团队NHANES数据库挖掘1对1指导班！

IF=10.5！NHANES数据库再登JAMA子刊，这个简单套路根本用不腻

还在苦学R语言？用这个平台，快速分析NHANES加权数据！

速学！中国学者用NHANES指标eGDR做预测，拿下高分SCI（IF=5.4）

发文后退款，2024年新一期NHANES医学免费数据库挖掘直播课即将开始！

为什么说NHANES是发表SCI文章的最好的数据库

NHANES快速分析利器来了，真的太好用了，一气呵成！

一天三顿，少吃哪顿都加速衰老！中国学者用4个NHANES年龄指标拿下一区Top

超给力！“NHANES新数据＋SCI”组合拳，首选郑老师NHANES培训课程！

不可思议！中国学者用Charls构建预测模型，AUC<0.7依旧发二区！

IF=10.6！孟德尔随机化+代谢组学超绝搭配发一区| 孟德尔随机化周报（9.19-9.28）

一键绘制影响因素森林图，NHANES加权分析，快速搞定！

NHANES加权数据的分析，现在可以零代码一键完成了

又被孟德尔随机化硬控！进阶MR+双病分析冲击JAMA子刊(IF=14.8)

叶酸多吃能减缓衰老！但必须注意来源| NHANES数据库周报（9.18~9.28）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉