还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

健康 2024-11-27 07:49 浙江

引言

本周末开课：机器学习方法

11.30-12.1 R语言构建机器学习课程开启，欢迎报名开启

常规机器学习分析的文章大家都看了不少了，今天给大家分享一篇基于4种不同中国青少年受欺凌的受害者轨迹，使用常见的随机森林（RF）法构建预测模型。

先来看看本文的研究设计吧：

1.数据收集与处理

对于缺失的数值型数据，使用中位数进行填充；
对于缺失的分类型数据，使用众数进行填充；
针对参与者分布不均衡的问题，使用随机过采样法来平衡数据集。

2.轨迹分析——组轨迹模型（GBTM）

基于每次调查的总受害分数，测试了2~5个组的轨迹模型；
通过贝叶斯信息准则（BIC）、赤池信息准则（AIC）和对数似然（LL）确定了最优组数。

3.模型的构建与评估

数据集被分为70%训练集和30%验证集；
使用多个指标评估模型性能，包括准确性、灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）和ROC的曲线下面积（AUC）。

4.特征重要性评估

使用"randomForestExplainer"包可视化RF模型中特征的重要性；
使用多个指标从不同角度评估特征重要性，包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率（times_a_root）以及p值。

老郑有个疑问，对估计模型进行建模，合理吗？

据报道，全球约28.9%的13至15岁青少年曾遭受过欺凌。而在中国，欺凌更是造成青少年患精神障碍的首要原因。

随着年龄的增长，部分青少年摆脱欺凌，而部分却继续受到迫害，更有甚者从受害者转变为加害者。因此，研究团队基于不同的受害者轨迹构建预测模型，旨在为不同的受害者量身定制反欺凌干预措施。

11月21日，中国学者在期刊《Journal of Affective Disorders》（医学二区top，IF=4.9）发表了一篇题为：“Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning”的研究论文。

在该项研究中，研究团队使用组轨迹模型（GBTM）确定了四种不同的受害轨迹，并用机器学习法中的随机森林（RF）法构建一个预测模型，用于预测个体可能遭受的欺凌受害轨迹。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣，千万不要错过本月底的基于R语言的机器学习构建临床预测模型课程！详情可咨询助教，微信号：aq566665

数据收集与处理

√数据收集

在该项研究中，研究团队从中国安徽省淮北市进行的早期青少年队列研究中招募了1549名完成基线和两年随访评估的中学生（60.4%为男生；平均年龄12.49 ± 0.48岁），时间跨度为2019年至2021年共三年。

使用改编的Olweus欺凌受害者问卷（OBVQ）评估欺凌受害情况：

问卷通过涵盖身体、言语和社会关系欺凌的六个项目来评估传统形式的受欺凌程度；
回答范围从“从未”到“6次或更多”不等，总分在6到24分之间，分数越高表示受欺凌程度越深。

√缺失值的处理

对于数值型的缺失数据，使用中位数进行填充；分类数据，则用众数进行填充。

考虑到参与者分布中的类别不平衡会对模型的性能产生不利影响，研究团队采用随机过采样法（ ROSE）来平衡数据集。

主要通过平滑的自举方法来生成合成数据，从而平衡数据集的类别分布，提高模型的预测性能。

图1 研究流程

轨迹模型

研究团队基于以往的研究实践，纳入2019年至2021年收集的三波数据，使用GBTM识别欺凌受害者轨迹的变化。

根据每年收集的三波总受害分数，对2到5组的轨迹模型进行了测试；
并用贝叶斯信息准则（BIC）、Akaike信息准则（AIC）和对数似然（LL）在内的标准确定最佳组数，BIC、AIC和LL值最低的模型最佳。

研究结果显示，4组的GBTM模型最佳，BIC（-6803.29）最低。

√构建轨迹模型

确定的4组轨迹模型如下：

未受害组（43.0%）：该组受欺凌程度最低，平均受害得分接近6；
低受害轨迹组（52.1%）：该组受欺凌程度略高于未受害组;
受害程度逐渐增加组（2.8%）：随时间推移，该组受害程度不断增加;
持续严重受害组（2.1%）：该组在研究期间一直受到严重的欺凌，是四组中受害程度最严重的。

图2 4组受害者发展轨迹

模型的构建与评估

在填补完缺失数据后，数据被随机分为训练集（70%）和验证集（30%）。

研究团队基于随机森林法（RF）构建受害者轨迹的预测模型，并用多个指标评估模型性能。

评估指标包括准确性、灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）和ROC曲线下面积（AUC）。

研究结果表明，基于RF构建的预测模型在区分不同受害轨迹方面表现出理想的性能，所有组均达到AUC >0.8。

表1 4个不同轨迹模型中预测模型评估指标

筛选重要特征

√可视化工具：使用"randomForestExplainer"包可视化RF模型中重要特征。

√多维度评估：用多个指标从不同角度评估特征重要性（包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率（times_a_root）以及p值）。

下图展示了RF模型中最重要的十个特征，其中前五个关键预测因素为敌意、边缘性人格、易怒、在校不良经历和学校满意度。

图3 对于重要的变量，最小深度在森林图中的分布

多向重要性图结合了准确性降低指标和基尼系数降低指标，进一步证实了10个关键预测因子在预测欺凌轨迹方面的重要性。

图4 多向重要性图分析结果（结果可见粉红色圆圈;P< 0.01）

值得一提的是，尽管“randomForestExplamer”包提供了功能交互分析，但在该项研究结果中，我们并未在变量之间观察到显著的交互作用。

研究团队进一步使用多元逻辑回归分析，评估了RF模型识别的关键预测变量对四种欺凌轨迹的贡献。研究结果显示，预测因素在不同的轨迹亚组中表现出不同的影响。

与低受害组相比，持续严重受害组不仅年龄更大，而且边缘性人格特征更显著以及更加易怒，同时他们对学校的满意度相对较低；
相反，同伴满意度的降低则与欺凌受害轨迹的增加负相关；
此外，学校中的不良经历与持续严重欺凌受害之间的关联最为紧密，这些不良经历使得个体遭受持续严重欺凌的可能性增加了约2.7倍。

图5 欺凌受害轨迹的逻辑回归结果

综上所述，研究表明，由于欺凌程度发展的差异，其导致的严重后果在个体之间差异很大。此外，某些受害者特征，如不受欢迎和同伴排斥，可能会限制一般干预措施的有效性，因为这些特征降低了接受同伴支持的可能性，并导致持续的受害。

研究团队认为，我们仍需要进一步的研究，区分欺凌发展的模式，并确定与每种模式相关的具体风险和保护因素。

老郑小评

说实话，我不是那么苟同这种数据分析的过程，我们构建预测模型的时候，结局一般是金标准或者硬终点才合适。

而这项研究的终点就是数据驱动下，利用轨迹模型做出来的，结局的分类就是不可靠的，预测它实在有点牵强。

不过，有一点还是可以肯定的，用随机森林的方法去分析，影响轨迹的因素，哪个最重要。并在此基础上，开展logistic回归分析，计算OR值。

但问题又来了，随机森林评估哪个因素最重要是以一种非线性的地方式，而logistic是线性分析的结果，两者一致吗?

但是，总的来说，这年头只要你把数据分析玩出花来，文章还真不错。

乱花渐欲迷人眼，这两年流行方法机器学习、轨迹模型一结合，虽然看起来四不像，还真的图文并茂，学术研究的探索性魅力，就在于此。

公众号后台回复关键词“pdf”，即可获取原文！更多关于临床预测模型与机器学习统计服务，请联系郑老师团队，助教微信：sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号sas555777）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

数据集被分为70%训练集和30%验证集；

使用多个指标评估模型性能，包括准确性、灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）和ROC的曲线下面积（AUC）。

√构建轨迹模型