引言
本周末开课:机器学习方法
对于缺失的数值型数据,使用中位数进行填充; 对于缺失的分类型数据,使用众数进行填充; 针对参与者分布不均衡的问题,使用随机过采样法来平衡数据集。
基于每次调查的总受害分数,测试了2~5个组的轨迹模型; 通过贝叶斯信息准则(BIC)、赤池信息准则(AIC)和对数似然(LL)确定了最优组数。
数据集被分为70%训练集和30%验证集;
使用多个指标评估模型性能,包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC的曲线下面积(AUC)。
使用"randomForestExplainer"包可视化RF模型中特征的重要性; 使用多个指标从不同角度评估特征重要性,包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率(times_a_root)以及p值。
据报道,全球约28.9%的13至15岁青少年曾遭受过欺凌。而在中国,欺凌更是造成青少年患精神障碍的首要原因。
随着年龄的增长,部分青少年摆脱欺凌,而部分却继续受到迫害,更有甚者从受害者转变为加害者。因此,研究团队基于不同的受害者轨迹构建预测模型,旨在为不同的受害者量身定制反欺凌干预措施。
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过本月底的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665
数据收集与处理
√数据收集
在该项研究中,研究团队从中国安徽省淮北市进行的早期青少年队列研究中招募了1549名完成基线和两年随访评估的中学生(60.4%为男生;平均年龄12.49 ± 0.48岁),时间跨度为2019年至2021年共三年。
问卷通过涵盖身体、言语和社会关系欺凌的六个项目来评估传统形式的受欺凌程度; 回答范围从“从未”到“6次或更多”不等,总分在6到24分之间,分数越高表示受欺凌程度越深。
对于数值型的缺失数据,使用中位数进行填充;分类数据,则用众数进行填充。
主要通过平滑的自举方法来生成合成数据,从而平衡数据集的类别分布,提高模型的预测性能。
轨迹模型
研究团队基于以往的研究实践,纳入2019年至2021年收集的三波数据,使用GBTM识别欺凌受害者轨迹的变化。
根据每年收集的三波总受害分数,对2到5组的轨迹模型进行了测试;
并用贝叶斯信息准则(BIC)、Akaike信息准则(AIC)和对数似然(LL)在内的标准确定最佳组数,BIC、AIC和LL值最低的模型最佳。
研究结果显示,4组的GBTM模型最佳,BIC(-6803.29)最低。
√构建轨迹模型
未受害组(43.0%):该组受欺凌程度最低,平均受害得分接近6; 低受害轨迹组(52.1%):该组受欺凌程度略高于未受害组; 受害程度逐渐增加组(2.8%):随时间推移,该组受害程度不断增加; 持续严重受害组(2.1%):该组在研究期间一直受到严重的欺凌,是四组中受害程度最严重的。
模型的构建与评估
在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。
评估指标包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC曲线下面积(AUC)。
筛选重要特征
下图展示了RF模型中最重要的十个特征,其中前五个关键预测因素为敌意、边缘性人格、易怒、在校不良经历和学校满意度。
图3 对于重要的变量,最小深度在森林图中的分布
多向重要性图结合了准确性降低指标和基尼系数降低指标,进一步证实了10个关键预测因子在预测欺凌轨迹方面的重要性。
图4 多向重要性图分析结果(结果可见粉红色圆圈;P< 0.01)
值得一提的是,尽管“randomForestExplamer”包提供了功能交互分析,但在该项研究结果中,我们并未在变量之间观察到显著的交互作用。
研究团队进一步使用多元逻辑回归分析,评估了RF模型识别的关键预测变量对四种欺凌轨迹的贡献。研究结果显示,预测因素在不同的轨迹亚组中表现出不同的影响。
与低受害组相比,持续严重受害组不仅年龄更大,而且边缘性人格特征更显著以及更加易怒,同时他们对学校的满意度相对较低;
相反,同伴满意度的降低则与欺凌受害轨迹的增加负相关;
此外,学校中的不良经历与持续严重欺凌受害之间的关联最为紧密,这些不良经历使得个体遭受持续严重欺凌的可能性增加了约2.7倍。
图5 欺凌受害轨迹的逻辑回归结果
研究团队认为,我们仍需要进一步的研究,区分欺凌发展的模式,并确定与每种模式相关的具体风险和保护因素。
老郑小评
公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:sas555777
郑老师统计团队及公众号
全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!