国产数据库再显风采！不想做实验千万别错过CHARLS！

文摘 2024-11-12 19:00 上海

2024年了CHARLS还在不停的被人挖掘，大家都在纷纷的写文章，那么究竟什么样的文章会让人眼前一亮，不仅数据库要选的好，还要利用创新的方法，才能一举拿下优质的期刊。快来和大麦一起来看看这篇文章吧！

（1）研究选题热门，研究抑郁症风险预测是一个值得关注的课题。使用机器学习方法来预测老年人抑郁症风险也较为前沿和创新。

（2）研究群体突出。利用包含超过1万9千名参与者的CHARLS大规模中国健康与养老追踪调查数据库，具有代表性强的样本优势。

（3）研究方法先进。采用了多种机器学习回归算法，并比较了各模型的预测性能，选择了表现最优的神经网络回归模型进行深入分析。

PS：想要了解最新的研究思路，来找大麦就对了，这里有不仅有热点方向还有创新思路，想复现或者定制个性化思路的小伙伴们可以通过扫码和大麦取得联系哦，等你哦！

定制生信分析

云服务器租赁

(加微信备注99领取试用)

题目：使用深度学习算法在个人和人群水平上评估精神健康障碍的一个案例：预测中国老年人的抑郁症

杂志：Journal of Affective Disorders

影响因子：IF=4.9

发表时间：2024年9月

公众号回复“123”领取原文PDF，文献编号：20241112

研究背景

随着中国老龄化人口的持续增加，应更加关注老年人口的心理健康。抑郁症是老年人群中最普遍的心理健康问题之一。抑郁症的预防需要及早识别高风险老年人并全面了解相关风险因素。本研究运用了中国健康与退休长期跟踪调查(CHARLS)的数据，训练了几种回归型机器学习算法，以预测抑郁症的严重程度。研究还识别了预测老年人抑郁症最重要的风险因素，并展示了机器学习模型在个体层面上的诊断潜力。

研究思路

研究收集CHARLS大规模老年人数据库的相关变量数据。筛选符合条件的1269名老年参与者样本数据。使用多种机器学习回归算法建模，评估各模型预测效果。研究发现神经网络模型效果最优，选择对其进行深入分析。

统计方法

1. 描述性统计分析：对预测变量和结果变量的描述性统计，包括均值、标准差、频数和百分比等。

2. 机器学习回归模型：研究者使用了多种不同的机器学习回归算法，包括神经网络回归、AdaBoost回归、弹性网回归、梯度提升回归、Lasso回归、岭回归和随机森林回归。

3. 模型评估指标：使用R²、均方根误差、均方误差和平均绝对百分误差等指标来评估不同机器学习模型的预测效果。

4. SHAP值分析：基于最优模型（神经网络回归），使用SHAP值方法分析每个变量对模型预测的贡献大小和方向。

5. 个体化分析：利用最优模型的SHAP值，选择个体样本进行个性化分析，生成力度图，检查个体特征对抑郁预测的影响。

6. 结果可视化：使用柱形图、折线图等形式直观展示重要预测变量的SHAP值分布情况。

研究结果

1.预测变量的平均值、标准差和样本比例

表1呈现了研究样本的人口统计特征、睡眠相关特征、社会活动相关特征以及疾病史相关特征。这为下一步机器学习预测模型的建立和解释提供了基础。

表1：预测变量的平均值、标准差和样本比例

2.模型预测性能

表2比较了7种不同机器学习回归模型的预测性能。模型预测性能指标包括R²、RMSE、SSE、MAPE。结果显示神经网络回归模型所有指标均优于其他模型，其R²达0.69，RMSE为0.61，SSE为138.06，MAPE为0.14。研究发现相比其他模型，神经网络回归模型预测老年人抑郁程度的效果最佳。因此选择神经网络模型进行后续的预测解释分析。

表2：回归模型的性能指标

3.特征重要性

图1展示了各预测变量对抑郁症预测的重要性排名。在所有预测变量中平均睡眠时间的SHAP值最大，是预测抑郁症最重要的变量。其次是性别，年龄，社会活动和午睡时间等变量，也有较高的预测贡献。交互作用较小的变量如康复活动、网络使用等对预测贡献很小。变量的SHAP值正值表示该变量值增加会推高抑郁评分预测。总体来说，图1通过SHAP值可视化对各变量的预测贡献进行了排序和明确的展示。

图1：特征对预测模型贡献的平均SHAP值按特征重要性降序排列

4.模型特征解释

研究选择了模型中对预测抑郁症影响较大的5个变量，分别绘制了这些变量的SHAP值分布图。图A显示睡眠时间对SHAP值的影响。睡眠时间在5.5-8.5小时对应较低的SHAP值，即更少预测抑郁趋势。图B显示女性对应的SHAP值较男性更高，即性别为女增加了抑郁预测值。图C显示60-70岁的SHAP值较高，但70岁以上波动较大。说明年龄与抑郁关系复杂。图D显示没有社会活动的SHAP值更高，即社会活动减少与抑郁相关。图E显示午睡时间过长的SHAP值较高，与抑郁相关。总之，图2通过关键变量的SHAP值分布可视化，解释了机器学习模型的预测方式。

图2：SHAP值由特征为最具影响力的，按特征重要性的平均值计算

5.个人预测的力图

图3给出了4个样本个体的SHAP力度图结果。图A为抑郁得分最高的个体，主要风险因素是睡眠时间短、午睡时间长、无社会活动等。图B为无抑郁个体，保护性因素是睡眠时间充足、有社会活动等。图C为最老年龄个体，主要保护性因素是年龄大、性别为男。图D为随机选取个体，无社会活动是其主要风险因素。总之，图3通过个体化样本的SHAP力度图，直观地展示了该模型的个体化解释能力。

图3：力图表示特定特征对个体预测的影响

文章小结

这篇文章利用包含超过1万老年人的CHARLS数据库，采用机器学习回归模型预测老年抑郁症的个体风险因素。通过筛选样本数据，使用神经网络等多种回归模型进行训练和比较，选择最优模型，并采用SHAP方法解释模型预测。研究确定了预测老年抑郁症的关键因素，如睡眠时间、性别等；模型可以进行个体化风险预测，为制定干预措施提供依据。

看完文献后，大家可能会产生一些疑问：

不需要进行基线信息的描述分析或差异比较吗？

为什么选择这些特征？

不需要报告其他结果来说明预测模型的准确性吗？

这些问题，文献都没有回答。因为这是一篇案例分享，重点内容是介绍机器学习在人群研究建立预测模型的思路。至于数据如何、选择这些特征的理由、结果是否理想，反而是次要的？

问题又来了，这样也能发表吗？答案显而易见。

如果你想对自己的文章质量进行提高又不知道从何下手，可以联系大麦。大麦这里可对临床数据库挖掘哦，还可提供从语言到逻辑结构再到修改建议的专业服务，为你减轻科研压力。

大麦有话说

大麦还提供服务器租赁、思路设计、定制生信分析、文献思路复现、临床数据库挖掘；有需要的小伙伴欢迎直接扫码咨询大麦，竭诚为您的科研助力！

推荐阅读

大麦有话说

大麦还提供服务器租赁、思路设计、定制生信分析、文献思路复现、临床数据库挖掘；有需要的小伙伴欢迎直接扫码咨询大麦，竭诚为您的科研助力！

http://mp.weixin.qq.com/s?__biz=Mzg5MDY5NDcyNw==&mid=2247513934&idx=1&sn=b90a8bca7d03730cbcd4c6b04b5e1d5f