预测模型研究中，机器学习到底是怎么一回事？（小白入门版）

文摘科学 2024-06-28 20:55 湖南

由于微信推送机制的变化，建议大家将公众号标记为星标，如此才能及时收到我们的更新，同时也希望大家能帮忙点点赞和转发，你们的支持是我们前进的重要动力来源，谢谢！护理统计随笔平台的内容现在已经非常丰富，很多方面都有涉及到，如果你觉得你没有看到往期的相关文章，不妨打开公众号的菜单页，在各级目录中查找你想要的内容。

提醒：个人随笔，难度不大，不涉及深度学习，行文散漫，不权威、不正规，仅适用于护理学（或心理学、临床医学）初学者，如果您是初学者，想要知道机器学习到底是怎么回事，可以看看。如果您是已入门的选手，可看看本公众号推出的mlr系列学习资料，入口：

一、令人困惑的机器学习

机器学习（Machine Learning）一词总让人误会，初学者乍看时脑海中可能会一闪而过'机器人'、'工科'、'仿真'等词汇。也许会想，这与我们护理（或者心理）有什么关系？没错，本人前几年第一次接触到机器学习时也有类似的感觉。

令人迷惑的用词颇有种“高端”的感觉。不妨换个角度，把它称为统计学习（Statistical Learning），一切豁然开朗，本质就是统计学，或者加上计算机科学。比如，我们最常用的统计方法之一——多元线性回归、logistic回归，恰恰就是最简单的机器学习算法；再比如，大家熟知的临床（风险）预测模型也是机器学习在医学领域的扩展，本质就是机器学习。

这么一看，其实我们早就会机器学习了……那么我们为什么还要学机器学习?因为很多时候只是用多元线性回归、logistic回归、cox回归等并不够用，而且机器学习空有算法可还不行，因为机器学习有三要素：模型、策略、算法。

二、机器学习是什么

言归正传：机器学习到底是什么？我所理解的，就是从数据中建立统计模型并运用到新数据中进行预测。

什么是模型？模型通常指的是一个数学函数或者一组函数，这些函数能够从数据中学习并做出预测或决策，这就是我们通过机器学习最终得到的东西，我们经常用的列线图就是对某些模型的可视化。

如何学习？根据选定的策略和算法进行学习。

模型学习过程就是算法，是一些既定的规则，比如线性回归、logistic回归、决策树、支持向量机、随机森林，等等。

策略是模型选择的准则，对于同一组数据，不同的算法可以产生不同的模型，不是所有模型都是对的，恰恰相反，所有模型都是错的，但是其中一些模型是有作用的，所以我们只是利用模型的近似性质，通过筛选找到最优模型（对于当前数据最有用的模型）。

三、机器学习怎么做

当然是用软件做，R、Python、matlab都是很好用的工具。

基本思路：选定数据集-> 数据预处理->建模->验证->解释。

在此之前，需要知道一些基本的知识（很无趣，但重要）。

1、基本分类：

监督学习（分类、回归）

无监督学习（降维、聚类）

半监督学习（可能还有强化学习、主动学习？）

老生常谈了，监督与否，说白了就看你的研究数据有没有因变量y（机器学习中，y被称为“标签”，自变量被称为‘特征’），有则为监督学习。我所理解的监督是，假如现有一个学习到的模型A，用它对新数据集中进行预测时，会输出一系列预测值（比如logistic回归中的拟合值），我们正是借助数据集中本来就有的y，来跟预测值进行比较，以此判断该模型是否合适（模型评估），进而寻找最优模型。

比如，我们要做一个糖尿病患者低血糖发生风险预测模型，y就是我们所感兴趣的结局变量（患者在特定时间段内是否发生低血糖）。这是个二分类变量，所以是个分类任务。

2、数据集的相关问题

训练集用于建模（训练模型），测试集用于评价最终模型（类似于考试，‘一考定终身’。测试集与训练集要互斥。数据集获取有几种策略，

① 确实有两个数据集（比如多中心），将一个作为训练集，另一个做测试集。用这种测试集做评估就是所谓的外部验证过程。

② 只有一个数据集。数据集不够，那么就拆分：留出法（hold out，随机拆分、分层随机拆分）、交叉验证（如k-折交叉验证，重复交叉验证）、自助法（bootstrap）。样本很大时，推荐交叉验证，不过应先留出一份测试集，再行最交叉验证（个人观点）。小样本最推荐bootstrap。

③ 需要调整超参数时，需要建立验证集，验证集一般从训练集中拆分获得。将调好的模型放在训练集+验证集重新训练下。

④ 测试集一定要独立：数据预处理时，如果做归一化、中心化、标准化等操作，要注意不能污染测试集。

⑤ 类别不平衡：就二分类结局变量，理想的是阴性个数：阳性个数=1：1。极端例子：一个1000人的糖尿病数据集中，未发生低血糖并发症的人数是999，发生的才1个，这样的数据完全没法用来建模，也没法评价，像准确率这种指标，就算全预测是阴性，都有99.9%的准确率。所以要处理，常用方法：过采样（小类变多）、欠采样（大类变少）、阈值移动。

3、模型评估

泛化能力：在未见样本中表现好。

泛化误差：在未来样本上的误差。

经验误差：在训练集上的误差，也称训练误差。

泛化误差与训练误差不是越小越好，可能会存在过拟合（overfit）。

过拟合：把特点当做一般来归纳，过度学习，无法完全避免，但需要缓解。

欠拟合：收集的数据不足，也可能选择的算法无法胜任。

模型选择：评估方法、性能度量、比较检验（概率，需要统计检验）。

4、性能度量（评价指标）：

回归任务一般用均方误差；

分类任务：准确率、AUC、基于混淆矩阵的指标（TP\TN\FT\FN，也就是灵敏度、特异度之类的，说法不同；约登指数、F1分数），等等。

做临床预测模型时，还要从校准度（brier评分、HL检验、校准曲线）、临床适用性（决策曲线）等方面进行评价。

5、数据预处理

笔者认为算法什么的其实很容易，数据预处理是最难也是最重要的，甚至决定了模型的性能表现。我们从研究中采集的数据可能是多种多样的，有文字有数值，计数资料、计量资料等，类型多样。

拿R举例，建模之前要探索数据。比如，进行一般统计描述，看看变量分布、变量间的相关性，检查缺失值、异常值，有些建模前需要对数值做归一化、对分类变量进行编码（哑变量、独热编码等）……

就此打住，机器学习理论是说不完的，永远在发展，笔者也没这水平，后面计划分享一些常见算法的实战。

关于机器学习的理论知识，推荐阅读李航老师的《统计学习方法》，这本书出到第2版了，偏理论无实战，适合想要系统补充理论知识的同学。

参考文献中列出了BMJ杂志最新发表的介绍临床预测模型相关理论知识的文献，大家不妨读一读。

参考文献：

[1]李航《统计学习方法》

[2]Hefin I. Rhys 《机器学习实战——使用R、tidyverse和mlr》

[3]Fred Nwanganga《R语言机器学习实战》

[4]http://dx.doi.org/10.1136/bmj-2023-074819

[5]http://dx.doi.org/10.1136/bmj-2023-074820

[6]http://dx.doi.org/10.1136/bmj-2023-074821

正文图片来自上述参考文献，封面来自参考文献4（Evaluation of clinical prediction models (part 1): from development to external validation）。本文仅供学习、分享使用，如有侵权，请联系我们删除，谢谢。

重要提醒：笔者打算写个小小的系列，会更新各种常用算法和它的实现，想到哪写到哪，可能不完整，也绝不是权威的学习资料，或许该称之为科普资料，因此仅供参考，请注意鉴别。

此外：如果你在科研学习中遇到了疑问，恰好也想跟网友们交流，可以加入我们建立的“护理科研交流群”。这是一个完全自由、开放、免费、没有套路的纯交流群。加群方式：后台私信关键词“加群”。

http://mp.weixin.qq.com/s?__biz=MzkwMjQ0MzA5NA==&mid=2247490225&idx=1&sn=252033de0a3e9ebcd7ba0e2f608a6c65

护理统计随笔

未来是精准护理的时代，护理研究的发展不仅在于基于证据的理论创新及实践，更在于大数据和人工智能。这里是一个从0到1的学习平台，关注我们，不但可以夯实科研基础，更可以开阔研究视野，让你的护理科研之路走得更远、更广。

最新文章

护理科研选题的全新视角：离散选择实验

比随机森林强! 利用catboost做临床预测模型

顶刊都在用！基于LightGBM的临床预测模型实现方法

附详细的实操步骤：临床预测模型Meta分析（老歌新唱）

xgboost + shap可加性解释（R版本）：优秀的机器学习解决方案

还在做系统评价吗？证据图谱可以学起来了

还在纠结要不要做质性研究吗？Q方法了解下

轻松+愉快！在线版meta分析工具

这篇发在核心期刊的体位相关meta分析到底有何特色？

实操来了！轻松搞定预测模型类别不平衡问题

小白快速成长秘诀：看文献不要只看结果，要学会从中提炼未曾注意的细节！

我们正式开通一对一辅导、论文审稿与数据分析服务

预测模型小白入门：不平衡数据与处理方法

我们正式开通一对一辅导、论文审稿与数据分析服务

预测模型研究中，机器学习到底是怎么一回事？（小白入门版）

最后一波！我们组织的Meta分析小班课明日开课，请速度上车！

想学症状群轨迹分析的同学看过来！

我们自己组织的小班课来啦！Meta分析特训小班课！

护理北核！轻松搞定潜在剖面分析！（小白入门版）

我们自己组织的小班课来啦！Meta分析特训小班课！

纵向数据+风险预测模型？这种思路很有意思

论文审稿/数据分析，专业团队助你一臂之力

Meta分析难题：如何对图形数据进行提取？

小白优选！Meta分析特训班，欢迎零基础同学报名！

训练营来啦！Meta分析特训班，欢迎报名！

吐血整理!最新版护理类SCI期刊的影响因子来了！

有了这个工具，做meta分析速度起飞！

全体护理人员终于盼到了！报考在职研究生，专科起报！双证毕业！

风险预测模型：开发七个步骤和用于验证的 ABCD

论文审稿/数据分析，专业团队助你一臂之力

小白系列：方案构建及应用竟然如此简单？对中华护理杂志文献的解读

小白系列：如何撰写随机对照试验护理论文——基于中华护理杂志文献

小白系列：通过拆读中华护理杂志的文献，带你入门网络分析！

Meta杀手锏！Meta分析之数据转化（一）

SCI分享！利用增长混合模型对患者报告结局数据进行纵向分析

国内护理系统评价的报告质量分析

主客体互倚模型看这篇就够了！附完整流程

一种非常棒的研究思路，推荐给大家

潜变量增长模型——基于Mplus软件的实现方法

研究生第10节课：医学研究中常见的综述类型

纵向研究之变化轨迹：R语言实现

各有千秋！利用三种主流统计软件建立线性混合效应模型

利用NHANES数据库发SCI？这个方法太火了（一）

非常不错的思路，纵向研究变化轨迹还可以这样分析？

Meta分析的统计异质性检验，你真的能解读清楚吗？

又见轨迹研究？潜类别增长模型分析步骤

一区TOP征稿：Prediction Models and Clinical Outcomes

还在手动做描述统计和单因素分析？这个方法不错

2区SCI！使用贝叶斯核机回归进行NHANES数据库分析

PROSPERO注册平台快速注册小秘籍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉