值得收藏!机器学习法常用的分析方法

健康   2024-10-21 08:11   浙江  

引言

如今机器学习的热度越来越高,尤其是前段时间的诺奖,颁给了两位机器学习领域的专家!

不少学者表示“意料之外”,但也在“情理之中”。

今天将我们继续介绍机器学习中常用的算法!

机器学习领域,有种说法叫做“No Free Lunch(世上没有免费的午餐)“,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。

这就需要我们对不同算法及其特性有所了解。

首先,借用鲁伟老师编写的《机器学习:公式推导与代码实现》一书中的插图,该图对机器学习模型做了分类汇总,介绍得也较为全面。

图中提到的监督模型,简单来说就是模型通过学习有标准答案的数据来总结规律。

  • 例如,训练模型中有很多动物的图片及其标记(记号)。标记可用来说明动物的类型,有些图片是猫,有些图片是狗。理论上讲,在经过训练之后,模型可以预测新的图片是猫还是狗。

无监督模型则是模型通过学习没有答案的数据来总结规律,它需要根据数据本身的特点来发掘信息。

  • 例如,某家公司在不同的超市销售文具,我们想知道不同类型消费者的行为。经过研究,我们可能会发现有一些小公司的客户喜欢买铅笔和笔记本。而另一类大公司的客户喜欢买办公桌和办公椅。因此,对于不同类型的公司客户,我们就可以采用不同的市场策略。

概率模型则是模型基于概率论方法通过数据学习变量之间的概率关系。

在上述的图片中,我们可以看到,作者传统统计方法,例如线性模型也归为机器学习模型。
个人认为传统统计模型的思想也是利用算法挖掘数据背后的规律来解决问题,也可以进行监督学习任务等。
因此,广义上来说,传统统计模型也可以归为机器学习模型。

医学研究中最常见的是监督学习模型,主要用于预测模型,包括诊断模型和预后模型的构建。

✅在这些监督学习模型中,常用的模型包括:一般线性回归、Logistic回归、LASSO回归、决策树、神经网络、支持向量机、XGBoost和随机森林。

因此,本专栏的后续推文将分别对这些模型进行讲解,概述这些模型的特点及其背后的思想,让大家对这些模型有一个大致的理解,从而帮助大家在科研时选择合适的模型、设置合理的参数。

同时,无监督学习模型在医学研究中也得到了一定的应用,其中较为常用的模型是k均值聚类和PCA,之后也将对这两种方法进行讲解。

相对而言,概率模型在医学研究中的应用则较少。

机器学习并不是魔法,没有那么复杂神秘,只要我们理解了背后的思想,掌握一定的工具,就可以自由的应用它来解决实际问题了。

感兴趣的不妨跟着本专栏的后续文章,我们一起去揭开机器学习的面纱,去了解方法的工作原理并开展实践吧!


关于郑老师统计团队及公众号

全国最大的线上医学统计平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!

我们提供以下科研与统计服务:
研究者发起的临床、护理试验项目
医院回顾性数据分析与预测模型
医学数据库SEER、NHANES、GBD、孟德尔随机化等挖掘发表级数据
预测模型、GBD、NHANES医学数据库挖掘1对1R语言指导
联系助教小董咨询(微信号aq566665

医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章