引言
如今机器学习的热度越来越高,尤其是前段时间的诺奖,颁给了两位机器学习领域的专家!
不少学者表示“意料之外”,但也在“情理之中”。
今天将我们继续介绍机器学习中常用的算法!
在机器学习领域,有种说法叫做“No Free Lunch(世上没有免费的午餐)“,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。
这就需要我们对不同算法及其特性有所了解。
首先,借用鲁伟老师编写的《机器学习:公式推导与代码实现》一书中的插图,该图对机器学习模型做了分类汇总,介绍得也较为全面。
图中提到的监督模型,简单来说就是模型通过学习有标准答案的数据来总结规律。
例如,训练模型中有很多动物的图片及其标记(记号)。标记可用来说明动物的类型,有些图片是猫,有些图片是狗。理论上讲,在经过训练之后,模型可以预测新的图片是猫还是狗。
而无监督模型则是模型通过学习没有答案的数据来总结规律,它需要根据数据本身的特点来发掘信息。
例如,某家公司在不同的超市销售文具,我们想知道不同类型消费者的行为。经过研究,我们可能会发现有一些小公司的客户喜欢买铅笔和笔记本。而另一类大公司的客户喜欢买办公桌和办公椅。因此,对于不同类型的公司客户,我们就可以采用不同的市场策略。
概率模型则是模型基于概率论方法通过数据学习变量之间的概率关系。
医学研究中最常见的是监督学习模型,主要用于预测模型,包括诊断模型和预后模型的构建。
✅在这些监督学习模型中,常用的模型包括:一般线性回归、Logistic回归、LASSO回归、决策树、神经网络、支持向量机、XGBoost和随机森林。
因此,本专栏的后续推文将分别对这些模型进行讲解,概述这些模型的特点及其背后的思想,让大家对这些模型有一个大致的理解,从而帮助大家在科研时选择合适的模型、设置合理的参数。
✅同时,无监督学习模型在医学研究中也得到了一定的应用,其中较为常用的模型是k均值聚类和PCA,之后也将对这两种方法进行讲解。
✅相对而言,概率模型在医学研究中的应用则较少。
机器学习并不是魔法,没有那么复杂神秘,只要我们理解了背后的思想,掌握一定的工具,就可以自由的应用它来解决实际问题了。
感兴趣的不妨跟着本专栏的后续文章,我们一起去揭开机器学习的面纱,去了解方法的工作原理并开展实践吧!
关于郑老师统计团队及公众号