系列文章 | 两张图读懂什么是机器学习

健康   2024-10-16 07:47   浙江  

引言

现在机器学习人人都在谈,但除了老师们知根知底外,很少有人能说清楚到底怎么回事。

老郑我邀请了熟悉此方法的老师,为大家简单科普,何为机器学习,以及常用的机器学习的方法

本文是机器学习系列的第一篇,我们后续将用2~3篇文章对该方法进行进一步的讲解
常有学生问我:“我们为什么要学习机器学习?难道常规方法不能发高分了吗?”
机器学习作为一种新兴的统计分析方法,近年来在医学研究领域得到了广泛的应用,大量的医学论文,包括利用医学公共数据库的机器学习方法应用的文章发表在了高水平的杂志上。例如:
文章一:使用机器学习构建预测模型发文Nature子刊
文章二:NHANES+机器学习筛选变量发文一区top
文章三:基于TCGA和GEO数据库+机器学习拿下6分SCI
使用机器学习筛选或分析数据,不仅创新性拉满,研究结果也会更加可靠。即使我们今后不会用到机器学习法,也不能对该方法完全不了解。
在仔细阅读上述文章后,我们能发现这些文章使用的模型实现并不复杂,关键是要对模型背后的思想有较为充分的了解,才能够选择出合适的模型实现自己的研究目的。
为了方便各位理解,我将用通俗易懂的语言解释机器学习的概念、常用方法及其特点等,在保证一定严谨性的基础上,争取让对机器学习有所了解的读者感到深刻,让新进入的读者感到收获。
接下来让我们进入今天的重点!

何为机器学习?

在开始介绍之前,我们先来看两个小故事。

故事一:瑞雪兆丰年
老话常说:瑞雪兆丰年,它的意思是如果前一年冬天的雪很大,那么后一年就是一个丰收年。
瑞雪和丰年本是两个似乎并没有关系的现象,但通过智慧的古代劳动人民的观察和总结,得出了这样的规律。利用这个规律,农民伯伯就可以调整下一年的生产安排了。
图标题:瑞雪兆丰年

故事二:啤酒与尿布
这是一个借助算法发掘规律实现营业额提高的经典营销案例。
事发生在20世纪90年代,沃尔玛利用Apriori算法对销售记录进行分析,结果发现“啤酒”与“尿布”这两件看似毫无关联的商品却经常出现在同一个购物篮中。这一发现引起了管理人员的极大兴趣,经过后续调查后他们尝试将啤酒与尿布摆放在相同的区域,从而提高了商品的销售收入。
图标题:尿布与啤酒

这两个故事的相同点都是通过对观察到的现象,进行总结分析,从而得到规律。之后就可以利用规律进行提前预判了。
机器学习的核心思想也是如此,即让计算程序像人类的学习行为一样,通过观察大量的数据并自动分析,发现事物规律,从而获得解决问题的能力。

究其本质,机器学习的定义可以简单概括为10个字:利用数据自动解决问题。

[利用数据]体现机器学习算法的实现首先需要有数据样本;
[自动]表示在给定规则后,算法是自动进行训练,实现效果提升的;
[解决问题]则代表算法对新数据做出预测或推理的过程。
今天这篇文章就分享到这里,之后我们会推出系列文章第二篇:机器学习方法和传统统计方法的区别在哪里?感兴趣的学友不妨关注一下!

关于郑老师统计团队及公众号

全国较大的线上医学统计平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!

我们提供以下科研与统计服务:
研究者发起的临床、护理试验项目
医院回顾性数据分析与预测模型
医学数据库SEER、NHANES、GBD、孟德尔随机化等挖掘发表级数据
预测模型、GBD、NHANES医学数据库挖掘1对1R语言指导
联系助教小董咨询(微信号aq566665

医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章