机器学习第一次笔记-学术要求和部分概念自学资料汇总

文摘   2024-08-30 09:00   中国澳门  
机器学习是一个非常重要的算法,基于同学们本科专业背景不一样,那么我就给这次课程一些案例配上我写的数模项目辅助理解,在写之前,推荐一下我的师弟写的机器学习合集的技术文章,讲的更仔细,也好懂。
那好我们开始吧。这次课程讲的概念不多,但是都很重要。

有关基础的机器学习基础概念,数据,有关回归和分类(这个单词截图截掉了)的算法,包括机器学习的介绍。

拓展书籍:M. Minsky, The Society of Mind,心智社会,机械 出版社,2018. ◼ Yann LeCun,Quand La Machine Apprend,科学之路-人、机器与未来,中信出版集团,2021
划重点作业要求:Assignments: 3 Assignments, 1 Test, and 1 final Project (Oral Presentation and Report)。说简单一点就是作业要展示做报告,然后有全英语的考试。
这门课和模式识别和统计这门课联系非常紧密。

第一步数据收集,收集的方式爬虫,开源数据集;第二步数据预处理,这一步需要你有丰富的统计学知识(拓展:正态分布检测,缺失值填充,异常值的处理);第三步是模型选择,后面的步骤就是模型去学习调整参数,到模型接受游戏结束。我对这个图的理解是算法为数据模型服务。

机器学习分为监督学习,无监督学习和弱监督学习,其实就是监督程度不同让模型的效果不同。监督学习里面有回归,分类和排序。无监督学习典型的聚类分析,弱监督学习有强化学习和半监督学习。

理解一下h(x)的含义hypothesis n.假说,假设。想一想为什么?
分类问题是吧,这样吧给同学们看看我写的数模项目,轻松理解二分类和多分类。
优秀数模解题思路分享-2022年数模国赛C题玻璃题的完整思路代码分享   这个题目是典型的二分类问题,代码完整支持结果复现。
五一开源专题--盘点一下我近期的数学建模开源
你们进去看看2023年华中杯A题,那个药物数据分析就是典型的多分类问题,不是我说,叶老师的研究方向就是药物发现。
所以,我们总结一下:h(x)其实就是众多x和y的一个关系,这种映射关系,函数关系,我们叫做机器学习啦!

别的都好理解,重点理解一下PCA和ICA,这个PCA是主成分分析的意思,ICA是独立成分分析的意思,记住I,independent。
PCA这样说吧,其实这个玩意是数据预处理算法,在做特征的时候会有好效果。
这里讲完了,我们来看看公式:

E代表数学期望,P是概率密度,Loss是损失L函数嘛。这里表达写的比较抽象实际很好理解。

理解N这个是取均值就OK。后面有一个小点是训练和正则化,等后面有好的例子了,我们在深入理解。

本节课最后一个小点就是混淆矩阵,来吧,我们用统计学这本书假设检验的知识解释一下:

混淆矩阵这边讲了有两类错误,用统计学假设检验的说法的话就是有一种是弃真错误(第一类错误),另一种是纳伪错误(第二类错误),我们搬运假设检验这个知识点是来辅助理解混淆矩阵的哈。如果是阳性的预测成阴性,弃真,另外的一种是阴性不好意思,预测错了搞成了阳性,假阳性嘛。这个好理解撒。
本次课程就分享到这里,我们下次再见。

师苑数模
发布数模协会培训推文,讲解数模算法。赛题讲解及比赛通知。学校竞赛结果及学校竞赛成绩发布等文章。
 最新文章