机器学习是一个非常重要的算法,基于同学们本科专业背景不一样,那么我就给这次课程一些案例配上我写的数模项目辅助理解,在写之前,推荐一下我的师弟写的机器学习合集的技术文章,讲的更仔细,也好懂。那好我们开始吧。这次课程讲的概念不多,但是都很重要。 有关基础的机器学习基础概念,数据,有关回归和分类(这个单词截图截掉了)的算法,包括机器学习的介绍。拓展书籍:M. Minsky, The Society of Mind,心智社会,机械
出版社,2018.
◼ Yann LeCun,Quand La Machine Apprend,科学之路-人、机器与未来,中信出版集团,2021划重点作业要求:Assignments: 3 Assignments, 1 Test, and 1 final
Project (Oral Presentation and Report)。说简单一点就是作业要展示做报告,然后有全英语的考试。这门课和模式识别和统计这门课联系非常紧密。 第一步数据收集,收集的方式爬虫,开源数据集;第二步数据预处理,这一步需要你有丰富的统计学知识(拓展:正态分布检测,缺失值填充,异常值的处理);第三步是模型选择,后面的步骤就是模型去学习调整参数,到模型接受游戏结束。我对这个图的理解是算法为数据模型服务。机器学习分为监督学习,无监督学习和弱监督学习,其实就是监督程度不同让模型的效果不同。监督学习里面有回归,分类和排序。无监督学习典型的聚类分析,弱监督学习有强化学习和半监督学习。理解一下h(x)的含义hypothesis n.假说,假设。想一想为什么?分类问题是吧,这样吧给同学们看看我写的数模项目,轻松理解二分类和多分类。优秀数模解题思路分享-2022年数模国赛C题玻璃题的完整思路代码分享 这个题目是典型的二分类问题,代码完整支持结果复现。 五一开源专题--盘点一下我近期的数学建模开源 你们进去看看2023年华中杯A题,那个药物数据分析就是典型的多分类问题,不是我说,叶老师的研究方向就是药物发现。 所以,我们总结一下:h(x)其实就是众多x和y的一个关系,这种映射关系,函数关系,我们叫做机器学习啦! 别的都好理解,重点理解一下PCA和ICA,这个PCA是主成分分析的意思,ICA是独立成分分析的意思,记住I,independent。PCA这样说吧,其实这个玩意是数据预处理算法,在做特征的时候会有好效果。 这里讲完了,我们来看看公式: E代表数学期望,P是概率密度,Loss是损失L函数嘛。这里表达写的比较抽象实际很好理解。理解N这个是取均值就OK。后面有一个小点是训练和正则化,等后面有好的例子了,我们在深入理解。本节课最后一个小点就是混淆矩阵,来吧,我们用统计学这本书假设检验的知识解释一下:混淆矩阵这边讲了有两类错误,用统计学假设检验的说法的话就是有一种是弃真错误(第一类错误),另一种是纳伪错误(第二类错误),我们搬运假设检验这个知识点是来辅助理解混淆矩阵的哈。如果是阳性的预测成阴性,弃真,另外的一种是阴性不好意思,预测错了搞成了阳性,假阳性嘛。这个好理解撒。本次课程就分享到这里,我们下次再见。