机器学习第二次笔记-机器学习基础12问课后习题解答（考点建议收藏）

文摘 2024-09-07 09:47 中国澳门

本文作者吴汉钦，该公众号标注我作者的均为我原创文章，主要整理学习资料方便复习备考使用！部分案例我用中文举例，英语回答问题，配合理解，感谢阅读。

1.What is machine learning? (How do you understand it?)

举个例子，比如在科大讯飞开发者竞赛中，我们经常会遇到机器学习的赛题，赛题是这样的，会给你公开数据集，去给出一堆测试集合的答案，然后你给出的答案是要提交到系统没有给你数据的另外一部分“数据”给你打分，给你的结果就是你的竞赛分数。这样解释够清楚吧，用英语解释就记住这段：

Datawhale第二期AI夏令营-机器学习-电力需求预测挑战赛尝试笔记第二次（小结最近的尝试）

A computer system is said to learn from some experience E with respect to some class of tasks T and performance measure P, if it improves its performance as measured by P at tasks in T after passing the experience E. （这段定义最生动形象，摘自PPT）

2 What are the types of machine learning?

Supervised learning
Unsupervised learning
Weakly Supervised Learning （Semi-Supervised Learning ，Reinforcement learning）
机器学习第一次笔记-学术要求和部分概念自学资料汇总

3 What are the fundamental elements of constructing a
machine learning system?

Specific Datasets (Learning from Data).

在启动机器学习的时候当然要准备数据集啦！

Cost Functions (Evaluation Function, Loss Function, Risk Function...).

损失函数，价值函数，损失函数，冒险函数（个人觉得可以加惩罚函数，在有些地方用的到）

Models:

Various types and levels of models, such as linear models, non-linear models, parameterized models, neural networks, deep neural networks, etc., to capture the underlying patterns in the data.

Optimization Algorithms and Process （这里的优化其实可以单独开一门课叫优化理论，OR）

Types of models (parameterized models, non-parameterized
models, etc.) 参数化模型和非参数化模型！

4 How to understand deep learning?

深度学习是一种特殊的机器学习。这句话很重要。

Deep learning primarily relies on large-scale training data, computing clusters, improved optimization and specialized training process.

The primary structures include MLP, CNN, RNN, etc. New structures like GAN and Transformers also emerged.

5 Understanding key terms (overfitting, generalization,
regularization, etc.)

overfitting 过拟合

Regularization:Reduce Overfitting Maintaining Training Size减少过拟合，保持训练大小。

在机器学习和统计学中，当我们尝试从数据中学习一个模型时，我们面临的一个核心问题是如何确保这个模型不仅能够在它已见过的数据（即训练数据）上表现良好，而且能够在未见过的数据（即测试数据或实际应用中的数据）上同样表现良好。这个过程被称为“泛化”。下面是对您提供内容的详细解释：

预期成本 vs 经验成本

预期成本：这通常指的是模型在整体数据分布（包括未见过的数据）上的平均损失或错误率。然而，由于我们通常无法直接访问整体数据分布，因此无法直接计算预期成本。
经验成本：这是模型在训练数据集上的损失或错误率。由于我们可以直接访问和计算训练数据集上的性能，经验成本成为了一个实用的替代指标，用于优化模型。

强泛化

如果最小化经验风险（即经验成本）确实意味着在整体上（包括未见过的数据）也最小化了风险（即预期成本），那么这种情况被称为“强泛化”。然而，在现实中，这种强泛化的情况很少见，因为训练数据集往往只是整体数据分布的一个子集，可能存在偏差或不足以代表整体。

过度拟合

当模型过于复杂，以至于它开始“记住”训练数据中的噪声和特定细节，而不是学习数据的真正模式时，就会发生过度拟合。这导致模型在训练数据上表现极佳，但在新的、未见过的数据上表现不佳。优化经验成本时，如果不加以控制，很容易陷入过度拟合的陷阱。

正则化等技术

为了防止过度拟合，提高模型的泛化能力，人们引入了多种技术，其中最常用的是正则化。正则化通过在优化过程中引入一个惩罚项（通常是模型复杂度的某种度量）来约束模型的复杂度。这样，在最小化经验成本的同时，也考虑了模型的复杂度，从而有助于防止模型过于复杂而过度拟合训练数据。

其他提高泛化能力的技术还包括但不限于：

交叉验证：通过将数据集分成训练集、验证集和测试集，并使用验证集来评估模型性能，从而选择最佳模型。
数据增强：通过增加训练数据的多样性来减少过拟合的风险。
集成方法：如随机森林、梯度提升机等，通过结合多个模型的预测来提高整体泛化能力。

总之，通过整合正则化等技术进入经验成本的优化过程中，我们可以改善模型的泛化能力，使其不仅在训练数据上表现良好，而且在未见过的数据上也能保持较好的性能。

6 Model parameters and hyperparameters? The role of
hyperparameters and how to determine them.

Model parameters are learned from the training data and are used by the model to make predictions, like weights in a neural network. Hyperparameters are set before training begins and control the learning process, such as the learning rate or the number of layers in a neural network.

Role of hyperparameters: They influence how well the model learns from data and can affect its performance and efficiency.

Determining hyperparameters: They can be tuned using methods like grid search, random search, or more advanced techniques like Bayesian optimization. These methods involve testing different hyperparameter values and evaluating their impact on model performance to find the best combination.

7 What is cross-validation

Cross-validation is a technique used to evaluate how well a model performs. It involves splitting the data into several parts (or folds). The model is trained on some of these parts and tested on the remaining part. This process is repeated multiple times, with different parts used for training and testing each time. The results are then averaged to get a more reliable measure of the model's performance.

8 什么是LOOCV？

在机器学习中，**LOOCV指的是留一交叉验证（Leave-One-Out Cross Validation），它是一种模型验证方法**。

LOOCV是交叉验证方法的一种极端情况，其特点是在每次迭代中几乎使用整个数据集进行训练，仅留出一个样本作为验证集。这种方法适用于样本数量较少的数据集，因为它能最大限度地利用可用的数据进行模型训练

9.三数据集切分？指的是啥？

训练集，测试集，验证集。

然后补充一个小点，1—of—k coding 独热编码。

10奥卡姆剃须刀啥情况？

奥卡姆剃须刀原则在机器学习中帮助我们避免不必要的复杂性，使模型更简单、易于解释、且更具泛化能力。这一原则贯穿于模型选择、特征选择和正则化等多个方面，指导我们在开发和训练模型时做出更合理的决策。

11.no free lunch therom是什么含义？

简单来说就是没有哪一种模型可以包打天下。

12一句话简单记住：深度学习：算法，算力，数据

师苑数模

发布数模协会培训推文，讲解数模算法。赛题讲解及比赛通知。学校竞赛结果及学校竞赛成绩发布等文章。

最新文章

北太案例-利用北太天元竞赛版本求解2024年数学建模国赛B题第2，3问

零基础不本地安装怎么写latex-没关系我教你用overleaf写

2024年数学建模国赛B题快速复盘-思路简单分析

2024年中葡体育科学研讨会（足球科学训练）-参会感想（赠送体育大数据开源项目）

教师节快乐！写给每一个老师和布道师

2024年数学建模竞赛A,B,C题快速评价和国产工具使用反馈（含教学建议）

数学建模竞赛复盘要求和资源使用规范

机器学习第二次笔记-机器学习基础12问课后习题解答（考点建议收藏）

物联网基础第二次笔记-我赠送给同学们作业模板latex源码

大数据概论第二次笔记-好酷啊，数据可视化工具居然这么多！

马上就数学建模国赛了，请各位参赛同学检查自己的装备-北太天元，SPSSPRO和杉数求解器

2023年华为杯研究生数学建模竞赛C题代码分享-spsspro和杉数求解器启动

概率论与数理统计第二次笔记-分享两道例题

2024年数学建模高教社杯国赛要开始了，我帮同学们整理了往次比赛的开源代码（建议收藏）

Datawhale数学建模组队学习优秀笔记2024年8月

机器学习第一次笔记-学术要求和部分概念自学资料汇总

2022年数模国赛B题完整思路和部分代码分享-模拟赛优秀作品分享

划重点-大数据概论第一次课程笔记（怎么顺利毕业！）

优秀数模解题思路分享-2022年数模国赛C题玻璃题的完整思路代码分享

解题思路分享-2022年华中杯数模竞赛A题思路分析和完整代码分享

供应链推式与拉式：一块硬币的两面

澳门理工留学经验帖-选择合适的电话卡

参会感想整理-2024Hong Kong RISC-V Day +AI CON

直播回顾 | UIUC 赵梓硕：同伴预测机制在区块链共识与可信AI中的应用「OR Talk 31」

高级概率论与数理统计第一课-导论

物联网基础第一课-学习注意事项（含latex和华为物联网课程）

【Presolve (一)】整数规划预求解技术 Simple Probing 算法

分享一点物流公开课信息20240822

分享一点澳门留学更新想法-含留学生来澳门前需要准备的材料（入学和学术篇）

留学生活开始了，总结一点澳理工留学生活经验！（坐公交车）

写一写对布道师这个词的认识和想法，于是我计划......

第六届八一赛非数组A类填空题参考解答

Datawhale AI夏令营逻辑推理学习笔记Task2

我在Datawhale当助教系列-暑假组队学习开源博客写作指导-以数学建模组队学习为例

北太天元在《数值方法：原理、算法及应用》中的教学实践-记录观看的一点想法

杉数求解器-囚徒博弈问题（观看讲座对比北太天元，杉数求解器）

考研数学分析与高等代数学习总结

杉数求解器-多商品问题加强版本

杉数求解器-多商品问题的求解（数模玩家必看）

杉数求解器—尝试求解2024年亚太赛中文赛C题

Datawhale第三期AI夏令营喊你报名啦！！！

数学建模导论课程开课通知！

往届八一杯数学竞赛试题汇总

北太案例-利用北太天元求解2021年北京大学强基计划数论题

为什么国内学术界卷的飞起但工业界的技术仍然十分落后？

Datawhale第二期AI夏令营-机器学习-电力需求预测挑战赛尝试第三次-终于反击baseline

利用科大讯飞星火认知大模型求解2024年北京大学强基计划语文试题

北太案例-利用北太天元求解2024年北京大学强基计划真题

机器学习方法系列36——完结撒花！就用马尔可夫链画上句号叭！

机器学习方法系列35——使用朴素Bayes的新闻文档分类任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉