1.What is machine learning? (How do you understand it?)
Datawhale第二期AI夏令营-机器学习-电力需求预测挑战赛尝试笔记第二次(小结最近的尝试)
2 What are the types of machine learning?
Supervised learning
Unsupervised learning
Weakly Supervised Learning (Semi-Supervised Learning ,Reinforcement learning)
3 What are the fundamental elements of constructing a
machine learning system?
Specific Datasets (Learning from Data).
在启动机器学习的时候当然要准备数据集啦!
Cost Functions (Evaluation Function, Loss Function, Risk Function...).
损失函数,价值函数,损失函数,冒险函数(个人觉得可以加惩罚函数,在有些地方用的到)
Models:
Various types and levels of models, such as linear models, non-linear models, parameterized models, neural networks, deep neural networks, etc., to capture the underlying patterns in the data.
Optimization Algorithms and Process (这里的优化其实可以单独开一门课叫优化理论,OR)
Types of models (parameterized models, non-parameterized
models, etc.) 参数化模型和非参数化模型!
4 How to understand deep learning?
深度学习是一种特殊的机器学习。这句话很重要。
Deep learning primarily relies on large-scale training data, computing clusters, improved optimization and specialized training process.
The primary structures include MLP, CNN, RNN, etc. New structures like GAN and Transformers also emerged.
5 Understanding key terms (overfitting, generalization,
regularization, etc.)
overfitting 过拟合
Regularization:Reduce Overfitting Maintaining Training Size减少过拟合,保持训练大小。
在机器学习和统计学中,当我们尝试从数据中学习一个模型时,我们面临的一个核心问题是如何确保这个模型不仅能够在它已见过的数据(即训练数据)上表现良好,而且能够在未见过的数据(即测试数据或实际应用中的数据)上同样表现良好。这个过程被称为“泛化”。下面是对您提供内容的详细解释:
预期成本 vs 经验成本
预期成本:这通常指的是模型在整体数据分布(包括未见过的数据)上的平均损失或错误率。然而,由于我们通常无法直接访问整体数据分布,因此无法直接计算预期成本。
经验成本:这是模型在训练数据集上的损失或错误率。由于我们可以直接访问和计算训练数据集上的性能,经验成本成为了一个实用的替代指标,用于优化模型。
强泛化
如果最小化经验风险(即经验成本)确实意味着在整体上(包括未见过的数据)也最小化了风险(即预期成本),那么这种情况被称为“强泛化”。然而,在现实中,这种强泛化的情况很少见,因为训练数据集往往只是整体数据分布的一个子集,可能存在偏差或不足以代表整体。
过度拟合
当模型过于复杂,以至于它开始“记住”训练数据中的噪声和特定细节,而不是学习数据的真正模式时,就会发生过度拟合。这导致模型在训练数据上表现极佳,但在新的、未见过的数据上表现不佳。优化经验成本时,如果不加以控制,很容易陷入过度拟合的陷阱。
正则化等技术
为了防止过度拟合,提高模型的泛化能力,人们引入了多种技术,其中最常用的是正则化。正则化通过在优化过程中引入一个惩罚项(通常是模型复杂度的某种度量)来约束模型的复杂度。这样,在最小化经验成本的同时,也考虑了模型的复杂度,从而有助于防止模型过于复杂而过度拟合训练数据。
其他提高泛化能力的技术还包括但不限于:
交叉验证:通过将数据集分成训练集、验证集和测试集,并使用验证集来评估模型性能,从而选择最佳模型。
数据增强:通过增加训练数据的多样性来减少过拟合的风险。
集成方法:如随机森林、梯度提升机等,通过结合多个模型的预测来提高整体泛化能力。
总之,通过整合正则化等技术进入经验成本的优化过程中,我们可以改善模型的泛化能力,使其不仅在训练数据上表现良好,而且在未见过的数据上也能保持较好的性能。
6 Model parameters and hyperparameters? The role of
hyperparameters and how to determine them.
Model parameters are learned from the training data and are used by the model to make predictions, like weights in a neural network. Hyperparameters are set before training begins and control the learning process, such as the learning rate or the number of layers in a neural network.
Role of hyperparameters: They influence how well the model learns from data and can affect its performance and efficiency.
Determining hyperparameters: They can be tuned using methods like grid search, random search, or more advanced techniques like Bayesian optimization. These methods involve testing different hyperparameter values and evaluating their impact on model performance to find the best combination.
7 What is cross-validation
Cross-validation is a technique used to evaluate how well a model performs. It involves splitting the data into several parts (or folds). The model is trained on some of these parts and tested on the remaining part. This process is repeated multiple times, with different parts used for training and testing each time. The results are then averaged to get a more reliable measure of the model's performance.
8 什么是LOOCV?
在机器学习中,**LOOCV指的是留一交叉验证(Leave-One-Out Cross Validation),它是一种模型验证方法**。
LOOCV是交叉验证方法的一种极端情况,其特点是在每次迭代中几乎使用整个数据集进行训练,仅留出一个样本作为验证集。这种方法适用于样本数量较少的数据集,因为它能最大限度地利用可用的数据进行模型训练
9.三数据集切分?指的是啥?
训练集,测试集,验证集。
然后补充一个小点,1—of—k coding 独热编码。
10奥卡姆剃须刀啥情况?
奥卡姆剃须刀原则在机器学习中帮助我们避免不必要的复杂性,使模型更简单、易于解释、且更具泛化能力。这一原则贯穿于模型选择、特征选择和正则化等多个方面,指导我们在开发和训练模型时做出更合理的决策。
11.no free lunch therom是什么含义?
简单来说就是没有哪一种模型可以包打天下。
12一句话简单记住:深度学习:算法,算力,数据