机器学习 | 第一部分:引言与基础 1

文摘   2024-07-19 22:07   四川  



作者:第八星系-向显均

邮箱:13660328708@163.com



1、概念简介


大数据 Big Data

指的是规模庞大、复杂多样且难以通过传统数据处理工具进行捕获、管理和处理的数据集合。

这些数据集合通常在体积、速度和多样性等方面都具有挑战性,需要借助先进的技术和工具进行分析和利用。

通常,大数据被描述为具有“5V”特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、 Veracity(真实)。

人工智能 

Artificial Intelligence,AI

人工智能是一门研究和开发用于模拟、扩展和延伸人类智能的理论、方法、技术及应用系统的学科。

旨在创建能够执行需要人类智能的任务的系统,如感知、推理、学习和决策。通过算法和模型,使机器能够理解、学习和适应,从而实现自动化和智能化。

机器学习

Machine Learning, ML

机器学习是人工智能的一个子领域,专注于开发能够从数据中学习并改进性能的算法和模型,旨在让计算机系统通过学习数据来改善其性能。

机器学习是一种通过数据来训练模型,使其能够自动改进和做出预测的技术。

通过建立数学模型,处理和分析大量数据来训练和优化模型,使得计算机系统能够从数据中学习并做出预测或决策。

深度学习

Deep Learning, DL

深度学习是机器学习的一个分支,使用多层神经网络模型进行学习和推断。

其中,深度学习模型由多个神经网络层组成,可以更好地处理复杂的非线性关系。

深度学习在图像识别、语音识别、自然语言处理等领域取得了显著的成果,使得机器学习在这些任务上的性能得到了极大的提升。



2、关系简介


大数据与人工智能

大数据为人工智能提供了丰富的训练和测试数据,使得AI模型能够在更大规模和更复杂的数据集上进行训练和优化。

人工智能技术通过先进的算法和模型,从大数据中提取有效信息,实现智能决策和预测。

人工智能与机器学习

机器学习是实现人工智能的主要方法之一;人工智能的核心目标是使计算机具备类似人类智能的能力,而机器学习提供了实现这一目标的方法和技术。

机器学习通过从数据中学习模式,并根据经验自动调整算法和模型,使计算机能够自动化地进行任务和决策。

机器学习与深度学习

深度学习是机器学习的一种方法,通过构建深层神经网络来学习数据的高级特征表示,从而实现对复杂模式和关系的学习。

深度学习擅长处理复杂的、高维度的数据,如图像和声音,并在这些领域表现出色。它的成功也推动了机器学习整体的发展。

总结

大数据为机器学习和深度学习提供数据支持,机器学习和深度学习是实现人工智能的重要方法,而人工智能则利用这些技术来创建智能系统,处理和解决复杂的现实问题。

这四个领域相互依存、相互促进,共同推动了现代科技的发展。



3、机器学习类型简介


监督学习  

Supervised Learning


【概述】

使用带有标签的数据来训练模型,通过不断优化模型参数来实现对新数据的准确预测。

根据输入数据与其对应的输出标签之间的关系,建立一个能够对新数据进行预测或分类的模型。


【关键概念】

① 输入数据(Features,通常表示为X)

模型的训练数据,包含一组特征或属性,例如房屋的面积、位置等。

② 输出数据(Labels,通常表示为Y)

与每个输入数据点相关联的标签或目标,例如相应房屋的价格。

模型训练

使用已知的输入输出对(X,Y)来训练模型,使其学习如何映射输入到输出。

训练过程中,模型调整其内部参数,以最小化预测输出与真实标签之间的差距。


【常见任务】

1、分类(Classfication)

常用算法:

逻辑回归

Logistic Regression

利用逻辑函数(Sigmoid)将线性回归的结果转换为类别概率,适用于二分类问题。


支持向量机  SVM

Support Vector Machine

通过最大化样本间隔来寻找最佳决策边界,支持线性和非线性分类(通过核技巧)。


K邻近算法 KNN

K-Nearest Neighbors

基于距离度量,将样本分配到其k个最近邻居所属的类别。


朴素贝叶斯  Naive Bayes

基于贝叶斯定理,通过假设特征之间条件独立计算类别概率。


决策树  Decision Tree

通过递归划分特征空间构建树结构,叶子节点表示类别标签


随机森林  Random Forest

由多棵决策树组成的集成模型,通过投票决定最终分类结果。


神经网络和深度学习

Neural Networks and Deep Learning

通过多层神经元的连接和非线性激活函数进行复杂特征提取和分类。


常见应用:

① 垃圾邮件检测

② 图像分类

③ 文本分类

④ 语音识别

⑤ 疾病诊断


2、回归  Regression

常用算法:

① 线性回归

Linear Regression

假设自变量与因变量之间存在线性关系,通过最小化均方误差来拟合一条直线。


② 岭回归 

Ridge Regression

在线性回归基础上加入L2正则化项,通过惩罚大系数防止过拟合。


③ 套索回归  

Lasso Regression

在线性回归基础上加入L1正则化项,通过惩罚大系数使部分不重要的特征系数变为零,实现特征选择。


④ 多项式回归

Polynomial Regression

通过引入多项式特征来捕捉输入特征与输出之间的非线性关系。


⑤ 支持向量回归  SVR

Support Vector Regression

通过最大化间隔来寻找最佳回归超平面,并允许一定的误差


⑥ 决策树回归

Decision Tree Regression

通过递归划分特征空间,构建决策树进行回归预测。


⑦ 随机森林回归

Random Forest Regression

通过集成多棵决策树,采用Bagging方法提升模型稳定性和泛化能力。


⑧ 梯度提升回归

Gradient Boosting Regression

通过逐步添加弱学习器(如决策树),每一步都拟合前一步的残差,逐步提升模型性能。


⑨神经网络和深度学习

Neural Networks and Deep Learning

通过多层神经元的连接和非线性激活函数,能够捕捉复杂的高维非线性关系。


常见应用:

① 股票价格预测

② 天气预报

③ 销售预测

④ 医疗诊断

⑤ 房价预测


无监督学习  

Unsupervised Learning


【概述】

使用未标记的数据进行训练,旨在发现数据中的结构和模式。无监督学习任务包括聚类、降维、密度估计等,可用于发现数据内在的组织结构和特征


【关键概念】

① 聚类  Clustering

将数据集划分为多个簇,使得同一簇内的数据点相似度高,而不同簇之间的数据点相似度低。


② 降维  

Dimensionality Reduction

用于将高维数据转换为低维表示,保留数据的主要特征,方便可视化和进一步分析。


③ 密度估计  

Density Estimation

用于估计数据的概率密度函数,可以帮助理解数据的分布情况。


⑤ 关联规则学习

Association Rule Learning

用于发现数据项之间的有趣关系,常用于市场篮子分析(Market Basket Analysis)


【常用算法、方法

1、聚类常见算法

① K-means

将数据划分为K个簇,通过迭代优化使得每个数据点都分配到最相近的质心。


② 层次聚类

Hierarchical Clustering

通过构建树状结构来表示数据点的嵌套簇关系,可以是自底向上(凝聚)或自顶向下(分裂)。


③ DBSCAN

Density-Based Spatial 

Clustering of Applications with Noise

基于密度的聚类方法,可以识别任意形状的簇,并处理噪声数据。


2、降维常用方法

① 主成分分析  PCA

通过线性变换将原始数据投影到新的坐标系中,使得数据在新坐标系中的方差最大化。


② t-SNE

t-Distributed Stochastic 

Neighbor Embedding

一种非线性降维方法,适合于高维数据的可视化。


③ 自编码器  Autoencoder

一种神经网络结构,通过学习压缩和重构输入数据来实现降维。


3、密度估计常见方法

① 高斯混合模型  GMM

假设数据由多个高斯分布组成,通过期望最大化(EM)算法来估计每个高斯分布的参数。

② 核密度估计  KDE

利用核函数平滑数据分布,生成连续的概率密度曲线。


4、关联规则学习常见方法

① Apriori算法

通过频繁项集生成和置信度计算来挖掘关联规则。

② FP-Growth算法

一种更高效的频繁项集挖掘方法,不需要候选集生成。


【常见应用】

① 客户细分

② 异常检测

③ 文本挖掘

④ 图像处理


半监督学习  

Semi-Supervised Learning


【概述】

半监督学习是介于监督学习和无监督学习之间的一种学习范式,旨在利用同时包含标记和未标记数据的情况下进行学习。

其核心思想是通过未标记数据来增强模型的泛化能力和学习效果。

由于未标记数据通常容易获取且成本较低,半监督学习可以在标记数据稀缺或难以获得的情况下发挥重要作用。


【常见方法

① 自训练 Self-Training

首先用标注数据训练一个初始模型,然后用该模型对未标注数据进行预测,将置信度较高的预测结果作为伪标签加入到训练集中,再次训练模型。这个过程可以迭代多次。


② 一致性正则化

Consistency Regularization

在输入数据上添加扰动,并要求模型对原始数据和扰动后的数据保持一致的输出。这样可以提高模型的鲁棒性。


③ 生成对抗网络  GANs

Generative Adversarial Networks

使用生成器生成与真实数据分布相似的样本,并将其用于扩充训练数据集。判别器在分类任务中利用标注数据和生成的数据共同训练。


④ 图形方法  Graph-Based Methods

使用生成器生成与真实数据分布相似的样本,并将其用于扩充训练数据集。判别器在分类任务中利用标注数据和生成的数据共同训练。


【常见应用】

自然语言处理

如文本分类、情感分析等。

计算机视觉

如图像分类、目标检测、图像分割等。

生物信息学

如基因功能预测、疾病诊断等。

推荐系统

如用户行为预测、个性化推荐等。


强化学习  RL

Reinforcement Learning


【概述】

RL 是机器学习的一个重要分支,旨在通过与环境的交互来学习如何进行决策和采取行动,以最大化长期累积的奖励。

强化学习不同于监督学习和无监督学习,它强调的是智能体(agent)在动态环境中的行为优化。


【基本组成】

① 智能体  Agent

是执行动作并从中学习的主体。在每个时间步,智能体根据策略选择动作。


② 环境  Environment

智能体与之交互的外部系统。环境接受智能体的动作并反馈下一状态和即时奖励。


③ 状态  State

环境在某一时刻的具体情况或描述。状态信息可以是完全观测到的(完全可观测环境)或部分观测到的(部分可观测环境)。


④ 动作  Action

智能体在每个时间步可以采取的决策或操作。


⑤ 奖励  Reward

环境在每次状态转换后给智能体的反馈,用于评估动作的好坏。智能体的目标是最大化累积奖励。


⑥ 策略  Policy

智能体选择动作的规则或函数。策略可以是确定性的(同一状态下始终选择相同动作)或随机的(根据某种概率分布选择动作)。


⑦ 值函数  Value Function

评估某一状态或状态-动作对的预期累积奖励。值函数帮助智能体判断哪些状态和动作更有利。


【问题框架】

强化学习问题通常被建模为马尔可夫决策过程(Markov Decision Process, MDP),其包含五个要素:状态空间、动作空间、状态转移概率、奖励函数和折扣因子。


【主要方法】

① 值迭代和策略迭代

这两种方法属于动态规划,通过计算状态值或状态-动作值来找到最优策略,但要求已知环境的动态模型。


②蒙特卡罗方法

Monte Carlo Methods

依赖于模拟大量完整的经验轨迹来估计值函数,适用于无法精确建模的环境。


③ 时间差分学习  TD

Temporal-Difference Learning

TD方法结合了动态规划的自举思想和蒙特卡罗方法的采样思想,在不需要环境模型的情况下估计值函数,如Q学习和SARSA。


④ 策略梯度方法

Policy Gradient Methods

直接优化策略,通过梯度上升或下降更新策略参数,适用于连续动作空间的问题。常见算法包括REINFORCE、深度确定性策略梯度(DDPG)、近端策略优化(PPO)等。


⑤ 深度强化学习

Deep Reinforcement Learning

将深度学习与强化学习相结合,使用神经网络作为函数逼近器来处理高维状态空间的问题。著名算法包括深度Q网络(DQN)、深度确定性策略梯度(DDPG)、A3C、近端策略优化(PPO)等。


【常见应用】

① 游戏

② 医疗

③ 机器人控制

④ 金融交易

⑤ 自然语言处理



我们将从基础到进阶,逐步开展机器学习相关的系列推文。欢迎大家持续关注我们的公众号,不要错过任何精彩内容!


END



第八星系人造大气理论爱好者
记录与交流python、matlab等科研工具。记录与交流大气科学的学科知识
 最新文章