机器学习 | 第一部分：引言与基础 1

文摘 2024-07-19 22:07 四川

作者：第八星系-向显均

邮箱：13660328708@163.com

1、概念简介

大数据 Big Data

指的是规模庞大、复杂多样且难以通过传统数据处理工具进行捕获、管理和处理的数据集合。

这些数据集合通常在体积、速度和多样性等方面都具有挑战性，需要借助先进的技术和工具进行分析和利用。

通常，大数据被描述为具有“5V”特征：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、 Veracity（真实）。

人工智能

Artificial Intelligence，AI

人工智能是一门研究和开发用于模拟、扩展和延伸人类智能的理论、方法、技术及应用系统的学科。

旨在创建能够执行需要人类智能的任务的系统，如感知、推理、学习和决策。通过算法和模型，使机器能够理解、学习和适应，从而实现自动化和智能化。

机器学习

Machine Learning, ML

机器学习是人工智能的一个子领域，专注于开发能够从数据中学习并改进性能的算法和模型，旨在让计算机系统通过学习数据来改善其性能。

机器学习是一种通过数据来训练模型，使其能够自动改进和做出预测的技术。

通过建立数学模型，处理和分析大量数据来训练和优化模型，使得计算机系统能够从数据中学习并做出预测或决策。

深度学习

Deep Learning, DL

深度学习是机器学习的一个分支，使用多层神经网络模型进行学习和推断。

其中，深度学习模型由多个神经网络层组成，可以更好地处理复杂的非线性关系。

深度学习在图像识别、语音识别、自然语言处理等领域取得了显著的成果，使得机器学习在这些任务上的性能得到了极大的提升。

2、关系简介

大数据与人工智能

大数据为人工智能提供了丰富的训练和测试数据，使得AI模型能够在更大规模和更复杂的数据集上进行训练和优化。

人工智能技术通过先进的算法和模型，从大数据中提取有效信息，实现智能决策和预测。

人工智能与机器学习

机器学习是实现人工智能的主要方法之一；人工智能的核心目标是使计算机具备类似人类智能的能力，而机器学习提供了实现这一目标的方法和技术。

机器学习通过从数据中学习模式，并根据经验自动调整算法和模型，使计算机能够自动化地进行任务和决策。

机器学习与深度学习

深度学习是机器学习的一种方法，通过构建深层神经网络来学习数据的高级特征表示，从而实现对复杂模式和关系的学习。

深度学习擅长处理复杂的、高维度的数据，如图像和声音，并在这些领域表现出色。它的成功也推动了机器学习整体的发展。

总结

大数据为机器学习和深度学习提供数据支持，机器学习和深度学习是实现人工智能的重要方法，而人工智能则利用这些技术来创建智能系统，处理和解决复杂的现实问题。

这四个领域相互依存、相互促进，共同推动了现代科技的发展。

3、机器学习类型简介

监督学习

Supervised Learning

【概述】

使用带有标签的数据来训练模型，通过不断优化模型参数来实现对新数据的准确预测。

根据输入数据与其对应的输出标签之间的关系，建立一个能够对新数据进行预测或分类的模型。

【关键概念】

① 输入数据（Features，通常表示为X）

模型的训练数据，包含一组特征或属性，例如房屋的面积、位置等。

② 输出数据（Labels，通常表示为Y）

与每个输入数据点相关联的标签或目标，例如相应房屋的价格。

③ 模型训练

使用已知的输入输出对（X，Y）来训练模型，使其学习如何映射输入到输出。

训练过程中，模型调整其内部参数，以最小化预测输出与真实标签之间的差距。

【常见任务】

1、分类（Classfication）

常用算法：

①逻辑回归

Logistic Regression

利用逻辑函数（Sigmoid）将线性回归的结果转换为类别概率，适用于二分类问题。

②支持向量机 SVM

Support Vector Machine

通过最大化样本间隔来寻找最佳决策边界，支持线性和非线性分类（通过核技巧）。

③K邻近算法 KNN

K-Nearest Neighbors

基于距离度量，将样本分配到其k个最近邻居所属的类别。

④ 朴素贝叶斯 Naive Bayes

基于贝叶斯定理，通过假设特征之间条件独立计算类别概率。

⑤ 决策树 Decision Tree

通过递归划分特征空间构建树结构，叶子节点表示类别标签

⑥ 随机森林 Random Forest

由多棵决策树组成的集成模型，通过投票决定最终分类结果。

⑦ 神经网络和深度学习

Neural Networks and Deep Learning

通过多层神经元的连接和非线性激活函数进行复杂特征提取和分类。

常见应用：

① 垃圾邮件检测

② 图像分类

③ 文本分类

④ 语音识别

⑤ 疾病诊断

2、回归 Regression

常用算法：

① 线性回归

Linear Regression

假设自变量与因变量之间存在线性关系，通过最小化均方误差来拟合一条直线。

② 岭回归

Ridge Regression

在线性回归基础上加入L2正则化项，通过惩罚大系数防止过拟合。

③ 套索回归

Lasso Regression

在线性回归基础上加入L1正则化项，通过惩罚大系数使部分不重要的特征系数变为零，实现特征选择。

④ 多项式回归

Polynomial Regression

通过引入多项式特征来捕捉输入特征与输出之间的非线性关系。

⑤ 支持向量回归 SVR

Support Vector Regression

通过最大化间隔来寻找最佳回归超平面，并允许一定的误差

⑥ 决策树回归

Decision Tree Regression

通过递归划分特征空间，构建决策树进行回归预测。

⑦ 随机森林回归

Random Forest Regression

通过集成多棵决策树，采用Bagging方法提升模型稳定性和泛化能力。

⑧ 梯度提升回归

Gradient Boosting Regression

通过逐步添加弱学习器（如决策树），每一步都拟合前一步的残差，逐步提升模型性能。

⑨神经网络和深度学习

Neural Networks and Deep Learning

通过多层神经元的连接和非线性激活函数，能够捕捉复杂的高维非线性关系。

常见应用：

① 股票价格预测

② 天气预报

③ 销售预测

④ 医疗诊断

⑤ 房价预测

无监督学习

Unsupervised Learning

【概述】

使用未标记的数据进行训练，旨在发现数据中的结构和模式。无监督学习任务包括聚类、降维、密度估计等，可用于发现数据内在的组织结构和特征

【关键概念】

① 聚类 Clustering

将数据集划分为多个簇，使得同一簇内的数据点相似度高，而不同簇之间的数据点相似度低。

② 降维

Dimensionality Reduction

用于将高维数据转换为低维表示，保留数据的主要特征，方便可视化和进一步分析。

③ 密度估计

Density Estimation

用于估计数据的概率密度函数，可以帮助理解数据的分布情况。

⑤ 关联规则学习

Association Rule Learning

用于发现数据项之间的有趣关系，常用于市场篮子分析（Market Basket Analysis）

【常用算法、方法】

1、聚类常见算法

① K-means

将数据划分为K个簇，通过迭代优化使得每个数据点都分配到最相近的质心。

② 层次聚类

Hierarchical Clustering

通过构建树状结构来表示数据点的嵌套簇关系，可以是自底向上（凝聚）或自顶向下（分裂）。

③ DBSCAN

Density-Based Spatial

Clustering of Applications with Noise

基于密度的聚类方法，可以识别任意形状的簇，并处理噪声数据。

2、降维常用方法

① 主成分分析 PCA

通过线性变换将原始数据投影到新的坐标系中，使得数据在新坐标系中的方差最大化。

② t-SNE

t-Distributed Stochastic

Neighbor Embedding

一种非线性降维方法，适合于高维数据的可视化。

③ 自编码器 Autoencoder

一种神经网络结构，通过学习压缩和重构输入数据来实现降维。

3、密度估计常见方法

① 高斯混合模型 GMM

假设数据由多个高斯分布组成，通过期望最大化（EM）算法来估计每个高斯分布的参数。

② 核密度估计 KDE

利用核函数平滑数据分布，生成连续的概率密度曲线。

4、关联规则学习常见方法

① Apriori算法

通过频繁项集生成和置信度计算来挖掘关联规则。

② FP-Growth算法

一种更高效的频繁项集挖掘方法，不需要候选集生成。

【常见应用】

① 客户细分

② 异常检测

③ 文本挖掘

④ 图像处理

半监督学习

Semi-Supervised Learning

【概述】

半监督学习是介于监督学习和无监督学习之间的一种学习范式，旨在利用同时包含标记和未标记数据的情况下进行学习。

其核心思想是通过未标记数据来增强模型的泛化能力和学习效果。

由于未标记数据通常容易获取且成本较低，半监督学习可以在标记数据稀缺或难以获得的情况下发挥重要作用。

【常见方法】

① 自训练 Self-Training

首先用标注数据训练一个初始模型，然后用该模型对未标注数据进行预测，将置信度较高的预测结果作为伪标签加入到训练集中，再次训练模型。这个过程可以迭代多次。

② 一致性正则化

Consistency Regularization

在输入数据上添加扰动，并要求模型对原始数据和扰动后的数据保持一致的输出。这样可以提高模型的鲁棒性。

③ 生成对抗网络 GANs

Generative Adversarial Networks

使用生成器生成与真实数据分布相似的样本，并将其用于扩充训练数据集。判别器在分类任务中利用标注数据和生成的数据共同训练。

④ 图形方法 Graph-Based Methods

使用生成器生成与真实数据分布相似的样本，并将其用于扩充训练数据集。判别器在分类任务中利用标注数据和生成的数据共同训练。

【常见应用】

① 自然语言处理

如文本分类、情感分析等。

② 计算机视觉

如图像分类、目标检测、图像分割等。

③ 生物信息学

如基因功能预测、疾病诊断等。

④ 推荐系统

如用户行为预测、个性化推荐等。

强化学习 RL

Reinforcement Learning

【概述】

RL 是机器学习的一个重要分支，旨在通过与环境的交互来学习如何进行决策和采取行动，以最大化长期累积的奖励。

强化学习不同于监督学习和无监督学习，它强调的是智能体（agent）在动态环境中的行为优化。

【基本组成】

① 智能体 Agent

是执行动作并从中学习的主体。在每个时间步，智能体根据策略选择动作。

② 环境 Environment

智能体与之交互的外部系统。环境接受智能体的动作并反馈下一状态和即时奖励。

③ 状态 State

环境在某一时刻的具体情况或描述。状态信息可以是完全观测到的（完全可观测环境）或部分观测到的（部分可观测环境）。

④ 动作 Action

智能体在每个时间步可以采取的决策或操作。

⑤ 奖励 Reward

环境在每次状态转换后给智能体的反馈，用于评估动作的好坏。智能体的目标是最大化累积奖励。

⑥ 策略 Policy

智能体选择动作的规则或函数。策略可以是确定性的（同一状态下始终选择相同动作）或随机的（根据某种概率分布选择动作）。

⑦ 值函数 Value Function

评估某一状态或状态-动作对的预期累积奖励。值函数帮助智能体判断哪些状态和动作更有利。

【问题框架】

强化学习问题通常被建模为马尔可夫决策过程（Markov Decision Process, MDP），其包含五个要素：状态空间、动作空间、状态转移概率、奖励函数和折扣因子。

【主要方法】

① 值迭代和策略迭代

这两种方法属于动态规划，通过计算状态值或状态-动作值来找到最优策略，但要求已知环境的动态模型。

②蒙特卡罗方法

Monte Carlo Methods

依赖于模拟大量完整的经验轨迹来估计值函数，适用于无法精确建模的环境。

③ 时间差分学习 TD

Temporal-Difference Learning

TD方法结合了动态规划的自举思想和蒙特卡罗方法的采样思想，在不需要环境模型的情况下估计值函数，如Q学习和SARSA。

④ 策略梯度方法

Policy Gradient Methods

直接优化策略，通过梯度上升或下降更新策略参数，适用于连续动作空间的问题。常见算法包括REINFORCE、深度确定性策略梯度（DDPG）、近端策略优化（PPO）等。

⑤ 深度强化学习

Deep Reinforcement Learning

将深度学习与强化学习相结合，使用神经网络作为函数逼近器来处理高维状态空间的问题。著名算法包括深度Q网络（DQN）、深度确定性策略梯度（DDPG）、A3C、近端策略优化（PPO）等。

【常见应用】

① 游戏

② 医疗

③ 机器人控制

④ 金融交易

⑤ 自然语言处理

我们将从基础到进阶，逐步开展机器学习相关的系列推文。欢迎大家持续关注我们的公众号，不要错过任何精彩内容！

END

第八星系人造大气理论爱好者

记录与交流python、matlab等科研工具。记录与交流大气科学的学科知识

最新文章

python基于站点经纬度绘制降水空间散点分布图

关于本公众号后台不回复的说明及加入交流群的方式

code详解 | 用python实现气象局降水相态图的绘制

两种降水站点数据克里金插值及可视化方法

三分钟学会气象要素六边形分布绘制

Python|基于python利用多年降水日数据计算逐年逐季节各站点降水日数

利用MATLAB求臭氧MDA8数据第90百分位数

重磅！2024中国大学大气科学、应用气象学等专业排名

重磅！北京师范大学地表过程与资源生态国家重点实验室段建平、效存德等在 BAMS 发表最新研究进展

TP-PROFILE：监测第三极对流层大气热动力结构的观测网

利用Python计算质量流函数（MSF）表征哈德来环流

数据文章|三种不同大涡模式模拟的浅对流数据集

小波系数实部等值线图和小波系数方差图的绘制

对于生活在难民营中的三位女性来说，极端天气意味着什么？

在正与严酷夏季作斗争的巴基斯坦，每天都有上百人在卡拉奇死去

机器学习-随机森林回归（上）

机器学习-随机森林回归（下）

深度学习 | N卡pytorch框架GPU版本安装

Linux基础教程|ip地址&主机名&配置固定IP

Python读取 .txt 文件绘制温度-盐度-溶解氧垂直剖面图

多Y轴柱状图（以3Y轴为例）

MATLAB绘制柱状剖面组合图

Python读取.mat数据并绘制1950~2019年的nino3.4时间序列

Matlab进阶绘图-方块热图灵活版

MATLAB|编辑器打开脚本无代码的解决措施

深度学习|安装图神经网络必备神器PyTorch Geometric

Linux基础教程|ip地址&主机名&配置固定IP

如何绘制wrfout文件的垂直速度变量

机器学习 | 第一部分：引言与基础 1

利用Python计算质量流函数（MSF）表征哈德来环流

基于python自动定时从天擎下载中国气象局全球天气模式CMA-GFS下发产品-东北半球分析产品并插值到站点且生成.csv文件上

雷达系列：必须更新！测试cinrad最新更新的read_auto

刘海龙团队|南海中尺度涡轨迹可预报性期限研究

Python|格点数据插值到站点：最邻近插值和双三次插值算法

机器学习 | 第一部分：引言与基础 1

关于本公众号后台不回复的说明及加入交流群的方式

Matlab--EOF分析

MATLAB小白入门04-03—简单折线图

预出版|基于长期观测的二维视频滴谱仪对西藏羊八井地区降雨微物理特征的研究

CMORPH降水数据下载

深度学习|安装图神经网络必备神器PyTorch Geometric

关于本公众号后台不回复的说明及加入交流群的方式

机器学习 | 第一部分：引言与基础 2

MATLAB 绘制夏季海表流场

中国大气复合污染专题| 不同气象条件下前体物减排控制大气污染的有效性

常见地图白化方法（二）

两种micaps站点数据的简单绘制方法

初伏-未晓雨先骤，过朝风更鲜。

关于本公众号后台不回复的说明及加入交流群的方式

在Windows系统中安装Git

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉