最强图解微型神经网络--多层感知器

职场 2024-12-04 08:51 浙江

转自：数据STUDIO

有没有觉得神经网络无处不在？它们出现在新闻中，出现在你的手机里，甚至出现在你的社交媒体上。但老实说，我们大多数人都不知道它们究竟是如何工作的。那些花里胡哨的数学和奇怪的术语，比如 “反向传播”？

本文我们探索多层感知器（MLP）--最基本的神经网络类型——使用一个小型网络，仅使用少量数据点，对一个简单的二维数据集进行分类。

我们将过程进行拆解，并用图示的方式展示每一步，你将看到栩栩如生的数学知识，了解数字和方程是如何在网络中流动的，以及学习是如何真正发生的！

定义

多层感知器 (MLP) 是一种神经网络，它使用多层连接节点来学习模式。它因具有多个层而得名 - 通常是一个输入层、一个或多个中间（隐藏）层和一个输出层。

每个节点都连接到下一层的所有节点。当网络学习时，它会根据训练示例调整这些连接的强度。例如，如果某些连接导致正确的预测，它们就会变得更强。如果它们导致错误，它们就会变得更弱。

这种通过示例学习的方式有助于网络识别模式并对以前从未见过的新情况做出预测。

MLP 被认为是神经网络和深度学习领域的基础，因为它们可以处理简单方法难以解决的复杂问题。

使用的数据集

为了理解 MLP 的工作原理，从一个简单的示例开始：一个只有几个样本的mini 2D 数据集。我们将使用上一篇文章中的相同数据集，以使事情易于管理。

列：温度（0-3）、湿度（0-3）、打高尔夫球（是/否）。训练数据集有 2 个维度和 8 个样本

我们不必直接进行训练，而是尝试了解构成神经网络的关键部分以及它们如何协同工作。

步骤 0：网络结构

首先，看看网络的各个部分：

节点（神经元）

我们先从神经网络的基本结构开始。该结构由许多称为节点或神经元的单个单元组成。

这些节点被组织成称为层的组，以便协同工作。

输入层

输入层是我们的起点。它接收我们的原始数据，这里的节点数量与我们拥有的特征数量相匹配。

隐藏层

接下来是隐藏层。我们可以有一个或多个这样的层，并且可以选择每个层有多少个节点。通常，随着层数的增加，我们在每层中使用的节点数会减少。

输出层

最后一层给出了最终答案。输出层的节点数取决于我们的任务：对于二元分类或回归，我们可能只有一个输出节点，而对于多类问题，每个类都有一个节点。

权重

节点通过权重相互连接——权重是控制每条信息重要程度的数字。节点之间的每个连接都有自己的权重。这意味着我们需要很多权重：一层中的每个节点都连接到下一层中的每个节点。

该神经网络共有14个权重。

偏差

除了权重，每个节点还有一个偏差——一个额外的数字，可以帮助它做出更好的决策。权重控制节点之间的连接，而偏差则帮助每个节点调整其输出。

神经网络

总而言之，我们将使用并训练这个神经网络：

我们的网络由 4 层组成：1 个输入层（2 个节点）、2 个隐藏层（3 个节点和 2 个节点）和 1 个输出层（1 个节点）。这创建了一个 2–3–2–1 架构。

看一下这张从上到下展示我们网络的新图表。我对其进行了更新，使数学运算更容易理解：信息从顶部节点开始，流经各个层，直到到达底部的最终答案。

现在我们了解了网络是如何构建的，再看看信息是如何在网络中传播的。这称为前向传递。

步骤 1：前向传递

接下来我们一步一步看看我们的网络如何将输入转化为输出：

权重初始化

在我们的网络开始学习之前，我们需要为每个权重指定一个起始值。我们选择 -1 到 1 之间的小随机数。从随机数开始有助于我们的网络在没有任何早期偏好或模式的情况下进行学习。

加权求和

每个节点分两步处理传入数据。首先，它将每个输入乘以其权重，并将所有这些数字相加。然后，它再添加一个数字（偏差）以完成计算。偏差本质上是一个输入为常数 1 的权重。

激活函数

每个节点取其加权和并通过激活函数运行以产生其输出。激活函数通过引入非线性行为帮助我们的网络学习复杂的模式。

在隐藏层中，我们使用 ReLU 函数（整流线性单元）。ReLU 很简单：如果数字为正，则保持不变；如果数字为负，则变为零。

逐层计算

这两步过程（加权和激活）在每一层中依次发生。每一层的计算有助于将我们的输入数据逐步转化为最终的预测。

输出生成

最后一层创建了我们网络的最终答案。对于我们的是/否分类任务，我们在这一层中使用了一种称为sigmoid的特殊激活函数。

S 型函数将任何数字转换为 0 到 1 之间的值。这使其非常适合是/否决策，因为我们可以将输出视为概率：越接近 1 表示越可能是“是”，越接近 0 表示越可能是“否”。

这个前向传递过程将我们的输入转换为 0 到 1 之间的预测。但这些预测有多准确？接下来，我们将测量我们的预测与正确答案的接近程度。

第 2 步：损失计算

损失函数

为了检查我们的网络表现如何，我们会测量其预测与正确答案之间的差异。对于二元分类，我们使用一种称为二元交叉熵的方法，该方法可以显示我们的预测与真实值的偏差。

神经网络中的数学符号

为了提高网络的性能，我们需要使用一些数学符号。在继续之前，让我们先定义一下每个符号的含义：

权重和偏差权重表示为矩阵，偏差表示为向量（或一维矩阵）。括号[1]表示层数。

输入、输出、加权和以及激活后的值节点内的值可以表示为向量，形成一致的数学框架。

这些数学符号帮助我们准确地写出我们的网络所做的事情：

我们看一张显示网络中发生的所有数学运算的图表。每层都有：

连接各层的权重 ( W ) 和偏差 ( b )
激活前的值 ( z )
活化后的值 ( a )
最后的预测（ŷ）和损失（L ）

我们看看每一层到底发生了什么：

第一个隐藏层：

获取输入x，将其乘以权重W [1]，加上偏差b[1] 得到z[1]
将 ReLU 应用于z[1] 得到输出a[1]

第二个隐藏层：

取a[1]，乘以权重W [2]，加上偏差b[2] 得到z[2]
将 ReLU 应用于z[2] 得到输出a[2]

输出层：

取a[2]，乘以权重W [3]，加上偏差b[3 ]得到 z[3]
对 z[3] 应用 sigmoid 函数得到最终预测 ŷ

现在我们看到了网络中的所有数学知识，那么我们如何改进这些数字以获得更好的预测呢？这就是反向传播的作用所在——它向我们展示了如何调整权重和偏差以减少错误。

步骤3：反向传播

在我们了解如何改进网络之前，让我们快速回顾一下我们需要的一些数学工具：

梯度

为了优化我们的神经网络，我们使用梯度——一个与导数密切相关的概念。让我们回顾一些基本的导数规则：

偏导数

正导数和偏导数之间的区别：

正导数：

当函数只有一个变量时使用
显示当其唯一变量改变时函数的变化量
写为 d f /d x

偏导数：

当函数有多个变量时使用
显示当一个变量发生变化时函数的变化量，同时保持其他变量不变（作为常数）。
写为 ∂f / ∂x

梯度计算与反向传播

回到我们的神经网络，我们需要确定如何调整每个权重和偏差以最小化误差。我们可以使用一种称为反向传播的方法来做到这一点，该方法向我们展示了改变每个值如何影响我们的网络误差。

由于反向传播在我们的网络中向后进行，将图表上下翻转来看看它是如何工作的。

网络矩阵规则

由于我们的网络使用矩阵（权重和偏差组），因此我们需要特殊规则来计算变化如何影响我们的结果。以下是两个关键矩阵规则。对于向量v、u（大小为 1 × n）和矩阵W、X（大小为n × n）：

求和规则：∂( W + X )/∂W = I （单位矩阵，大小为n × n）∂( u + v )/∂v = I （单位矩阵，大小为n × n）
矩阵向量积规则：∂( vW )/∂ W = v ᵀ∂( vW )/∂ v = W ᵀ

利用这些规则，我们得到：

激活函数导数

ReLU 的导数

对于向量a和z（大小为 1 × n），其中 a = ReLU( z )：

∂a /∂z = diag( z > 0)

创建一个对角矩阵，显示：如果输入为正则为 1，如果输入为零或负则为 0。

S 型函数的导数

对于a = σ( z )，其中 σ 是 S 型函数：

∂a / ∂z = a⊙(1 - a )

这将直接将元素相乘（⊙表示将每个位置相乘）。

二元交叉熵损失导数

对于损失为 L = -[ y log(ŷ) + (1- y ) log(1- ŷ )] 的单个示例：

∂ L /∂ ŷ = -( y - ŷ ) / [ ŷ (1- ŷ )]

到目前为止，我们可以将所有偏导数总结如下：

下图展示了我们迄今为止得到的所有偏导数：

链式法则

在我们的网络中，变化会经过多个步骤：权重会影响其所在层的输出，进而影响下一层，依此类推，直到最终误差。链式法则告诉我们将这些逐步变化相乘，以找出每个权重和偏差如何影响最终误差。

误差计算

我们不是直接计算权重和偏差导数，而是先计算层误差 ∂ L /∂ zˡ（相对于预激活输出的梯度）。这样可以更轻松地计算如何调整前面各层的权重和偏差。

权重梯度和偏差梯度

利用这些层误差和链式法则，我们可以将权重和偏差梯度表示为：

梯度向我们展示了网络中的每个值如何影响网络的误差。然后我们对这些值进行细微的更改，以帮助我们的网络做出更好的预测

步骤 4：权重更新

更新权重

一旦我们知道每个权重和偏差如何影响误差（梯度），我们就会通过沿梯度的反方向调整这些值来改进网络。这会逐步减少网络的误差。

学习率与优化

我们不会一下子做出大的改变，而是进行细微的、谨慎的调整。我们使用一个称为学习率 ( η ) 的数字来控制每个值的改变程度：

如果η太大：变化太大，可能会使情况变得更糟
如果η太小：变化很小，需要很长时间才能改善

这种进行小的、可控的改变的方式称为随机梯度下降（SGD）。我们可以把它写成：

η（学习率）的值通常选择较小，通常在0.1到0.0001之间，以确保稳定学习。

我们刚刚看到了我们的网络如何从一个例子中学习。网络对数据集中的每个示例重复所有这些步骤，每轮练习都会变得更好

步骤摘要

以下是我们基于单个示例训练网络的所有步骤：

扩展到完整数据集

epoch

我们的网络对数据集中的每个示例重复这四个步骤——前向传递、损失计算、反向传播和权重更新。遍历所有示例一次称为一个 epoch。

网络通常需要多次查看所有示例才能很好地完成其任务，甚至需要 1000 次。每次查看都有助于它更好地学习模式。

Batch

我们的网络不是一次只从一个示例中学习，而是一次从小组示例中学习（称为批次）。这有几个好处：

工作速度更快
学习更好的模式
取得更加稳步的进步

处理批次时，网络会在进行更改之前查看组中的所有示例。这比在每个示例之后更改值能带来更好的结果。

测试步骤

准备经过全面训练的神经网络

训练完成后，我们的网络就可以对以前从未见过的新示例进行预测了。它使用与训练相同的步骤，但只需通过网络向前移动即可进行预测。

做出预测

处理新数据时：

输入层接受新值
在每一层：

乘以权重并添加偏差
应用激活函数

输出层生成预测（例如，二元分类的 0 到 1 之间的概率）

神经网络的确定性

当我们的网络两次看到相同的输入时，它会两次给出相同的答案（只要我们没有改变它的权重和偏差）。网络处理新示例的能力来自其训练，而不是来自预测中的任何随机性。

写在最后

随着我们的网络反复练习这些示例，它的任务会越来越好。随着时间的推移，它犯的错误越来越少，预测也越来越准确。这就是神经网络学习的方式：查看示例，找出错误，做出小幅改进，然后重复！

多层感知器分类器代码摘要

现在看看神经网络是如何运作的。下面是一些 Python 代码，它使用我们刚刚学到的相同结构和规则构建了我们一直在讨论的网络。

import pandas as pd
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# 创建简单的 2D 数据集
df = pd.DataFrame({ 
    '🌞' : [ 0 , 1 , 1 , 2 , 3 , 3 , 2 , 3 , 0 , 0 , 1 , 2 , 3 ], 
    '💧' : [ 0 , 0 , 1 , 0 , 1 , 2 , 3 , 3 , 1 , 2 , 3 , 2 , 1 ], 
    'y' : [ 1 , - 1 , - 1 , - 1 , 1 , 1 , 1 , - 1 , - 1 , 1 , 1 , 1 ] }, 
    index= range ( 1 , 14 )) 
# 分成训练集和测试集
train_df, test_df = df.iloc[:8].copy(), df.iloc[8:].copy()
X_train, y_train = train_df[['🌞', '💧']], train_df['y']
X_test, y_test = test_df[['🌞', '💧']], test_df['y']
# 创建并配置我们的神经网络
mlp = MLPClassifier(hidden_layer_sizes=( 3 , 2 ), # 如上所述创建 2-3-2-1 架构    
       activity= 'relu' ,          # 隐藏层的 ReLU 激活
              resolver= 'sgd' ,               # 随机梯度下降优化器
              learning_rate_init= 0.1 ,     # 权重更新的步长
              max_iter= 1000 ,              # 最大迭代次数
              motion= 0 ,                  # 如上所述，禁用纯 SGD 的动量
              random_state= 42             # 为了获得可重复的结果
) 

# 训练模型
mlp.fit(X_train, y_train) 

# 进行预测并评估
y_pred = mlp.predict(X_test) 
accuracy = accuracy_score(y_test, y_pred) 
print(f"Accuracy: {accuracy:.2f}")

推荐阅读点击标题可跳转

1、神经网络背后的数学原理

2、神经网络是如何学习预测的？

3、信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

Python开发者

点击获取精选Python开发资源。「Python开发者」日常分享 Python 相关的技术文章、实用案例、工具资源、精选课程、热点资讯等。

我用免费大模型DIY了个作业批改助手，手机端可用！

Python即将成为TIOBE 2024年度编程语言

劝大家早点拿下软考证，风口已经很明显了

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

分享 7 个用 Python 开发成的数据库

GitHub 公开评测，国产 AI 表现……

GitHub谎报了Copilot的统计数据！两年了，我们还是没办法证明AI编程助手能提高代码质量

再用 `print` 进行 Python调试，你就OUT啦！

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 2024最佳论文

Python 3.13 中的 7 个新类型特性

最强图解微型神经网络--多层感知器

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

三种 Transformer 模型中的注意力机制介绍及 Pytorch 实现：从自注意力到因果自注意力

字节起诉前实习生，索赔 800 万

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

陪你一起刷题面试，字节跳动又出了一款新工具

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

B站知名up主何同学被指盗用开源项目——网友锐评「移源丁真：鉴定为自研」

太荒谬了！千人公司一刀切禁用 JetBrains，非俄籍“备胎” VSCode 上位

强烈建议尽快搞个软考证！（重大利好）

阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

裁员了，很严重，今年千万别离职

用Python实现十大经典排序算法(附动图)

字节回应大模型训练被实习生攻击

Python协会曝出丑闻：49万元被“熟人”挪用，发现时账户仅剩183元，险些破产

裁掉数千人、把工作外包给 AI！一年多后，这家巨头的 CEO 恳求无人搭理，预算还要超 5 亿？

Python3.8即将结束生命周期

时间序列特征提取：从理论到Python代码实践

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

一文让你搞懂 Python 的 pyc 文件

刚刚，诺贝尔物理学奖颁给AI教父！

深度学习六十年简史

17岁开发 AI 应用，4个月入账700万，开学第一天晒账单火了

腾讯居然还自研了 Git 客户端，也是没想到…

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

突发！高通拟收购英特尔；大连思科再裁员，补偿 N+7

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

PyTorch官宣：告别CUDA ！

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

又一款 AI 编码工具火出圈！OpenAI 投资、碾压 VS Code、8 岁女孩用它 45 分钟就能构建一款聊天机器人

韩国N号房卷土重来，这一次是Deepfake，波及超200所学校

谷歌SRE工程师打拼9年：年薪超60万美元、钱赚够了、对技术不再那么热爱

机器学习中的样本重要性权重 (Importance Weight)

谷歌推世界首个AI游戏引擎，2000亿游戏产业恐颠覆！0代码生成游戏，老黄预言成真

突发！IBM中国研发岗访问权限一夜关闭，千人或被裁

终于有人将Transformer可视化了！

下载量超 5000 万的知名应用，开发团队“全军覆没”，从此发版人唯剩老板一个

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉